logo
更新:2024-04-24
分布式训练计算平台运维架构工程师(A90000)
2-4万
上海长宁区  | 3-5年  | 本科  | 社招
去申请
收藏
举报
职位详情
岗位晋升
扁平管理
午餐补助
团队聚餐
通讯津贴
带薪年假
领导好
1、设计、部署和维护分布式训练计算平台的运维架构,包括集群管理、资源调度、监控和日志管理等方面;
2、配置和优化机器学习模型训练任务的资源分配和调度策略,以提是高平台的利用率和性能;
3、识别和解决平台运行中的故障和性能问题,包括但不限于网络各延迟、存储故障和计算资源不足等;
4、制定灾难恢复和备份策略,确保平台数据的可靠性和安全性生;
5、与开发团队合作,支持新功能和改进的部署,并确保其与现有平台兼容;
6、撰写和维护技术文档,包括系统架构、操作手册和故障排除指南等;
7、持续跟踪行业实践和新技术,为平台的持续改进提供建议和支持。

任职要求:
1、本科及以上学历,计算机科学、软件工程或相关专业背景;
2、3年以上大规模分布式系统运维经验,有机器学习平台或数据处理平台的运维经验者优先;
3、精通分布式计算框架,如Ray和KubeFlow,熟悉Kubernetes容器编排系统;
4、熟悉机器学习框架,如PyTorch和TensorFlow,对深度学习模型训练有一定了解;
5、精通Python语言编程,具备良好的编程和脚本能力;
6、精通Linux系统管理和Shell脚本编程;
7、具备良好的问题分析和解决能力,能够快速定位和解决复杂的技术问题;
8、出色的团队合作和沟通能力,能够与多个团队紧密合作,推动项目的进展;
9、有较强的自我驱动能力和持续学习意识,能够不断适应和掌握新技术。

工作地址
上海-长宁区海粟文化广场
公司介绍
上海禾赛科技有限公司是一家全球化的激光雷达研发与制造企业。公司产品广泛应用于支持高级辅助驾驶系统(ADAS)的乘用车和商用车,以及自动驾驶汽车。禾赛的激光雷达技术也致力赋能各类机器人应用,例如无人配送车和封闭区域内的物流机器人等。禾赛在光学、机械、电子、软件等激光雷达核心领域有着卓越的研发能力和深厚的技术积累,其激光雷达产品已成功经过市场验证,截至 2022 年底累计交付量超过 10 万台。禾赛将激光雷达的制造工艺融入到研发设计流程中,在促进产品快速迭代的同时,保证高性能、高可靠性与高性价比。禾赛的客户包括全球主流汽车厂商、自动驾驶和机器人公司,遍及全球 40 个国家、90 多个城市。
工商信息
以下信息来自
企业类型
有限责任公司(港澳台法人独资)
经营状态
开业
行业类型
科技推广和应用服务业
成立日期
2014年10月22日
注册地址
上海市嘉定区新徕路468号园区二号楼
统一社会信用代码
91310114320742767K
若用人单位提供虚假招聘信息,以担保或其他任何名义收取财物,扣押或以保管为名索要证件,都属于违法行为,应当提高警惕。
发布于猎聘网