分布式训练计算平台运维架构工程师(A90000)_禾赛科技招聘

更新：2024-04-24

分布式训练计算平台运维架构工程师(A90000)

2-4万

上海长宁区｜ 3-5年｜本科｜社招

去申请

职位详情

岗位晋升

扁平管理

午餐补助

团队聚餐

通讯津贴

带薪年假

领导好

1、设计、部署和维护分布式训练计算平台的运维架构,包括集群管理、资源调度、监控和日志管理等方面；
2、配置和优化机器学习模型训练任务的资源分配和调度策略,以提是高平台的利用率和性能；
3、识别和解决平台运行中的故障和性能问题,包括但不限于网络各延迟、存储故障和计算资源不足等；
4、制定灾难恢复和备份策略,确保平台数据的可靠性和安全性生；
5、与开发团队合作,支持新功能和改进的部署,并确保其与现有平台兼容；
6、撰写和维护技术文档,包括系统架构、操作手册和故障排除指南等；
7、持续跟踪行业实践和新技术,为平台的持续改进提供建议和支持。

任职要求：
1、本科及以上学历,计算机科学、软件工程或相关专业背景；
2、3年以上大规模分布式系统运维经验,有机器学习平台或数据处理平台的运维经验者优先；
3、精通分布式计算框架,如Ray和KubeFlow,熟悉Kubernetes容器编排系统；
4、熟悉机器学习框架,如PyTorch和TensorFlow,对深度学习模型训练有一定了解；
5、精通Python语言编程,具备良好的编程和脚本能力；
6、精通Linux系统管理和Shell脚本编程；
7、具备良好的问题分析和解决能力,能够快速定位和解决复杂的技术问题；
8、出色的团队合作和沟通能力,能够与多个团队紧密合作,推动项目的进展；
9、有较强的自我驱动能力和持续学习意识,能够不断适应和掌握新技术。

工作地址

上海-长宁区海粟文化广场

公司介绍

上海禾赛科技有限公司是一家全球化的激光雷达研发与制造企业。公司产品广泛应用于支持高级辅助驾驶系统（ADAS）的乘用车和商用车，以及自动驾驶汽车。禾赛的激光雷达技术也致力赋能各类机器人应用，例如无人配送车和封闭区域内的物流机器人等。禾赛在光学、机械、电子、软件等激光雷达核心领域有着卓越的研发能力和深厚的技术积累，其激光雷达产品已成功经过市场验证，截至 2022 年底累计交付量超过 10 万台。禾赛将激光雷达的制造工艺融入到研发设计流程中，在促进产品快速迭代的同时，保证高性能、高可靠性与高性价比。禾赛的客户包括全球主流汽车厂商、自动驾驶和机器人公司，遍及全球 40 个国家、90 多个城市。

工商信息

以下信息来自