职位详情
岗位晋升
扁平管理
午餐补助
团队聚餐
通讯津贴
带薪年假
领导好
1、设计、部署和维护分布式训练计算平台的运维架构,包括集群管理、资源调度、监控和日志管理等方面;
2、配置和优化机器学习模型训练任务的资源分配和调度策略,以提是高平台的利用率和性能;
3、识别和解决平台运行中的故障和性能问题,包括但不限于网络各延迟、存储故障和计算资源不足等;
4、制定灾难恢复和备份策略,确保平台数据的可靠性和安全性生;
5、与开发团队合作,支持新功能和改进的部署,并确保其与现有平台兼容;
6、撰写和维护技术文档,包括系统架构、操作手册和故障排除指南等;
7、持续跟踪行业实践和新技术,为平台的持续改进提供建议和支持。
任职要求:
1、本科及以上学历,计算机科学、软件工程或相关专业背景;
2、3年以上大规模分布式系统运维经验,有机器学习平台或数据处理平台的运维经验者优先;
3、精通分布式计算框架,如Ray和KubeFlow,熟悉Kubernetes容器编排系统;
4、熟悉机器学习框架,如PyTorch和TensorFlow,对深度学习模型训练有一定了解;
5、精通Python语言编程,具备良好的编程和脚本能力;
6、精通Linux系统管理和Shell脚本编程;
7、具备良好的问题分析和解决能力,能够快速定位和解决复杂的技术问题;
8、出色的团队合作和沟通能力,能够与多个团队紧密合作,推动项目的进展;
9、有较强的自我驱动能力和持续学习意识,能够不断适应和掌握新技术。