职位详情
弹性工作制
餐饮及下午茶
法定节假日三薪
年度体检
带薪年假
补充医疗保险
节日礼品
绩效奖金
零食下午茶
包吃
定期体检
家庭关爱假
节假日加班费
加班补助
意外险
家属自选保险
就近租房补贴
免费健身设施
年终奖
五险一金
工作职责:
AML(Applied Machine Learning)机器学习系统团队专注于机器学习系统领域的前沿技术研究和落地,提供高性能、高可靠、可扩展的机器学习系统架构、丰富的异构计算资源和极致的端到端的机器学习服务体验,为全公司的产品和业务提供核心技术支持和服务。
1、负责维护机器学习系统的稳定运转,支持模型开发、训练与部署的多个环节;
2、负责资源的管理与规划,成本与预算,包括: GPU/CPU机器资源,存储等资源;
3、负责多地域、多机房的系统容灾、服务部署管理和集群机器治理;
4、负责集群、业务服务的稳定性治理,资源利用率提升和运维人效提升。
任职要求:
1、一年以上运维开发项目经验;
2、熟练掌握 Linux 环境下的 Go/Python/Shell 等1至2种以上语言;
3、有大型分布式系统的资源管理和任务调度系统运维经验,熟悉 Kubernetes生态和架构,具备1年以上相关的运维经验;
4、熟悉 Docker/Kata 等容器化技术,具备1年以上运维经验;
5、有强烈的工作责任心,较好的学习能力、沟通能力和自驱力,良好的团队合作精神;
6、有优秀的逻辑分析能力,能够对业务逻辑进行合理的抽象和拆分;
7、有良好的工作文档习惯,及时按要求撰写更新工作流程及技术文档。
加分项:
1、从事过大规模分布式系统的运维;
2、有 GPU 服务器的运维经验。