职位详情
餐补
股票期权
年终奖
五险一金
交通补助
加班补助
带薪年假
生日福利
定期体检
节日福利
绩效奖金
零食下午茶
团队负责一站式搜广推模型平台研发,包含样本数据流系统,分布式训练框架,参数服务器系统,在线预估推理服务系统,MLops平台化,各方向均有岗位空缺,欢迎沟通交流。
地点:北京、上海
职位描述:
团队负责研发一站式搜广推模型机器学习训练和推理平台,该岗位专注于分布式训练参数服务器(Parameter Server)系统的研发
1、负责研发搜广推稀疏大模型训练平台的分布式参数服务器(Parameter Server)系统,支持高吞吐的参数读写和更新服务,模型参数冷备能力、故障容灾能力、系统运维管理能力,支持系统扩缩容,具备系统功能和性能指标监控能力,满足搜广推稀疏大模型在线学习、特征准入和过期淘汰等算法需求;
2、参与模型训练,模型服务,资源调度等重要方向的研发,提升平台的效率和易用性,加速算法同学的模型迭代效率;
3、参与一站式机器学习平台研发,负责把PS系统集成到机器学习平台中,提供易用、稳定、高性能、平台化的参数服务器系统。
职位要求:
1、具备优秀的编码能力,扎实的数据结构和算法功底,熟练掌握C++编程语言;
2、有以下至少一项的背景知识与经验:分布式PS系统,分布式系统后台优化,高性能内存KV系统,基于NVMe-SSD的KV存储系统,高性能CS架构系统;
3、具有独立解决问题的能力,良好的团队合作精神;
4、本科及以上学历,工作经验3年以上。
加分项:
1、有搜广推训练和推理系统工程或模型研发经验;
2、熟悉主流深度学习框架(TensorFlow/PyTorch/PaddlePaddle/MindSpore);
3、熟悉分布式系统的设计和开发,有Redis、LevelDB/RocksDB、Pika、MQ(Kafka、RocketMQ等)及其他分布式系统基础组件(Zookeeper、ETCD 等)使用或二次开发经验;
4、有一站式机器学习平台研发或使用经验,熟悉MLOps平台功能;
5、有阿里云、华为云等云上环境研发部署经验,熟悉云厂商提供的存储系统、网络系统、文件系统的最佳实践开发流程。