logo
更新:2024-05-15
AI参数服务器(PS)研发工程师/专家
3.5-6.5万
北京西城区-车公庄/西直门  | 本科  | 社招
去申请
收藏
举报
职位详情
餐补
股票期权
年终奖
五险一金
交通补助
加班补助
带薪年假
生日福利
定期体检
节日福利
绩效奖金
零食下午茶
团队负责一站式搜广推模型平台研发,包含样本数据流系统,分布式训练框架,参数服务器系统,在线预估推理服务系统,MLops平台化,各方向均有岗位空缺,欢迎沟通交流。

地点:北京、上海

职位描述:
团队负责研发一站式搜广推模型机器学习训练和推理平台,该岗位专注于分布式训练参数服务器(Parameter Server)系统的研发
1、负责研发搜广推稀疏大模型训练平台的分布式参数服务器(Parameter Server)系统,支持高吞吐的参数读写和更新服务,模型参数冷备能力、故障容灾能力、系统运维管理能力,支持系统扩缩容,具备系统功能和性能指标监控能力,满足搜广推稀疏大模型在线学习、特征准入和过期淘汰等算法需求;
2、参与模型训练,模型服务,资源调度等重要方向的研发,提升平台的效率和易用性,加速算法同学的模型迭代效率;
3、参与一站式机器学习平台研发,负责把PS系统集成到机器学习平台中,提供易用、稳定、高性能、平台化的参数服务器系统。

职位要求:
1、具备优秀的编码能力,扎实的数据结构和算法功底,熟练掌握C++编程语言;
2、有以下至少一项的背景知识与经验:分布式PS系统,分布式系统后台优化,高性能内存KV系统,基于NVMe-SSD的KV存储系统,高性能CS架构系统;
3、具有独立解决问题的能力,良好的团队合作精神;
4、本科及以上学历,工作经验3年以上。

加分项:
1、有搜广推训练和推理系统工程或模型研发经验;
2、熟悉主流深度学习框架(TensorFlow/PyTorch/PaddlePaddle/MindSpore);
3、熟悉分布式系统的设计和开发,有Redis、LevelDB/RocksDB、Pika、MQ(Kafka、RocketMQ等)及其他分布式系统基础组件(Zookeeper、ETCD 等)使用或二次开发经验;
4、有一站式机器学习平台研发或使用经验,熟悉MLOps平台功能;
5、有阿里云、华为云等云上环境研发部署经验,熟悉云厂商提供的存储系统、网络系统、文件系统的最佳实践开发流程。
工作地址
北京西城区西海48文化创意园区C栋
公司介绍
得物App致力于打造全球领先的新一代潮流网购社区。
正品潮流电商和潮流生活社区是平台的两大核心服务。得物App在传统电商模式的基础上添加"鉴别服务",推出了"先鉴别,后发货"的购物流程,为国内的年轻消费者带来全新的购物体验,让用户可以放心购买到品类丰富的经鉴别为正品的潮流商品。目前得物App的商品品类已经覆盖潮鞋、服饰、手表、配饰、潮玩、3C数码、家居家电、美妆、汽车等 。
同时作为年轻?的潮流生活社区,得物App聚集了一大批热爱球鞋、潮品穿搭和潮流文化的爱好者 ,通过持续沉淀潮流话题内容,得物App正在成为年轻用户的潮流风向标和发声阵地。
若用人单位提供虚假招聘信息,以担保或其他任何名义收取财物,扣押或以保管为名索要证件,都属于违法行为,应当提高警惕。
发布于boss直聘