大语言模型LLM强化学习技术专家_北京三快在线科技有限公司招聘

更新：2024-05-08

大语言模型LLM强化学习技术专家

3.5-6.5万

北京朝阳区-望京｜ 3-5年｜硕士｜社招

去申请

职位详情

带薪年假

年终奖

全勤奖

绩效奖金

交通补助

底薪加提成

团建聚餐

有无线网

五险一金

保底工资

岗位职责：
1.负责LLM强化学习链路整体优化，包括数据探索与增强、奖励模型优化、RL策略迭代及效果评估等，持续提升算法的效率与效果；
2.强化学习技术前瞻探索，包括但不限于离线强化学习、环境模型学习、约束强化学习等方向；
3.开展大语言模型在搜索、推荐、广告等业务场景中的应用并实现业务目标。

岗位基本要求：
1.三年以上相关工作经验，具备搜索、推荐、广告等至少其一领域的算法优化和业务实践；
2.扎实的算法基础，熟悉强化学习、自然语言处理和机器学习技术，对技术开发及应用有热情；
3.具备RL算法优化和项目实践经验，熟悉DQN、TRPO、PPO、SAC、BCQ、MCQ、SUNRISE等强化学习算法，能够基于实际业务问题优化算法；
4.熟悉Python、Java等至少一种编程语言，具有良好的编程能力和扎实的数学理论基础；
5.熟悉Tensorflow、PyTorch等深度学习框架并有实际项目经验；
6.关注行业前沿进展，对技术开发及应用有热情，有自己的想法并乐于挑战自我；
7.良好的沟通能力和跨团队协作能力，能够梳理繁杂的工作并建立有效机制，推动上下游配合完成目标。

具备以下优先：
1.在ICML、KDD、SIGIR、WWW、ICLR等顶级会议或期刊上发表过论文者优先。获得过国际或国内赛事奖项者优先；
2.有大语言模型算法优化和大规模分布式RL框架优化经验优先。

工作地址

北京朝阳区望京恒电大厦C座

公司介绍

美团是一家科技零售公司。美团以“零售+科技”的战略践行“帮大家吃得更好，生活更好”的公司使命。自2010年3月成立以来，美团持续推动服务零售和商品零售在需求侧和供给侧的数字化升级，和广大合作伙伴一起努力为消费者提供品质服务。2018年9月20日，美团在港交所挂牌上市。美团始终以客户为中心，不断加大在新技术上的研发投入。美团会和大家一起努力，更好承担社会责任，更多创造社会价值。

工商信息

以下信息来自