职位详情
五险一金
年终奖
股票期权
加班补助
带薪年假
节日福利
交通补助
员工旅游
包吃
要从全球(国内/海外)互联网里获取和构建优质信息,因此需要你:
1、通过最先进的机器学习模型,研发链接质量算法,从互联网里找出最优质的链接,提高覆盖率、时效性等指标;
2、对网站、网页、链接进行深入研究,应用graph相关算法知识研发优质站、领域站、垃圾站等识别和应用算法;
3、利用Bert/大模型等NLP技术对网页进行语义理解,从网页中抽取所有信息构建知识库;
4、研发网页信息的去重、分类、安全识别等算法,提高网页库的各种评估指标;
5、其他数据采集建设相关的工作。
职位要求
1、出色的分析问题,解决问题能力,能从纷繁复杂的数据中分析出问题本质;
2、优秀的代码能力,数据结构和基础算法功底,精通C/C++语言,熟悉linux平台、python/shell编程;
3、熟练掌握深度学习、传统机器学习、数据统计模型、熟悉使用一种或几种深度学习框架(如tensorflow、pytorch),熟悉hive/spark/flink/mr等分布式计算编程者;
4、熟悉数据分析,数据挖掘,对网页抓取/页面解析等有经验者优先。