职位详情
岗位职责:
1.负责爬虫引擎核心功能开发及优化、架构设计、系统规划,以及爬虫技术的技术调研;
2.负责大数据的数据采集与爬取、解析处理、入库及备份等数据日常工作;
3.负责数据的清洗、整理、整合及合并等工作;
4.破解反爬机制,优化爬虫路由调度策略,同时负责反爬策略的设计及优化;
5.负责高性能爬虫系统的后台监控、报警模块的开发。
职位要求:
1.熟练使用C/C++、Java、C#、.Net、Go中一种编程语言,熟悉至少一种脚本语言,如shell、python进行工作;
2.熟悉爬虫的设计及实现流程,至少4年互联网数据抓取及爬虫经验;
3.熟悉缓存数据库redis,关系型数据库mysql、Oracle等,非关系型数据库MangDB,具备sql调优经验;
4.了解各种Web前端技术,包括XHTML/XML/CSS/JavaScript/AJAX等;
5.了解文本分类、统计分析、自然语言处理、机器学习算法等技术;
6.熟悉反爬虫机制并有对应的破解方案;
7.处理爬取过超过百万数量级的数据量;
8.有大数据相关开发经验者优先,熟悉分布式计算,有多线程、分布式、网络数据抓取及处理经验优先;
9.有政府政务行业工作经验优先,尤其社会信用方向。