岗位职责:
1、 负责业务所涉及数据的爬取,清洗,结构化,入库。
2、 负责持续运营和更新爬虫以及数据。
3、 负责爬虫的性能优化,如:处理性能,爬取策略,占用带宽,反爬虫机制等方面。
4、 能够在一定程度上统计和分析爬虫数据。
职位要求:
1. 全日制本科及以上学历,计算机相关专业;
2. 熟练掌握java或python编程语言,熟悉多线程编程,熟悉scrapy、pyspider、webmagic、nutch等其中一个或多个爬虫框架以及原理;
3. 熟悉网页抓取的原理和技术,精通正则表达式,熟悉网络协议及数据交换标准,能够快速解析各类结构化及非结构化数据;
4. 有redis、memcache、HBase、Lucene、Solr、ElasticSearch等相关使用经验的优先,有分布式爬虫系统的开发经验优先;
5. 具有良好的语言表达和文档撰写能力,能够熟练阅读英文文档和论文;
6. 有责任心,工作有计划性,有良好的学习能力,具备优秀的沟通能力和团队精神;