岗位职责:
1. 基于分析、模拟、逆向工程等手段获取互联网公开数据;
2. 负责外部论坛、问答、博客、新闻、小说、剧本等各种数据源的内容抓取;
3. 能够独立分析爬虫需求,针对目标网站制定合适的爬虫策略,并实现代码编写与维护;
4. 具备良好的沟通能力和团队协作精神,能够与产品、数据等团队有效配合;
职位要求:
1. 计算机相关专业本科及以上学历,拥有2年及以上相关工作经验者优先;
2. 了解并应对常见的反爬虫策略,如 User-Agent 伪装、IP 代理和验证码识别等。
3. 熟练使用 Python 语言,以及 Requests、BeautifulSoup、Scrapy 等库和框架开发爬虫应用程序。
4. 熟练应用 XPath、CSS 选择器等技术,从 HTML 文档中定位和提取所需数据。
5. 熟练处理动态网页内容,如使用 Selenium 或其他方法抓取 JavaScript 生成的数据。
6. 熟练使用多线程、多进程或异步编程技术,提高爬虫的抓取速度和效率。