初级爬虫开发工程师
北京新意互动数字技术有限公司
- 公司性质:合资
- 公司行业:广告
职位信息
- 发布日期:2019-08-23
- 工作地点:北京
- 招聘人数:1人
- 工作经验:无工作经验
- 学历要求:招1人
- 语言要求:不限
- 职位月薪:3-4千/月
- 职位类别:其他
职位描述
工作职责:
1、负责公司分布式爬虫系统的设计与开发、日常维护及性能优化等,打造高可用的数据采集、数据处理与分析的分布式资源管控与任务调度平台;
2、负责或参与分析网站特征、js逆向,反爬破解等(加分项);
3、负责对爬取数据进行结构化、归一化,衍生变量计算,去重、分类、垃圾过滤、质量分析等;
4、负责或参与爬虫核心算法和策略优化,提升爬虫抓取效率和质量。
任职资格:
1、 熟练掌握python或者java常规开发(两者都掌握优先),扎实的数据结构与算法能力。
2、 熟悉http协议及原理,ajax、jsonp等,
3、 熟悉使用浏览器调试工具、fiddler等进行抓包分析,捕捉分析网站特征,对模拟请求、模拟登陆等有一定了解
4、熟悉scrapy、webmagic等经典爬虫框架的使用及其原理
5、熟悉xpath、jsoup、fastjson等数据解析处理工具的使用
6、有掌握使用selenium驱动phandomjs无头浏览器或chrome、firefox等浏览器内核经验者优先
7、有Hadoop/Spark/Druid等分布式平台相关使用经验优先。
8、可以长时间实习优先,2020届毕业生优先。
职能类别:其他
公司介绍
北京新意互动数字技术有限公司诚聘