java爬虫开发工程师 (职位编号:1502)
广州市华谊通用科技有限公司
- 公司规模:少于50人
- 公司性质:民营公司
- 公司行业:计算机软件
职位信息
- 发布日期:2020-09-15
- 工作地点:广州-天河区
- 招聘人数:2人
- 工作经验:2年经验
- 学历要求:本科
- 职位月薪:2-2.5万/月
- 职位类别:爬虫开发工程师 Java开发工程师
职位描述
1、负责搭建或维护爬虫系统开发网页数据的自动化爬取脚本,设计和开发分布式网络爬虫系统,进行多平台信息的抓取和分析工作;
2、负责数据的抓取、解析、清洗、入库;
3、研究设计爬虫模板提高扩展性加快开发效率;
4、持续优化系统提高系统的稳定性。
5、负责数据抓取平台规划和建设,完成数据采集与爬取、解析处理和入库;
6、研究各种网页探寻特点和规律,负责网页信息抽取、数据清洗工作;
7、负责领域知识的定向爬取、深度提取和挖掘;
8、配合数据清洗、整理、去重和合并工作;
9、负责网页信息和APP数据抽取、清洗、消重等工作,提升平台的抓取效率;
10、参与爬虫核心算法和策略优化,熟悉采集系统的调度策略;
11、实时监控爬虫的进度和警报反馈。
任职要求:
1、有JS逆向、APP逆向经验的有先;
2、有扎实的算法和数据结构能力;
3、能够使用主流的爬虫框架构建爬虫;
4、熟悉爬虫原理,熟悉常见的反爬虫技术,有爬虫相关项目开发经验者优先;
5、掌握http协议,熟悉html、dom、xpath等常见的数据抽取技术;
6、有大规模数据处理、数据挖掘、信息提取等经验者优先
7、有移动app端数据爬取经验者优先。
8、必须掌握一款抓包工具的使用,熟悉常用的浏览器调试技术,熟悉常见的反爬机制及对应的应对措施,如cookie识别。
9、精通网页爬虫、分布式、多线程开发技术。
10、具有攻克难题的强烈兴趣,以及提升技术能力的意愿。
11、熟悉Javascript、HTML、CSS、正则表达式、xPath等信息抽取技术熟悉抓包分析请求并模拟;
12、熟悉运用Linux操作系统理解进程、线程等概念和联系能独立解决简单常见的问题;
13、熟悉MYSQL、Redis、MongoDB等数据库操作能进行简单的数据库优化。
公司介绍
联系方式
- 公司地址:地址:span珠江新城华夏路16号富力盈凯广场22楼