广州 [切换城市] 广州招聘

java爬虫开发工程师 (职位编号:1502)

广州市华谊通用科技有限公司

  • 公司规模:少于50人
  • 公司性质:民营公司
  • 公司行业:计算机软件

职位信息

  • 发布日期:2020-09-15
  • 工作地点:广州-天河区
  • 招聘人数:2人
  • 工作经验:2年经验
  • 学历要求:本科
  • 职位月薪:2-2.5万/月
  • 职位类别:爬虫开发工程师  Java开发工程师

职位描述

1、负责搭建或维护爬虫系统开发网页数据的自动化爬取脚本,设计和开发分布式网络爬虫系统,进行多平台信息的抓取和分析工作;

2、负责数据的抓取、解析、清洗、入库;

3、研究设计爬虫模板提高扩展性加快开发效率;

4、持续优化系统提高系统的稳定性。

5、负责数据抓取平台规划和建设,完成数据采集与爬取、解析处理和入库;

6、研究各种网页探寻特点和规律,负责网页信息抽取、数据清洗工作;

7、负责领域知识的定向爬取、深度提取和挖掘;

8、配合数据清洗、整理、去重和合并工作;

9、负责网页信息和APP数据抽取、清洗、消重等工作,提升平台的抓取效率;

10、参与爬虫核心算法和策略优化,熟悉采集系统的调度策略;

11、实时监控爬虫的进度和警报反馈。

任职要求:

1、有JS逆向、APP逆向经验的有先;

2、有扎实的算法和数据结构能力;

3、能够使用主流的爬虫框架构建爬虫;

4、熟悉爬虫原理,熟悉常见的反爬虫技术,有爬虫相关项目开发经验者优先;

5、掌握http协议,熟悉html、dom、xpath等常见的数据抽取技术;

6、有大规模数据处理、数据挖掘、信息提取等经验者优先

7、有移动app端数据爬取经验者优先。

8、必须掌握一款抓包工具的使用,熟悉常用的浏览器调试技术,熟悉常见的反爬机制及对应的应对措施,如cookie识别。

9、精通网页爬虫、分布式、多线程开发技术。

10、具有攻克难题的强烈兴趣,以及提升技术能力的意愿。

11、熟悉Javascript、HTML、CSS、正则表达式、xPath等信息抽取技术熟悉抓包分析请求并模拟;

12、熟悉运用Linux操作系统理解进程、线程等概念和联系能独立解决简单常见的问题;

13、熟悉MYSQL、Redis、MongoDB等数据库操作能进行简单的数据库优化。

公司介绍

人工智能AI

联系方式

  • 公司地址:地址:span珠江新城华夏路16号富力盈凯广场22楼