爬虫开发工程师
深圳市金蝶天燕中间件股份有限公司
- 公司规模:150-500人
- 公司性质:合资
- 公司行业:计算机软件
职位信息
- 发布日期:2017-10-22
- 工作地点:北京-朝阳区
- 工作经验:2年经验
- 学历要求:本科
- 语言要求:英语良好
- 职位月薪:1-1.5万/月
- 职位类别:软件工程师 互联网软件开发工程师
职位描述
职位描述:
岗位职责:
1. 负责设计和开发分布式的网络爬虫应用,进行互联网相关信息的抓取和分析;
2. 负责网页信息抽取技术的研究和开发;
3. 负责解决爬取过程中的各种反爬问题.
任职要求:
1、 熟悉网页抓取原理及技术,熟悉基于Cookie的网站登录原理,熟悉基于正则表达式、Xpath、CSS等网页信息;
2、 精通Python/java 编程语言,精通Javascript,对HTTP协议及HTML有深入的了解;
3、 精通正则表达式,用于从各种网络结构化和非结构化数据中抽取有用的信息;
4、 熟练掌握数据库开发,对数据处理和数据质量有较深认识;精通至少一种主流数据NoSQL、mysql数据库;
5、 熟悉http client、js, ajax, webdriver、htmlunit、Nutch、selenium、ETL、HtmlParser、Jsoup, webmagic等技术优先;
6、有海量数据爬取经验者优先;有爬取过微博,微信,淘宝等平台数据优先;具有自然语言处理、机器学习背景优先。
岗位职责:
1. 负责设计和开发分布式的网络爬虫应用,进行互联网相关信息的抓取和分析;
2. 负责网页信息抽取技术的研究和开发;
3. 负责解决爬取过程中的各种反爬问题.
任职要求:
1、 熟悉网页抓取原理及技术,熟悉基于Cookie的网站登录原理,熟悉基于正则表达式、Xpath、CSS等网页信息;
2、 精通Python/java 编程语言,精通Javascript,对HTTP协议及HTML有深入的了解;
3、 精通正则表达式,用于从各种网络结构化和非结构化数据中抽取有用的信息;
4、 熟练掌握数据库开发,对数据处理和数据质量有较深认识;精通至少一种主流数据NoSQL、mysql数据库;
5、 熟悉http client、js, ajax, webdriver、htmlunit、Nutch、selenium、ETL、HtmlParser、Jsoup, webmagic等技术优先;
6、有海量数据爬取经验者优先;有爬取过微博,微信,淘宝等平台数据优先;具有自然语言处理、机器学习背景优先。
职能类别: 软件工程师 互联网软件开发工程师
公司介绍
金蝶天燕始创于2000年,是国家规划布局内重点软件企业,值得信赖的公共管理云服务领航者,已在新三板挂牌,股票代码为871155。
金蝶天燕坚持自主创新,拥有完整自主知识产权的技术与产品,是“核高基”国家重大科技专项研制单位、国家自主可靠核心软件企业,以推动公共管理服务创新与发展为己任,已累计为50,000多家政企和行业客户、1000多家合作伙伴提供了软件与服务。
金蝶天燕承担金蝶集团政府与公共事业行业经营职责,以财务为基础,以大数据为抓手,与云计算技术技术相结合,创新性的推出“天燕云”,涵盖了政府财务应用、政务大数据服务、云基础设施等领域,全心全意用数字化技术推动公共管理服务创新,建设数字中国。
金蝶天燕坚持自主创新,拥有完整自主知识产权的技术与产品,是“核高基”国家重大科技专项研制单位、国家自主可靠核心软件企业,以推动公共管理服务创新与发展为己任,已累计为50,000多家政企和行业客户、1000多家合作伙伴提供了软件与服务。
金蝶天燕承担金蝶集团政府与公共事业行业经营职责,以财务为基础,以大数据为抓手,与云计算技术技术相结合,创新性的推出“天燕云”,涵盖了政府财务应用、政务大数据服务、云基础设施等领域,全心全意用数字化技术推动公共管理服务创新,建设数字中国。
联系方式
- 公司地址:地址:span科技南十二路2号金蝶软件园