python工程师
天津博睿昆腾科技有限公司北京分公司
- 公司规模:少于50人
- 公司性质:事业单位
- 公司行业:计算机软件
职位信息
- 发布日期:2016-11-27
- 工作地点:北京-昌平区
- 招聘人数:1人
- 工作经验:5-7年经验
- 职位月薪:10000-14999/月
- 职位类别:软件工程师
职位描述
职位描述:
岗位职责:
1、负责开发分布式网络爬虫系统,完成数据采集与爬取、解析处理、入库及备份等数据日常工作;
2、研究各种网页探寻特点和规律,负责网页信息抽取、数据清洗等研发和优化工作;
3、负责领域知识的定向爬取、深度提取和挖掘;
4、配合数据的清洗、整理、去重及合并等工作;
5、负责性能优化、处理能力和效率提高;负责与大数据工程师、数据挖掘、分析人员、运营及产品等协同工作,完成数据统计、查询和分析。
任职要求:
1、 熟悉网页抓取原理及技术,熟悉基于Cookie的网站登录原理,熟悉基于正则表达式、Xpath、CSS等网页信息;
2、 精通Python编程语言,精通Javascript,对HTTP协议及HTML有深入的了解;
3、 精通正则表达式,用于从各种网络结构化和非结构化数据中抽取有用的信息;
4、 熟练掌握数据库开发,对数据处理和数据质量有较深认识;精通至少一种主流数据NoSQL、mysql数据库;
5、 熟悉http client、js, ajax, webdriver、htmlunit、Nutch、selenium、ETL、HtmlParser、Jsoup等技术优先;
6、 3年及以上相关经验;
7、 具有验证码破解经验者优先;
8、 有自然语言处理及机器学习经验的优先
举报
分享
岗位职责:
1、负责开发分布式网络爬虫系统,完成数据采集与爬取、解析处理、入库及备份等数据日常工作;
2、研究各种网页探寻特点和规律,负责网页信息抽取、数据清洗等研发和优化工作;
3、负责领域知识的定向爬取、深度提取和挖掘;
4、配合数据的清洗、整理、去重及合并等工作;
5、负责性能优化、处理能力和效率提高;负责与大数据工程师、数据挖掘、分析人员、运营及产品等协同工作,完成数据统计、查询和分析。
任职要求:
1、 熟悉网页抓取原理及技术,熟悉基于Cookie的网站登录原理,熟悉基于正则表达式、Xpath、CSS等网页信息;
2、 精通Python编程语言,精通Javascript,对HTTP协议及HTML有深入的了解;
3、 精通正则表达式,用于从各种网络结构化和非结构化数据中抽取有用的信息;
4、 熟练掌握数据库开发,对数据处理和数据质量有较深认识;精通至少一种主流数据NoSQL、mysql数据库;
5、 熟悉http client、js, ajax, webdriver、htmlunit、Nutch、selenium、ETL、HtmlParser、Jsoup等技术优先;
6、 3年及以上相关经验;
7、 具有验证码破解经验者优先;
8、 有自然语言处理及机器学习经验的优先
职能类别: 软件工程师
公司介绍
博睿昆腾科技有限公司前身是中企飞扬科技有限公司,成立于2008年,因业务扩张转型升级迎合市场的发展需要于2015年更名为博睿昆腾科技有限公司,总部位于美丽的天津市滨海新区,同时在北京成立子公司,并取得良好的市场业绩。通过多年的发展,博睿昆腾科技有限公司成为***高新技术企业、国家工商总局“守合同、重信用企业”、“天津市小巨人企业”、信息化建设领军企业。并取得近多项软件著作权及产品登记证书。
联系方式
- 公司地址:上班地址:黄平路19号泰华龙旗广场D座618室