大数据爬虫工程师 (职位编号:1)
深圳刷宝科技有限公司
- 公司规模:150-500人
- 公司性质:民营公司
- 公司行业:互联网/电子商务
职位信息
- 发布日期:2016-11-03
- 工作地点:深圳-南山区
- 招聘人数:1人
- 工作经验:3-4年经验
- 学历要求:专业培训
- 职位月薪:20000-24999/月
- 职位类别:算法工程师 互联网软件开发工程师
职位描述
职位描述:
岗位职责:
1.负责开发分布式网络爬虫系统,完成数据采集与爬取、解析处理、入库及备份等数据日常工作;
2.研究各种网页探寻特点和规律,负责网页信息抽取、数据清洗等研发和优化工作;
3.负责领域知识的定向爬取、深度提取和挖掘;
4.配合数据的清洗、整理、去重及合并等工作;
5.负责性能优化、处理能力和效率提高;负责与大数据工程师、数据挖掘、分析人员、运营及产品等协同工作,完成数据统计、查询和分析。
岗位要求:
1.熟悉网页抓取原理及技术,熟悉基于Cookie的网站登陆愿意,熟悉基于正则表达式、Xpath、CSS等网页信息;
2.精通Java/Python编程语言,精通Javascript,对HTTP协议及HTML有深入的了解;
3.精通正则表达式,用于从各种网络结构化和非结构化数据中抽取有用的信息;
4.熟练掌握数据库开发,对数据处理和数据质量有较深认识;精通至少一种主流数据NoSQL,MySQL数据库;
5.熟悉http client、js、ajax、webdriver、htmlunit、Nutch、seleniem、ETL、HtmlParser、Jsoup等技术优先;
6.3年及以上相关经验;具有验证码破解经验者优先;有自然语言处理及机器学习经验的优先。
举报
分享
岗位职责:
1.负责开发分布式网络爬虫系统,完成数据采集与爬取、解析处理、入库及备份等数据日常工作;
2.研究各种网页探寻特点和规律,负责网页信息抽取、数据清洗等研发和优化工作;
3.负责领域知识的定向爬取、深度提取和挖掘;
4.配合数据的清洗、整理、去重及合并等工作;
5.负责性能优化、处理能力和效率提高;负责与大数据工程师、数据挖掘、分析人员、运营及产品等协同工作,完成数据统计、查询和分析。
岗位要求:
1.熟悉网页抓取原理及技术,熟悉基于Cookie的网站登陆愿意,熟悉基于正则表达式、Xpath、CSS等网页信息;
2.精通Java/Python编程语言,精通Javascript,对HTTP协议及HTML有深入的了解;
3.精通正则表达式,用于从各种网络结构化和非结构化数据中抽取有用的信息;
4.熟练掌握数据库开发,对数据处理和数据质量有较深认识;精通至少一种主流数据NoSQL,MySQL数据库;
5.熟悉http client、js、ajax、webdriver、htmlunit、Nutch、seleniem、ETL、HtmlParser、Jsoup等技术优先;
6.3年及以上相关经验;具有验证码破解经验者优先;有自然语言处理及机器学习经验的优先。
职能类别: 算法工程师 互联网软件开发工程师
公司介绍
深圳刷宝科技有限公司(Swipal Technologies ShenZhen Co.,Ltd)成立于2013年,以下简称 刷宝科技,由资深前华为副总裁、东南亚及印 度区域总裁杨蜀先生创办,致力于打造最便捷安全的互联网惠民金融服务直通车,助力银行创新合作,服务大众全新体验。通过大数据、智能分析和云服务等先进技术手段,充分发挥互联网优势,依托银行服务大众,帮助金融机构及从业者精准地找寻目标客户,为用户匹配优质的金融资源,推动金融服务走近大众。
联系方式
- 公司地址:地址:spanTCL科学园国际E城F5栋1楼B区