爬虫开发工程师
北京益商慧评网络科技有限公司
- 公司规模:少于50人
- 公司性质:民营公司
- 公司行业:互联网/电子商务 通信/电信/网络设备
职位信息
- 发布日期:2014-08-07
- 工作地点:北京-海淀区
- 招聘人数:1
- 工作经验:二年以上
- 学历要求:本科
- 职位月薪:面议
- 职位类别:互联网软件开发工程师 软件工程师
职位描述
工作职责:
1、参与分布式爬虫架构设计和研发;
2、参与爬虫核心算法和策略优化研;
3、负责分布式爬虫模块的功能升级与维护;
4、负责分布式爬虫模块服务架构和数据存储架构的设计与升级;
5、负责分布式爬虫策略持续优化。
职位要求:
1、本科及以上学历,计算机相关专业,2年工作经验及以上;
2、精通C#或者java,熟悉多线程、网络编程;
3、具备python脚本语言使用经验;
4、熟悉爬虫、种子、去重、提取、过滤、分发、DNS cache、异步处理等概念和过程;
5、具备信息检索、web挖掘等搜索引擎相关知识,有从事网络爬虫、网页去重、网页信息抽取、网页分类的中任一种程序开发经验;
6、了解搜索和爬虫开源软件(lucene,solr,firtex,lemur,indri ,nutch, hadoop,larbin,QT webkit)的一种或多种,以及相关原理;
7、了解分布式计算和存储基本技术和开源软件 (mysql ,Queue Q4M, activeMQ ,TTserver,redis,hadoop,Hbase,dbd)的一种或多种,以及相关原理;
8、经常阅读英文软件资料,可使用工具google 文档等寻找,解决问题;
9、热爱互联网,对搜索技术和探索未知领域有浓厚的兴趣。
项目经验优先说明: 具备spider 相关模块研发经验,熟悉 spider 分布式抓取和策略优化者优先,有过分布式爬虫架构/实现,开源浏览器内核引擎开发经验的求职者优先。
1、参与分布式爬虫架构设计和研发;
2、参与爬虫核心算法和策略优化研;
3、负责分布式爬虫模块的功能升级与维护;
4、负责分布式爬虫模块服务架构和数据存储架构的设计与升级;
5、负责分布式爬虫策略持续优化。
职位要求:
1、本科及以上学历,计算机相关专业,2年工作经验及以上;
2、精通C#或者java,熟悉多线程、网络编程;
3、具备python脚本语言使用经验;
4、熟悉爬虫、种子、去重、提取、过滤、分发、DNS cache、异步处理等概念和过程;
5、具备信息检索、web挖掘等搜索引擎相关知识,有从事网络爬虫、网页去重、网页信息抽取、网页分类的中任一种程序开发经验;
6、了解搜索和爬虫开源软件(lucene,solr,firtex,lemur,indri ,nutch, hadoop,larbin,QT webkit)的一种或多种,以及相关原理;
7、了解分布式计算和存储基本技术和开源软件 (mysql ,Queue Q4M, activeMQ ,TTserver,redis,hadoop,Hbase,dbd)的一种或多种,以及相关原理;
8、经常阅读英文软件资料,可使用工具google 文档等寻找,解决问题;
9、热爱互联网,对搜索技术和探索未知领域有浓厚的兴趣。
项目经验优先说明: 具备spider 相关模块研发经验,熟悉 spider 分布式抓取和策略优化者优先,有过分布式爬虫架构/实现,开源浏览器内核引擎开发经验的求职者优先。
公司介绍
公司由北京大学信息科学技术学院毕业生团队创业成立,依托自身在自然语言理解、搜索引擎、数据挖掘等相关领域的研发实力,致力于实现垂直领域的网络文本挖掘应用,目前已推出成熟的应用产品,获得业内融资,并成为国内顶级互联网企业的战略合作伙伴。为了快速实现在不同垂直领域的产品线扩张,团队诚邀有创业热情和梦想的年轻人加入,与团队一起成长,一起拼搏属于自己的事业。
联系方式
- 公司网站:http://www.brandwisdom.cn
- 公司地址:北京市海淀区中关村善缘街1号立方庭大厦2段812
- 邮政编码:100080
- 电话:(010)62416649