爬虫工程师
北京文创动力信息技术有限公司
- 公司规模:少于50人
- 公司性质:民营公司
- 公司行业:计算机软件
职位信息
- 发布日期:2015-06-27
- 工作地点:北京-朝阳区
- 招聘人数:1
- 工作经验:二年以上
- 学历要求:本科
- 职位类别:软件工程师
职位描述
爬虫工程师
职位职能: 软件工程师
职位描述:
岗位职责:
1、负责设计和开发分布式的网络爬虫应用,进行互联网相关信息的抓取和分析;
2、负责与搜索技术相关的系统模块的设计、开发和维护工作,达到高效稳定的效果;
3、负责网页信息抽取技术的研究和开发;
4、设计爬取、调度和抽取算法,优化系统;
5、负责抓取数据的深度提取和挖掘。
职位要求:
1、精通网页抓取原理及技术,精通正则表达式,从结构化的和非结构化的数据中获取信息;
2、熟悉linux平台开发,具备搜索引擎开发的研究背景和项目背景;
3、熟悉大型互联网内容搜索产品的设计, 架构, 对大数据量搜索应用有一定经验;
4、熟悉搜索引擎和网络爬虫相关技术;
5、熟悉Lucene/Nutch/Heritrix/HtmlParser等开源工具;
6、熟悉hadoop并行计算和编程框架,有HDFS、HBase、Solr使用经验优先;
7、具有数据挖掘、自然语言处理、信息检索、机器学习背景的优先。
职位职能: 软件工程师
职位描述:
岗位职责:
1、负责设计和开发分布式的网络爬虫应用,进行互联网相关信息的抓取和分析;
2、负责与搜索技术相关的系统模块的设计、开发和维护工作,达到高效稳定的效果;
3、负责网页信息抽取技术的研究和开发;
4、设计爬取、调度和抽取算法,优化系统;
5、负责抓取数据的深度提取和挖掘。
职位要求:
1、精通网页抓取原理及技术,精通正则表达式,从结构化的和非结构化的数据中获取信息;
2、熟悉linux平台开发,具备搜索引擎开发的研究背景和项目背景;
3、熟悉大型互联网内容搜索产品的设计, 架构, 对大数据量搜索应用有一定经验;
4、熟悉搜索引擎和网络爬虫相关技术;
5、熟悉Lucene/Nutch/Heritrix/HtmlParser等开源工具;
6、熟悉hadoop并行计算和编程框架,有HDFS、HBase、Solr使用经验优先;
7、具有数据挖掘、自然语言处理、信息检索、机器学习背景的优先。
公司介绍
我司是国内***的版权代理和版权服务专业机构,同时也是北京市新闻出版局(北京市版权局)北京版权资源信息中心独家运营机构。
以加强版权保护,聚集产业资源,推动产业合作,促进产业发展为己任,为版权行政管理部门、文化创意产业园区、新闻出版、广播影视、音乐、艺术、教育、互联网、软件等领域的文创企业,以及版权中介服务机构、法律和科研服务机构等提供专业化的版权产业服务。
我司涉及的领域有:版权服务、软件研发(研发自己的APP)、电子商务、活动策划等。
以加强版权保护,聚集产业资源,推动产业合作,促进产业发展为己任,为版权行政管理部门、文化创意产业园区、新闻出版、广播影视、音乐、艺术、教育、互联网、软件等领域的文创企业,以及版权中介服务机构、法律和科研服务机构等提供专业化的版权产业服务。
我司涉及的领域有:版权服务、软件研发(研发自己的APP)、电子商务、活动策划等。
联系方式
- 公司地址:华普国际大厦 714