网络爬虫工程师
成都市手信云搜索网络科技有限责任公司
- 公司规模:50-150人
- 公司性质:民营公司
- 公司行业:互联网/电子商务
职位信息
- 发布日期:2013-12-31
- 工作地点:成都
- 招聘人数:若干
- 工作经验:二年以上
- 职位类别:高级软件工程师 互联网软件开发工程师
职位描述
工作职责:
- 对指定网站进行数据抓取,清洗以及汇总的开发工作
- 互联网网站,网页,链接的特征挖掘
- 负责系统日常运营资源调度优化及运营指标分析调优,并能实时监控爬虫的进度和警报反馈
- 负责特殊网页采集任务的分析及采集方案设计
职位要求:
1、2年以上Java开发经验,精通Java网络编程,熟悉HTTP传输协议,能模拟浏览器操作爬虫。
2、精通网页抓取原理及技术,精通正则表达式,从结构化的和非结构化的数据中获取信息;
3、熟悉搜索引擎和网络爬虫相关技术,有网页采集、正则表达式、Hbase等相关开发经验者优先;
4、熟悉Lucene/Nutch/Heritrix/larbin/ HtmlClient/HtmlParser等开源工具;
5、熟悉HBase,MongoDB等NoSQL数据库,并至少精通一种关系型数据库的开发,如Mysql、Oracle、MSSQL等
- 对指定网站进行数据抓取,清洗以及汇总的开发工作
- 互联网网站,网页,链接的特征挖掘
- 负责系统日常运营资源调度优化及运营指标分析调优,并能实时监控爬虫的进度和警报反馈
- 负责特殊网页采集任务的分析及采集方案设计
职位要求:
1、2年以上Java开发经验,精通Java网络编程,熟悉HTTP传输协议,能模拟浏览器操作爬虫。
2、精通网页抓取原理及技术,精通正则表达式,从结构化的和非结构化的数据中获取信息;
3、熟悉搜索引擎和网络爬虫相关技术,有网页采集、正则表达式、Hbase等相关开发经验者优先;
4、熟悉Lucene/Nutch/Heritrix/larbin/ HtmlClient/HtmlParser等开源工具;
5、熟悉HBase,MongoDB等NoSQL数据库,并至少精通一种关系型数据库的开发,如Mysql、Oracle、MSSQL等
公司介绍
公司专业专注于互联网电子商务领域,专业开发ios、Android移动互联网应用终端。