爬虫工程师
深圳市荜博网络技术有限公司
- 公司规模:少于50人
- 公司性质:民营公司
- 公司行业:互联网/电子商务
职位信息
- 发布日期:2015-04-27
- 工作地点:深圳-南山区
- 招聘人数:若干
- 职位月薪:面议
- 职位类别:算法工程师
职位描述
岗位职责:
设计和开发分布式的网络爬虫应用,进行互联网相关信息的抓取和分析;
搜索技术相关的系统模块的设计、开发和维护工作,达到高效稳定的效果;
编写相关的设计及开发文档;
抓取数据的深度提取和挖掘;
岗位要求:
熟悉爬虫、信息抽取、种子、去重、提取、过滤、分发、DNS cache、异步处理等概念和过程。
熟悉浏览器内核优先,熟悉webkit优先,熟悉scrapy,spynner,ghost,pyv8等开源库优先,有Ajax数据抓取,登录爬取,深网抓取等,反爬虫采集干扰等相关抓取经验的重点优先考虑。
具备信息检索、web挖掘等搜索引擎相关知识,有从事网络爬虫、网页去重、网页信息抽取、网页分类的中任一种程序开发经验。
了解搜索、爬虫、数据分析相关的开源软件(lucene,solr,firtex,lemur,indri,nutch,hadoop,larbin,QT webkit,Scrapy,Storm,Spark)的一种或多种。以及相关原理。
了解分布式计算和存储基本技术和开源软件 (Mongodb,Mysql,redis,HDFS API,Hbase API,BDB,Memcache,MapReduce,RPC技术)的一种或多种,以及相关原理
设计和开发分布式的网络爬虫应用,进行互联网相关信息的抓取和分析;
搜索技术相关的系统模块的设计、开发和维护工作,达到高效稳定的效果;
编写相关的设计及开发文档;
抓取数据的深度提取和挖掘;
岗位要求:
熟悉爬虫、信息抽取、种子、去重、提取、过滤、分发、DNS cache、异步处理等概念和过程。
熟悉浏览器内核优先,熟悉webkit优先,熟悉scrapy,spynner,ghost,pyv8等开源库优先,有Ajax数据抓取,登录爬取,深网抓取等,反爬虫采集干扰等相关抓取经验的重点优先考虑。
具备信息检索、web挖掘等搜索引擎相关知识,有从事网络爬虫、网页去重、网页信息抽取、网页分类的中任一种程序开发经验。
了解搜索、爬虫、数据分析相关的开源软件(lucene,solr,firtex,lemur,indri,nutch,hadoop,larbin,QT webkit,Scrapy,Storm,Spark)的一种或多种。以及相关原理。
了解分布式计算和存储基本技术和开源软件 (Mongodb,Mysql,redis,HDFS API,Hbase API,BDB,Memcache,MapReduce,RPC技术)的一种或多种,以及相关原理
公司介绍
我们是谁:
车生活总部位于深圳南山,2014年4月成立;
全国首家汽车市场信息搜索整合平台;
我们有什么:
五险一金,带薪年假,法定节假日;
女神,萌妹,男女比例6:4;
牛津硕士背景技术负责人,腾讯系员工占比33%;
高颜值Boss陪你一起LOL,带你装逼带你飞;
我们需要你:
如果你是代码与文字共骚的技术帝
或是美貌与智慧并重的鼓励师
那么来BTBO工作吧,让我们一起杀死无聊!
车生活总部位于深圳南山,2014年4月成立;
全国首家汽车市场信息搜索整合平台;
我们有什么:
五险一金,带薪年假,法定节假日;
女神,萌妹,男女比例6:4;
牛津硕士背景技术负责人,腾讯系员工占比33%;
高颜值Boss陪你一起LOL,带你装逼带你飞;
我们需要你:
如果你是代码与文字共骚的技术帝
或是美貌与智慧并重的鼓励师
那么来BTBO工作吧,让我们一起杀死无聊!
联系方式
- 公司地址:上班地址:建安二路与庄边路交界处车生活智慧车管家