爬虫工程师
广东亿迅科技有限公司
- 公司规模:1000-5000人
- 公司行业:计算机软件
职位信息
- 发布日期:2019-11-07
- 工作地点:广州-海珠区
- 招聘人数:1人
- 工作经验:3-4年经验
- 学历要求:本科
- 职位月薪:0.8-1.2万/月
- 职位类别:其他
职位描述
工作职责:
1、负责研究网站特质,数据要素分析、提取、整合,网页信息抓取、解析、数据清洗等研发和优化工作;
2、参与爬虫相关数据存储机制设计,参与设计数据有效利用策略,从数据合理性、完整性角度提供建议
3. 参与爬虫核心算法的策略优化研究,提升抓取的效率和质量和研究反爬虫屏蔽技术。
4、维护现有网络爬虫系统,完成数据采集与爬取、解析处理、入库等数据日常工作,跟进技术热点,及时更新新的爬虫功能;
5、负责设计公司网络爬虫的功能开发及优化。
任职资格:
1、具有3年以上爬虫开发经验者,精通python,有多线程经验优先;
2、熟悉linux平台、shell编程,熟悉常用的爬虫框架如scrapy;
3、熟悉正则表达式,Jsoup、XPATH,CSS选择器,能够从结构化和非机构化的数据中获取信息,了解各种Web前端技术,包括HTML/XML/JavaScript/AJAX/JSON等;
4、实现大规模文本、图像、视频数据的抓取工作,掌握简单的验证码识别技术、AJAX网页采集技术 以及爬虫高并发技术,流式处理经验者优先;
6、对主流爬虫架构有深入研究,具有成熟爬虫工具的设计及运维经验;
7、具备信息检索、web挖掘等搜索引擎相关知识,有从事网络爬虫、网页去重、网页信息抓取、网页分类中任一种程序开发经验;
职能类别:其他
公司介绍
中国电信广东亿迅科技有限公司成立于2001年,注册资本1.5亿元,同时挂牌“中电信数智科技有限公司广东分公司”和“广东电信综合解决方案中心”,共设立广州总部、武汉研发基地、北京分公司和21个广东地市分公司,拥有物联网、人工智能、信创、安全等前沿领域的实验室。员工总数超2800人,其中技术人员占比88%以上。
作为中国电信专业子公司,亿迅始终站在中国电信信息化应用的最前沿,围绕数字政府、政法公安、住建、工业互联网、交通物流、中小商客、运营商信息化等业务方向,为电信运营商、政府及行业用户提供专业解决方案和信息化服务。
作为中国电信专业子公司,亿迅始终站在中国电信信息化应用的最前沿,围绕数字政府、政法公安、住建、工业互联网、交通物流、中小商客、运营商信息化等业务方向,为电信运营商、政府及行业用户提供专业解决方案和信息化服务。
联系方式
- Email:liangzg1.gd@chinatelecom.cn
- 电话:13750096091