爬虫工程师
浙江瀚叶股份有限公司上海分公司
- 公司规模:10000人以上
- 公司性质:上市公司
- 公司行业:影视/媒体/艺术/文化传播
职位信息
- 发布日期:2019-11-12
- 工作地点:上海-浦东新区
- 招聘人数:1人
- 工作经验:2年经验
- 学历要求:本科
- 职位月薪:1-1.5万/月
- 职位类别:高级软件工程师 软件工程师
职位描述
1. 参与公司所需的爬虫系统架构设计、数据库设计,负责设计、开发、维护大数据分析处理相关的软件产品和模块,开发主要使用语言为Java、python;
2. 负责网络爬虫的核心技术研究和开发,参与各种核心搜索策略、算法、数据聚类、重组的设计与开发;
3. 对互联网海量业务进行整合、搭建数据采集平台,建立爬虫系统,通过对数据的抓取、解析、调度、存储等模块的拆分与优化,构建和完善统一的抓取服务平台;
4. 能够快速且有效的进行数据清洗语文本挖掘;
5.负责网页信息抽取等核心算法的研究和优化,并与公司大数据技术团队进行沟通,负责爬虫数据与业务系统的整合对接
6. 负责重点目标站点的结构与URL特点分析,负责垂直领域与定向网站的数据采集、维护及数据异常的跟踪处理, 用脚本和程序对大规模数据进行处理和分析。
7.了解主流的反爬机制。能够针对不同的反爬机制,制订数据爬取方案并完成相关爬虫开发。
职位要求:
1、熟悉多线程、多进程、网络通信编程相关知识,熟悉scrapy,pyspider,Beautifulsoup等爬虫框架;
2、两年以上大规模网页爬虫开发经验, 熟悉JS,ajax,网页消重;
3、能够总结分析不同网站,网页的结构特点及规律,能够应对反爬虫;
4、有分布式、垂直领域爬虫开发经验优先;
5、熟悉MySQL和MongoDB等数据库技术;
6、熟悉Java、python等语言编程,对数据结构和算法设计有较为深刻的理解;
7、优秀的分析问题和解决问题的能力,对解决具有挑战性问题充满激情;
8、良好的团队合作精神,较强的沟通能力;
公司介绍
浙江瀚叶股份有限公司(股票代码:600226,股票简称:瀚叶股份)紧抓国家经济转型、文化产业改革发展的机遇,将文化娱乐作为公司战略发展重点。公司聚焦“优质内容生产”,广泛开展游戏、影视、综艺、体育等垂直细分领域的运营与投资,并积极探索和实践文化行业大数据研究,逐步构建相互交叉、相互促进的文化娱乐新生态体系,带动文化娱乐产品价值的立体化、矩阵式延伸。对于生物科技产业,公司通过产学研合作推进其产品技术提升、产业结构转型升级。
目前,瀚叶股份已形成瀚叶游戏、瀚叶影视、瀚叶传媒、瀚叶体育、瀚叶数据、瀚叶生物科技六大板块协同发展的产业格局。
目前,瀚叶股份已形成瀚叶游戏、瀚叶影视、瀚叶传媒、瀚叶体育、瀚叶数据、瀚叶生物科技六大板块协同发展的产业格局。
联系方式
- 公司地址:上海市浦东新区耀元路58号环球都会广场3号楼9楼