上海 [切换城市] 上海招聘上海计算机软件招聘上海高级软件工程师招聘

爬虫工程师

浙江瀚叶股份有限公司上海分公司

  • 公司规模:10000人以上
  • 公司性质:上市公司
  • 公司行业:影视/媒体/艺术/文化传播

职位信息

  • 发布日期:2019-11-12
  • 工作地点:上海-浦东新区
  • 招聘人数:1人
  • 工作经验:2年经验
  • 学历要求:本科
  • 职位月薪:1-1.5万/月
  • 职位类别:高级软件工程师  软件工程师

职位描述

1. 参与公司所需的爬虫系统架构设计、数据库设计,负责设计、开发、维护大数据分析处理相关的软件产品和模块,开发主要使用语言为Java、python;

  2. 负责网络爬虫的核心技术研究和开发,参与各种核心搜索策略、算法、数据聚类、重组的设计与开发;

3. 对互联网海量业务进行整合、搭建数据采集平台,建立爬虫系统,通过对数据的抓取、解析、调度、存储等模块的拆分与优化,构建和完善统一的抓取服务平台;

        4. 能够快速且有效的进行数据清洗语文本挖掘;

  5.负责网页信息抽取等核心算法的研究和优化,并与公司大数据技术团队进行沟通,负责爬虫数据与业务系统的整合对接

  6. 负责重点目标站点的结构与URL特点分析,负责垂直领域与定向网站的数据采集、维护及数据异常的跟踪处理, 用脚本和程序对大规模数据进行处理和分析。

  7.了解主流的反爬机制。能够针对不同的反爬机制,制订数据爬取方案并完成相关爬虫开发。

职位要求:

1、熟悉多线程、多进程、网络通信编程相关知识,熟悉scrapy,pyspider,Beautifulsoup等爬虫框架;

  2、两年以上大规模网页爬虫开发经验, 熟悉JS,ajax,网页消重;

  3、能够总结分析不同网站,网页的结构特点及规律,能够应对反爬虫;

  4、有分布式、垂直领域爬虫开发经验优先;

  5、熟悉MySQL和MongoDB等数据库技术;

  6、熟悉Java、python等语言编程,对数据结构和算法设计有较为深刻的理解;

  7、优秀的分析问题和解决问题的能力,对解决具有挑战性问题充满激情;

  8、良好的团队合作精神,较强的沟通能力;

公司介绍

浙江瀚叶股份有限公司(股票代码:600226,股票简称:瀚叶股份)紧抓国家经济转型、文化产业改革发展的机遇,将文化娱乐作为公司战略发展重点。公司聚焦“优质内容生产”,广泛开展游戏、影视、综艺、体育等垂直细分领域的运营与投资,并积极探索和实践文化行业大数据研究,逐步构建相互交叉、相互促进的文化娱乐新生态体系,带动文化娱乐产品价值的立体化、矩阵式延伸。对于生物科技产业,公司通过产学研合作推进其产品技术提升、产业结构转型升级。
目前,瀚叶股份已形成瀚叶游戏、瀚叶影视、瀚叶传媒、瀚叶体育、瀚叶数据、瀚叶生物科技六大板块协同发展的产业格局。

联系方式

  • 公司地址:上海市浦东新区耀元路58号环球都会广场3号楼9楼