python工程师(爬虫)
宁波渠成集团有限公司
- 公司性质:民营公司
- 公司行业:多元化业务集团公司
职位信息
- 发布日期:2024-10-17
- 工作地点:宁波
- 工作经验:2年及以上
- 学历要求:本科
- 职位月薪:12-20万/年
- 职位类别:数据库工程师/管理员 临床数据分析员
职位描述
岗位职责:
1、负责公司数据源抓取需求,满足公司对多源数据采集要求;
2、负责开发分布式爬虫框架,管理分布式爬虫服务器,开发任务调度引擎;
3、负责爬虫核心算法的策略优化研究,提升爬虫抓取效率和质量,提升网页抓取的效率和质量;
4、设计爬虫策略和防屏蔽规则,解决封账号、封IP、验证码、JS加密等难点攻克;
5、利用主流的大数据相关技术,对抓取后的网页数据进行清洗、存储等;并持续优化平台,以便满足各种爬取业务需求;
6、负责RPA相关开发工作,提升业务能效;
7、负责部分AI(RAG)相关开发工作。
岗位要求:
1、有扎实的数据结构和算法功底;
2、工作认真细致踏实,有较强的学习能力,熟悉常用爬虫工具;
3、熟悉linux开发环境,熟悉python等,熟悉其他开发语言优先;
4、理解http,熟悉html, DOM, xpath,css,js,ajax;
5、有Python分布式抓取系统的开发、架构经验,至少熟悉并使用过一种主流爬虫架构,如Scrapy、Gocolly、Webmagic等;
6、熟悉第三方RPA软件(弘玑、影刀、UiBot等)优先;
7、熟悉RAG流程优先,熟悉AI模型、RAG框架等优先;
8、熟悉反爬策略的应对,能够解决封账号、封IP、验证码、JS加密等问题;
9、熟悉Mysql、Redis、MongoDB等数据库,有过数据库调优和海量数据存储经验者优先。
1、负责公司数据源抓取需求,满足公司对多源数据采集要求;
2、负责开发分布式爬虫框架,管理分布式爬虫服务器,开发任务调度引擎;
3、负责爬虫核心算法的策略优化研究,提升爬虫抓取效率和质量,提升网页抓取的效率和质量;
4、设计爬虫策略和防屏蔽规则,解决封账号、封IP、验证码、JS加密等难点攻克;
5、利用主流的大数据相关技术,对抓取后的网页数据进行清洗、存储等;并持续优化平台,以便满足各种爬取业务需求;
6、负责RPA相关开发工作,提升业务能效;
7、负责部分AI(RAG)相关开发工作。
岗位要求:
1、有扎实的数据结构和算法功底;
2、工作认真细致踏实,有较强的学习能力,熟悉常用爬虫工具;
3、熟悉linux开发环境,熟悉python等,熟悉其他开发语言优先;
4、理解http,熟悉html, DOM, xpath,css,js,ajax;
5、有Python分布式抓取系统的开发、架构经验,至少熟悉并使用过一种主流爬虫架构,如Scrapy、Gocolly、Webmagic等;
6、熟悉第三方RPA软件(弘玑、影刀、UiBot等)优先;
7、熟悉RAG流程优先,熟悉AI模型、RAG框架等优先;
8、熟悉反爬策略的应对,能够解决封账号、封IP、验证码、JS加密等问题;
9、熟悉Mysql、Redis、MongoDB等数据库,有过数据库调优和海量数据存储经验者优先。
公司介绍
宁波渠成集团有限公司诚聘
联系方式
- Email:hr@lumi.cn
- 公司地址:鄞州区惠风东路利时金融大厦1号