Python大模型数据爬取清洗工程师
苏州英格玛制造外包有限公司
- 公司规模:500-1000人
- 公司性质:民营公司
- 公司行业:专业服务(咨询、人力资源、财会)
职位信息
- 发布日期:2024-08-16
- 工作地点:上海
- 工作经验:2年及以上
- 学历要求:大专
- 职位月薪:1-1.2万
- 职位类别:Python大模型数据爬取清洗工程师
职位描述
岗位职责:
为人工智能领域研究提供高质量数据集,包括但不仅限于以下工作内容:
1、负责设计、开发、维护数据采集代码,收集互联网公开数据
2、负责指定网页、小程序、APP等内容采集以及抽取和去重等工作
3、负责合作数据对接、数据提取、清洗、结构化、入库等工作
任职要求:
1、2年及以上工作经验计算机相关专业,擅长互联网数据采集、大数据处理等一项或多项,富有责任心。
2、熟练掌握Python语言,对数据敏感,具有良好的逻辑分析能力;
3、熟悉Linux系统,熟悉Python编程语言,熟悉爬虫原理、常见的反爬虫技术和cookie的登录原理,掌握requests,selenium,scrapy等模块的用法,
4、熟悉常见的数据库,如redis、mongodb和mysql等其中一种或几种,有数据清洗分析的工作经验,了解大数据平台的基本原理;
5、熟悉多线程、反爬虫、验证码识并精通网页抓取原理及技术,熟练使用正则表达式、csspath、xpath等获取信息;
6、熟悉爬取的各类实现方式和技术细节,包括不限于:熟悉常见的反爬策略、掌握网络协议分析(http1.1/http2等)、有JavaScript反爬/逆向(AST)、APP反爬/逆向等;
热爱技术,喜欢钻研,注重代码质量,工作认真细致,有良好的协作意识;
五天八小时工作制,人力外包岗位哦。
为人工智能领域研究提供高质量数据集,包括但不仅限于以下工作内容:
1、负责设计、开发、维护数据采集代码,收集互联网公开数据
2、负责指定网页、小程序、APP等内容采集以及抽取和去重等工作
3、负责合作数据对接、数据提取、清洗、结构化、入库等工作
任职要求:
1、2年及以上工作经验计算机相关专业,擅长互联网数据采集、大数据处理等一项或多项,富有责任心。
2、熟练掌握Python语言,对数据敏感,具有良好的逻辑分析能力;
3、熟悉Linux系统,熟悉Python编程语言,熟悉爬虫原理、常见的反爬虫技术和cookie的登录原理,掌握requests,selenium,scrapy等模块的用法,
4、熟悉常见的数据库,如redis、mongodb和mysql等其中一种或几种,有数据清洗分析的工作经验,了解大数据平台的基本原理;
5、熟悉多线程、反爬虫、验证码识并精通网页抓取原理及技术,熟练使用正则表达式、csspath、xpath等获取信息;
6、熟悉爬取的各类实现方式和技术细节,包括不限于:熟悉常见的反爬策略、掌握网络协议分析(http1.1/http2等)、有JavaScript反爬/逆向(AST)、APP反爬/逆向等;
热爱技术,喜欢钻研,注重代码质量,工作认真细致,有良好的协作意识;
五天八小时工作制,人力外包岗位哦。
公司介绍
以承接服务外包方式从事企业的生产流程处理和品质检测处理,工厂管理咨询,为企业提供项目管理服务;以承接服务外包方式从事货运代理、装卸、搬运、仓储服务(危险品除外);以承接服务外包的方式从事商业流程外包(依法须经批准的项目,经相关部门批准后方可开展经营活动)
联系方式
- 公司地址:平泷路1258号天元辰广场4-5楼 (邮编:215000)