采集工程师
万库标杆科技有限公司
- 公司规模:50-150人
- 公司性质:民营公司
- 公司行业:计算机软件
职位信息
- 发布日期:2019-06-17
- 工作地点:北京-海淀区
- 招聘人数:20人
- 工作经验:1年经验
- 学历要求:大专
- 职位月薪:0.6-1.2万/月
- 职位类别:软件工程师 大数据开发/分析
职位描述
主要职责:
1.遵守部门业务流程/规范并认真执行;
2.参与采集需求的验收,对所负责采集任务的验收结果负责;
3.负责分析网页的页面结构,验证采集路径、规则的正确性,输出分析报告;
4.负责依据分析报告编写种子采集脚本,完成种子采集并生成种子文件;
5.负责根据分析报告编写数据采集脚本,完成所编写脚本的自测;
6.负责解决采集及更新维护过程中采集脚本、种子、数据产生的错误;
7.根据部门任务目标制定个人月工作计划,接受绩效考核;
8.记录工作中发现、解决的问题到问题跟踪表并分享到知识库;
9.以问题为牵引,持续完善部门业务/流程/规范,提出采集系统的优化建议;
10.为新入职员工做业务培训、指导及问题的解决;
11.遵守公司管理制度,认同公司企业文化;
12.承接上级领导交办的临时任务。
任职条件要求:
专业
1.计算机、信息管理相关专业,本科及以上学历;
2.专业知识扎实者优先;
技能
1.熟悉图形化分析网页DOM结构、CSS选择器、JQUERY;
2.熟悉正则表达式/Javascript/JSON;
3.熟悉Python、Scrapy、Ajax请求过程;
4.了解MYSQL等关系型数据库和SQL语句;
5.了解Git、SVN、禅道、Chrome浏览器控制台、Navicat、VNC、SSH、NotePad++、Excel、Word工具;
6.能快速分析网站的分类结构和深层的数据组织逻辑;
项目经验
1.有1年及以上的数据采集或JS脚本编写经验;
2.有文献、新闻、商品、图片、音视频等采集经验者优先;
3.有验证码、登录验证等防抓取经验优先;
管理经验
不涉及
价值观
1.对工作严谨、勤勉;
2.有责任心、正直;
3.认同以客户为中心,责任结果为导向、以问题为牵引的流程化、制度化、精细化管理,质量至上;
4.有团队精神、高度配合、善于协作,乐于分享、优化创新;
综合素质(能力/思维模式)
1.有推动力、执行力、学习力、理解力、沟通力,能独立完成工作;
2.有较好的逻辑思维、层级思维;
3.安全保密、忠于职守;
公司介绍
万库标杆科技有限公司是中关村科技园区高新技术企业,注册资本1亿元人民币,历经22年, 秉承科学精神与匠人精神,致力于963个行业跨领域/跨行业知识图谱和知识引擎研发,在大数据、人工智能等领域提供产品与应用。
基础—963行业/学科语义知识图谱 (国家工程):
邀请了1100家科、研、院、所(中科院、社科院、清华、北大、国家图书馆等单位),9万多名专家参与,参考6万多种工具书,共同完成了目前全球最大,覆盖134个领域、963个行业、3.2亿主题的跨领域/跨行业知识图谱,覆盖中英文双语种。通过自适应、自学习核心算法实现跨领域/跨行业知识图谱的实时更新变化。被列为国家信息资源开发利用试点工程,并被颁布为国家标准和行业标准。
核心—数据到信息、信息到知识、知识到知识图谱:
以跨领域/跨行业知识图谱为核心基础,通过数据到信息、信息到知识、知识到知识图谱三大核心环节,建立知识关联,实现知识网状关联拓展。
应用—知识图谱搜索平台:
通过大数据建模、深网采集、数据语义处理、数据关联挖掘、关联索引、语义检索六大模块及语义关联算法体系,构建跨领域/跨行业知识图谱搜索平台。
产品—智能化、个性化知识图谱搜索服务:
为企业、科研院所、高等院校、个人等提供智能化、个性化知识图谱搜索服务,改变人们的知识获取方式(人找信息变成信息找人)和认知方式(多维度/多领域认知)。
个性化定制和知识付费已成为趋势,万库标杆专注于将知识使用、知识发现到知识创造变成财富。
企业文化 — 关联万物、重构价值
基础价值观:以(内/外)客户为中心;
以问题为牵引;
以责任结果为导向;
核心价值观:勤勉、严谨、专业 极致、卓越、使命;
正直、担当、专注 坚毅、奉献、忠诚;
素 质:学习力、沟通力、主动性、意志力、执行力;
计划力、组织力、协作力、领导力、控制力;
思 维:逻辑思维、系统思维、创新思维;
求贤标准 — 专业、专注
树立客户意识、团队意识、规则意识、专业意识和危机意识;
通过强大的执行力、学习力、担当力;
实现责任感、成就感、归属感和使命感。
您选择的不仅是一份工作而是一种价值观、思维模式、工作方式、甚至生活习惯!
让我们成为事业共同体、命运共同体、利益共同体!
汇众智、聚众力!
联系方式
- Email:hr@onecooo.com
- 公司地址:地址:span王庄路1号清华同方科技广场D座