AI芯片和系统验证工程师(软件方向)(上海)
上海燧原科技有限公司
- 公司规模:150-500人
- 公司性质:合资
- 公司行业:电子技术/半导体/集成电路
职位信息
- 发布日期:2020-12-10
- 工作地点:上海
- 招聘人数:若干人
- 工作经验:本科
- 学历要求:招若干人
- 语言要求:不限
- 职位类别:大学/大专应届毕业生
职位描述
工作职责
- 制定测试计划,对AI/HPC系统中的关键功能进行端到端的功能使能和验证,从GPU IP级别、运算加速卡、AI服务器到HPC集群,包括软件栈的测试;
- 作为产品第一个用户来验证整个软件栈,从服务器到HPC集群;
- 调试软件,硬件问题;
- 与软件团队或客户合作开发AI应用或网络,来stress硬件或模拟不同的AI使用场景;
- 制定性能矩阵或基准,以衡量硬件、软件和服务的训练和推理性能。
职位基本要求
- EE或CS专业本科或硕士;
- 深入了解计算机架构、高性能编程和并行编程的知识;
- 有兴趣了解人工智能这个令人兴奋的新领域;
- 具有机器学习开发经验或在HPC, scientific libraries, compilers, digital signal processors or GPUs中编写和优化应用程序的相关经验;
- 对新技术的快速学习和团队合作精神;
- 良好的书面和口头沟通能力。
优选技能
- 有ML硬件、软件(如MLPerf、HPC AI500)的训练和推理性能benchmark经验;
- 具有CI&CD方面的经验;
- 具有深度学习软件架构和框架的工作经验,包括:Tensorflow、MxNet、Caffe、Caffe2、Torch和/或PyTorch、Tensorflow、MxNet、Caffe、Caffe2、Torch和/或PyTorch;
- 如下领域中的任何一个领域的经验: Docker、K8s、RDMA、分布式计算、Redfish等。
Job Responsibilities:
In this role, the candidate will be responsible for:
- Develop test plan to enable and validate key features end to end in AI/HPC system, from GPU IP level, accelerator card, AI server, to HPC cluster with final system solution software stack
- First internal user and validate the whole software stack including single server to HPC cluster
- Triage and debug software/hardware issues
- Work with software team or customer to develop application or network to stress hardware or MIMIC different AI usage scenarios
- Develop performance matrix or benchmark for measuring training and inference performance of ML hardware, software, and services
Job Requirements:
Education& Qualifications:
- Bachelor or MS in EE or CS
- In-depth knowledge of computer architectures, high performance programming and parallel programming
- Keen interest to learn about the exciting new field of AI
- Demonstrated machine learning development experience or related experience writing and optimizing applications in HPC, scientific libraries, compilers, digital signal processors or GPUs
- A quick learner for new technologies and team player
- Strong communication skill in both written and verbal
DIFFERENTIATORS:
- Experience to measure training and inference performance of ML hardware, software like MLPerf, HPC AI500
- Demonstrated experience in CI&CD
- Experience working with modern deep learning software architecture and frameworks including: Tensorflow, MxNet, Caffe, Caffe2, Torch, and/or PyTorch
- Experience in any of these areas: Docker, K8s, RDMA, distributed computing, Redfish
职能类别:大学/大专应届毕业生
公司介绍
燧原科技2018年3月成立于上海,在上海和北京设有研发中心。其产品是针对云端数据中心开发的深度学习高端芯片,定位于人工智能训练平台。芯片将采用自主研发的独特创新架构,具有高算力、高能效比、可编程、低成本、支持主流机器学习框架等特点,专为云端AI 训练设计和优化。公司研发团队的主要成员都拥有15年以上的高端芯片及相关软件生态系统的开发及量产经验,有着丰富的工程和产品化实战经历,成功开发并量产过多颗大型芯片。
燧原科技CEO赵立东表示:“国家人工智能发展规划中,明确了加强新一代人工智能的研发并加快深度应用,带给燧原科技这样的高科技创新企业巨大的发展机会和空间。本轮融资我们引入了战略投资,为燧原的发展奠定坚实的基础。我们会把握机遇,深耕技术,致力于成为中国人工智能芯片自主创新解决方案的技术领军者和可靠供应商。”
燧原科技COO张亚林表示:“人工智能云端AI的广泛应用,对于软硬件系统提出了很高的要求,包括生态系统的多样性、未来算法的灵活性、算力架构的通用性和系统结构的扩展性,而这都需要软硬件系统工程化的团队来实现。燧原科技优秀的研发团队,将专注于打造拥有自主知识产权、安全可控、高性能低成本的AI云端训练芯片,并以优化的软件生态系统切入中国云服务器和数据中心市场,引领未来人工智能算力架构的全新变革。”
腾讯投资董事总经理姚磊文认为:“随着中国的产业升级,国家需要在高科技行业掌握自主可控的技术,而人工智能芯片是中国企业弯道超车的好机会。腾讯希望能够利用自己在产业方面的资源,和中国顶尖的团队一起,打破国外厂商垄断人工智能芯片的现状。燧原科技拥有强大的研发团队和软硬件系统工程化的深厚积累,以及芯片领域成功的研发经验,由此我们对其发展前景充满信心。”
联系方式
- 公司地址:地址:span科技南一路阳光粤海大厦1009室