大模型数据工程开发工程师14k-28k

南京经验不限本科及以上后端工程师
岗位所属职位类型
全职

  • 软件服务|咨询
  • Java
  • C++
  • Python
华为技术有限公司
分享到微信
微信扫一扫,用小程序打开分享
职位诱惑:

机会多发展快

职位描述:

(一)数据采集与整合

1. 设计和开发数据采集系统,从多种数据源(如网页、数据库、文件系统、传感器等)获取数据,确保数据的准确性、完整性和及时性,以满足大模型的训练和优化需求。

2. 针对不同结构(结构化、半结构化和非结构化)的数据制定相应的采集策略,能够处理海量数据的采集任务。

3. 负责将采集到的各类数据进行整合,建立统一的数据存储和管理体系,消除数据孤岛现象,保障数据的一致性。

(二)数据预处理与清洗

1. 对采集到的原始数据进行预处理,包括但不限于数据格式转换、编码处理、数据归一化等操作,以便于后续的数据处理和模型训练。

2. 开发数据清洗程序,识别和处理数据中的噪声、缺失值、异常值等问题,提高数据质量,为大模型提供高质量的输入数据。

3. 建立数据质量监控机制,持续跟踪数据质量指标,及时发现并解决数据质量下降的问题。

(三)数据标注与管理

1. 对于需要人工标注的数据,设计数据标注方案并组织标注工作,确保标注的准确性和一致性。

2. 建立数据标注平台或工具,提高标注效率,同时方便对标注数据进行管理、审核和版本控制。

3. 管理标注数据的存储和分发,与大模型开发团队紧密合作,确保标注数据能够及时、准确地用于模型训练和评估。

(四)数据存储与优化

1. 设计和优化大模型的数据存储架构,根据数据的特点(如数据量、访问频率、数据类型等)选择合适的存储技术(如关系型数据库、非关系型数据库、分布式文件系统等)。

2. 负责数据存储系统的性能优化,包括数据库索引优化、存储容量规划、数据读写性能提升等方面,以满足大模型对数据快速访问的需求。

3. 确保数据存储的安全性和可靠性,制定数据备份、恢复和灾难应对策略,防止数据丢失或损坏。

(五)数据管道构建与维护

1. 构建高效的数据管道(Data Pipeline),实现数据从采集到存储、预处理、标注再到模型训练的自动化流程,提高数据流转效率。

2. 监控数据管道的运行状态,及时处理管道中的故障和堵塞问题,确保数据的稳定流动。

3. 对数据管道进行持续优化,根据业务需求和数据规模的变化,调整管道的架构和参数,提高数据处理的效率和可扩展性。

(六)与团队协作

1. 与大模型算法开发团队、前端开发团队、测试团队等密切合作,理解各方对数据的需求,提供数据支持并协同解决项目中的数据相关问题。

2. 参与数据工程团队内部的技术交流和分享活动,促进团队整体技术水平的提升

工作地址

南京 - 雨花台区- 华为南京研究所查看地图

职位发布者:

拉勾安全提示
· 求职中如遇招聘方扣押证件、要求提供担保或收取财物、强迫入股或集资、收取不正当利益或其他违法情形,请立即举报
· 如遇岗位要求海外工作,请提高警惕,谨防诈骗
面试评价
【查看更多评价】
  • 半年前
    • 描述相符
    • 面试官
    • 公司环境
    环境高大上
    面试效率高
    面试官很nice
    [面试过程]
    没发挥好,当然自己能力还有所欠缺
    (26)
  • 评价人头像匿名
    半年前
    • 描述相符
    • 面试官
    • 公司环境
    面试官很nice
    面试效率高
    [面试过程]
    本人不在深圳,因此全部是电话面试和视频面试,反馈迅速,薪酬合理,100个赞
    (102)
  • 评价人头像匿名
    半年前
    • 描述相符
    • 面试官
    • 公司环境
    面试官很nice
    面试效率高
    面试官是大牛
    [面试过程]
    面试官很好,只是自己不够好,也学到很多东西了,感恩。
    (24)
华为技术有限公司

华为技术有限公司

  • 智能硬件,IT技术服务|咨询,制造业

    领域
  • 不需要融资

    发展阶段
  • 2000人以上

    规模
  • http://www.huawei.com/cn/

    公司主页

相似职位