• 内容资讯,短视频 / D轮及以上 / 2000人以上
    职位职责: 1、负责为抖音客服业务VOIP和热线等语音交互场景提供专业的音频技术支持与研发,运用端到端的语音大模型实现更高效、智能的客服音频交互体验; 2、负责端到端语音大模型在客服应用中的落地与优化,搭建智能音频理解和处理在客服领域的系统级解决方案; 3、跟进客服产品业务的语音/音频需求,持续改进产品的音频质量体验;结合实际业务场景,对模型进行针对性训练和调优,确保语音识别、合成等功能能精准适配客服对话需求,提升对话理解和回复的准确性; 4、跟踪研发业界先进的音频进展,探索语音/音频领域最新技术的研发并落地产品。 职位要求: 1、深入理解端到端语音大模型的原理和架构,熟悉常见的语音大模型,如Whisper等,对语音识别、合成、对话理解等技术有扎实的理论基础; 2、具备优秀的编程能力,熟练使用Python等主流编程语言,熟悉深度学习框架,如PyTorch或TensorFlow,能够进行模型的开发、训练和部署; 3、有语音大模型实际应用项目经验,特别是在音频通信、客服系统等领域,有相关经验者优先; 4、在语音处理、人工智能相关领域的高水平会议和期刊,如ICASSP、Interspeech等发表过论文,或在相关竞赛中取得优异成绩者优先。
  • 50k-100k 经验不限 / 本科
    内容资讯,短视频 / D轮及以上 / 2000人以上
    职位职责: 1、负责抖音直播中低延迟音频理解和生成模型的能力建设,为实时对话智能体提供音频技术支持,包括但不限于ASR、TTS、端到端语音大模型、音频分类等; 2、负责关键场景的算法优化,构建高质量低延迟的智能体系统,提升业务效果; 3、跟进业界前沿的音频技术,探索多模态感知交互能力的边界并落地产品。 职位要求: 1、计算机、人工智能、模式识别等相关专业本科及以上学历; 2、熟悉Linux系统和常用的数据结构,熟练使用Python/C++等至少一种编程语言,熟练使用TensorFlow/PyTorch等至少一种深度学习框架; 3、深入理解端到端语音大模型的原理和架构,熟悉常见的语音大模型,如Whisper等,对语音识别、合成、对话理解等技术有扎实的理论基础; 4、在语音、人工智能领域的会议和期刊,如ICASSP、Interspeech、NIPS、ICML、ICLR等发表过论文,或在相关竞赛中取得优异成绩者优先; 5、优秀的分析和解决问题的能力,对解决具有挑战性的问题充满激情,良好的沟通和团队合作能力。
  • 11k-20k 经验不限 / 硕士
    移动互联网 / 不需要融资 / 150-500人
    岗位职责: 开展语音识别、声纹/语种识别、语音合成、丰富音频检测、自然语言理解、语音信号处理学、声学人工智能等研发和优化工作 任职要求: 1.**应届硕士毕业生,声学、信号处理、电子信息、计算机、自动化、人工智能等相关专业。 2.熟练掌握一种或多种编程语言,包括且不限于: C/C++、Python,Java等。 3.985、211、双一流院校应届硕士优先考虑。 4.解决北京户口。
  • 20k-30k 经验5-10年 / 硕士
    人工智能,工具,物联网 / 不需要融资 / 150-500人
    岗位职责: 1、负责语音识别算法的研究和语音识别引擎的开发,包括声学模型、语言模型的训练及解码器的开发; 2、负责语音识别模型的压缩和离线解码器的开发和优化; 3、负责小语种小样本数据情况下的语音识别算法性能优化; 4、针对公司硬件产品的声学特性,优化语音识别性能; 5、负责国内外语音识别/机器翻译相关领域的前沿技术研究。 任职要求: 1、硕士及以上学历,计算机、模式识别、自动化相关专业; 2、三年以上语音识别算法和系统研发经验,有部署过大型语音识别系统者优先; 3、深入了解语音信号处理,熟悉与语音识别相关的前端信号处理性能评价方法,能与前端联合调优; 4、熟悉常用的深度学习框架和语音识别框架,如Kaldi、PyTorch、TensorFlow等。
  • 30k-60k·16薪 经验3-5年 / 本科
    专业服务|咨询 / 不需要融资 / 15-50人
    1. 负责语音识别声学/语言模型的算法研究,模型训练以及优化; 2. 根据线上反馈对语音识别结果进行改进和优化,提升识别性能; 3. 根据最新的开源框架或者论文,配合算法研究员搭建训练和测试环境; 4. 跟踪业界最新研究方向,能独立做baseline仿真,尤其是端对端语音识别系统开发。 1. 本科学历以上,计算机、模式识别、语音信号处理等相关专业,3年以上工作经验; 2. 熟悉linux平台开发,熟练掌握python、c++/c、matlab至少一种语言,具有实际项目开发经验; 3. 了解语音识别相关原理和框架,例如sphinx,kaldi,wav2letter++等; 4. 有基于深度学习框架下训练或者开发的经验,比如TensorFlow、PyTorch、Caffe等; 5. 有较强的沟通和团队协作能力;
  • 30k-40k·16薪 经验1-3年 / 硕士
    专业服务|咨询 / B轮 / 500-2000人
    岗位JD: 职位名称:语音识别算法工程师 公司背景: 公司是一家专注于语音识别领域的高科技公司,致力于为各行业提供高质量的人工智能语音服务。公司发展迅速,拥有丰富的语音识别项目经验和先进的语音识别技术。 职位描述: 职位主要职责: 1. 负责公司语音识别算法的研究、实现和维护,提高算法性能和准确性; 2. 根据项目需求,参与算法设计和评估,并确保算法满足项目需求; 3. 参与开发和维护公司核心算法,保证算法的稳定性和可靠性; 4. 协助项目经理完成项目计划,并确保项目按时完成; 5. 参与与客户的技术沟通和需求确认,确保客户需求得到准确满足。 职位要求: 1. 硕士及以上学历,计算机、电子、通信、自动化等相关专业; 2. 具备2-4年语音识别项目经验,有知名公司背景优先考虑; 3. 熟悉语音识别算法,包括深度学习、传统算法等; 4. 熟悉主流深度学习框架,如TensorFlow、PyTorch等; 5. 具备良好的编程能力,熟悉至少一种编程语言; 6. 具备较强的沟通能力和团队合作精神,能够独立工作和承担责任。 福利待遇: 1. 具有竞争力的薪资待遇,根据个人能力和业绩给予; 2. 为员工提供完善的社会保险和商业保险; 3. 提供丰富的培训机会和职业晋升空间; 4. 提供各类带薪假期、生日福利等。
  • 30k-55k 经验1-3年 / 硕士
    企业服务,消费生活,其他 / 未融资 / 少于15人
    1 负责语音识别语言模型效果分析、训练及优化工作 2 跟踪语言模型深度学习前沿算法研究及应用 职位要求: 1、拥有计算机或相关专业,2年以上语音识别工作经验; 2、熟悉语音识别技术,包括GMM、HMM、DNN等常用技术; 3、熟练掌握Kaldi,SRiLM,RNNLM,TensorFlow等社区开源工具中的一种及以上; 4、熟悉语言信号处理者,包括降噪,VAD,音频特征提取等; 5、精通C/C++编程语言,对数据结构和算法设计有深刻理解;
  • 50k-80k·15薪 经验5-10年 / 本科
    企业服务 / 不需要融资 / 50-150人
    1、参与并指导团队成员设计和研发业内前沿的高性能、高稳定性的语音算法引擎,包括语音识别解码器、语音生成引擎等,并推动高性能推理库和新算法的应用。 2、负责语音识别、语音生成、语音前端和分类等算法的工程化和落地工作。 3、与SDK及服务端同学合作,通过算法引擎,将语音技术在各业务中落地和应用 任职资格: 1、精通C/C++编程,精通数据结构和算法设计,有良好的编程功底,熟悉系统性能调优的方式,熟悉Linux开发环境。 2、具备语音识别解码器开发经验,熟悉Kaldi/Pytorch/Tensorflow,熟悉音频特征、神经网络推理。 3、熟悉常见机器学习、深度学习算法。 4、有定点量化、指令集优化、CPU/GPU高性能计算优化经验者优先。 5、具有强烈的自我驱动能力、良好的沟通和团队合作能力,有团队管理经验或者虚线带人经验者优先。
  • 3k-6k 经验在校/应届 / 本科
    教育,文娱丨内容 / 未融资 / 少于15人
    你的主要工作内容是持续优化 Whisper 开源语音识别模型的准确度和性能: Whisper: https://github.com/openai/whisper 不需要training模型,更多在它的基础上去想办法优化,issue里面也有非常多的讨论。 相关优化项目: 1. https://github.com/m-bain/whisperX 2. https://github.com/jianfch/stable-ts 你可以先了解看看,如果能力相符,我们会尽可能给你提供一份高于平均市场价的实习工资。 有相关经验优先,会考核优化思路。 我们是个很小的团队,都是资深技术人员,相处简单,以结果为导向。 不加班,有下午茶,可申请远程工作。
  • 35k-45k·13薪 经验不限 / 博士
    移动互联网,教育 / 上市公司 / 500-2000人
    语音识别算法研究博士后 研究方向: 半监督、无监督、大规模预训练模型的在ASR领域的应用研究。探索课题包括但不限于: 1、探索利用大规模互联网、海量业务数据进行数据挖掘,探索低成本构建高质量训练数据的方法(类似wenetspeech、gigaspeech) 2、研究利用大规模预训练模型改善识别效果、鲁棒性的高效可落地方法; 3、尝试利用大语种(有丰富的训练数据)、预训练模型,低成本快速扩展ASR支持的语言、方言的技术方法。 职位要求: 1、年龄在35周岁以下,获得博士学位不超过三年(含应届); 2、AI、机器学习等相关专业,具有较强的深度学习相关背景技能和学习功底; 3、熟悉语音识别、预训练模型、半监督、无监督等相关算法,有相关项目落地经验的优先; 4、有较强的研究兴趣、自驱力强、团队合作能力强,有较好学术成果着优先。
  • 25k-50k 经验3-5年 / 硕士
    人工智能,物联网 / D轮及以上 / 500-2000人
    工作职责: 1、负责语音识别/语音唤醒相关算法研究和开发 2、负责语音识别/语音唤醒引擎相关工具的开发与维护,以及相关工具文档的撰写 3、负责与产品部门对接引擎输出,提供技术支持 任职资格: 1、语音识别/语音唤醒算法2年以上工作经验 2、熟悉主流语音识别/语音唤醒算法,具有模型训练经验和模型调优能力 3、负责推理加速算法的研发和实现,包括但不限于模型剪枝、模型量化、模型蒸馏、模型压缩等 4、精通Kaldi、Pytorch、Espnet、Wenet、DeepSpeech、Speechbrain等一种或多种算法框架,有端到端搭建语音识别系统的经验 5、专业背景:计算机,通信工程,电子信息工程等相关专业硕士及以上 6、熟悉 Linux 环境开发,熟悉C/C++ 开发者优先 7、在interspeech/icassp等会议有发表过文章者优先考虑 8、较强的英文论文阅读能力,沟通能力和良好的团队合作精神
  • 4k-6k 经验在校/应届 / 硕士
    人工智能 / A轮 / 150-500人
    岗位职责: 1. 根据论文复现相关算法; 2. 根据需要,进行文本、音频等数据的处理、筛选; 岗位要求: 1. 本科及以上学历; 2. 有语音识别或语言模型经验者优先; 3. 熟练使用Python、shell等脚本语言,使用过Linux系统,有良好的编码习惯; 4.了解pytorch等深度学习框架; 5. 有良好的学习能力,责任感强,具有良好的团队合作精神。
  • 30k-50k·16薪 经验3-5年 / 硕士
    专业服务|咨询 / B轮 / 500-2000人
    工作职责: 1、负责语音识别大模型方向的算法创新,模型训练及落地 2、分析业务反馈的语音识别生产问题,并提供优化解决方案 3、 负责语音识别推理引擎的功能研发及性能优化 任职资格: 1、对以下一种或多种语音识别领域有较深入的研究:端到端语音识别算法,自监督学习算法,说话人角色区分(speaker diarization),对模型原理有较深入的理解。 2、熟悉pytorch/tensorflow 深度学习框架,以及python/c++编程语音,具备较强的编程能力,能够对论文中的算法进行复现。同时具备一定的工程能力,熟悉模型工程落地的常用方案 3、具备模型调优能力,针对模型的训练结果进行分析,并调整模型训练参数进行进一步优化改进 4、有语音顶会论文发表经验优先 5、硕士及以上学历
  • 30k-45k 经验3-5年 / 本科
    物联网 / 天使轮 / 50-150人
    岗位职责: 1. 负责语音合成(TTS)的算法研究和工程实现,以及语音识别、数字人方向的算法研发、实现、优化和测试; 2. 负责虚拟人交互场景下的AIGC音频大模型、个性化实时情感对话语音合成、低资源音色克隆、变声、说话人识别和分割、语种识别、关键词唤醒等技术研发,实现语音算法的设计、开发和性能测试; 3. 制定产品语音算法相关性能的测试方法、测试流程和测试指标; 4. 负责跟进行业前沿技术发展趋势,跟踪国际最新算法发展方向和相应技术,产出新的科研成果,并落地于实际产品。 任职要求: 1. 本科或硕士以上学历,人工智能、语音、自然语言处理、机器学习、计算机等相关专业方向,基础扎实; 2. 熟悉语音合成或音色转换等相关技术,深刻理解 TTS 原理,熟悉TTS前端TN、G2P、韵律预测等,熟悉开源架构声学模型 Tacotron、FastSpeech、VITS和声码器WaveGlow、WaveRNN、HifiGAN等,并能够进行修改和应用; 有自然语音处理/语音信号处理等相关背景优先; 3. 熟悉主流的语音识别模型算法,如RNN-T、conformer,熟悉kaldi / K2 / wenet / espnet 等工具; 4. 有较强的算法实现能力,熟练掌握 Python/C++/Shell编程,熟悉Linux系统,至少熟练使用一种深度学习训练框架,如Pytorch、Tensorflow等; 5. 熟悉WebRTC、Speex、OPUS、librosa、BeamformIt等开源音频处理工具和库者优先; 6. 学习能力强,优秀的分析问题和解决问题的能力,工作积极主动、学习能力和动手能力强,性格随和、善于交流和分享; 加分项: 1. 有相关项目经历或音色克隆变声相关项目经验优先。 福利待遇: 五险一金,高额公积金,周末双休,法定节假日休息,十三薪,年假5天,每周三下午茶,不定时团建。
  • 4k-6k 经验在校/应届 / 硕士
    数据服务|咨询 / 不需要融资 / 50-150人
    实习表现优秀提供转正机会 工作职责: 1. 负责语音信号处理相关的算法研发,包括但不限于语音分离、语音减噪等。 2. 参与语音交互系统的设计和开发,提升语音识别的准确性和效率。 3. 跟踪最新的语音技术研究,通过改进算法和模型来提升系统性能。 4. 与团队成员紧密合作,共同解决项目中的技术难题。 岗位要求: 1. 计算机科学、电子工程或相关领域。 2. 对语音信号处理有深入的理解,熟悉语音分离、语音减噪等技术。 3. 对语音交互系统有一定的了解,包括语音识别、语音合成等。 4. 熟练掌握Python或其他编程语言,有良好的编程习惯。 5. 有良好的团队合作精神,能够在压力下工作。