-
职位职责: 1、结合对直播场景的深入理解,进行直播多模态大模型的建设,面向主播开播的全流程,通过直播间内容理解、智能辅播、主播成长陪伴、智能复盘、智能创作等能力的建设和落地,打造面向直播全流程、自迭代的智能直播专家落地; 2、深入分析研发全生命周期的痛点问题,实现代码智能生成、技术方案智能设计、智能运维提效等全生命周期的提效助手,构建智能研发大模型; 3、密切跟进LLM领域最新研究成果,积极参与新业务的探索研究,结合对业务场景的充分理解,寻找最佳解决方案。 职位要求: 1、本科及以上学历,人工智能、计算机、模式识别等相关专业; 2、有NLP、CV、数据处理相关复杂系统的落地经验,具备较强的前沿创新能力; 3、具有优秀的编程基础,熟练使用Python/C++等至少一种编程语言,熟练使用TensorFlow/PyTorch等至少一种深度学习框架; 4、熟练掌握常见开源模型调优训练、推理加速框架,熟悉LLaMA、ChatGLM等开源大模型原理与实现; 5、优秀的分析和解决问题的能力,对解决具有挑战性的问题充满激情,良好的沟通和团队合作能力。 加分项: 1、具备业界大模型的训练、调优和交付经验,在多模态大模型、代码大模型上有实战经验者更优; 2、具备业界的大模型应用产品落地经验,在其中发挥关键的架构设计、模型优化作用; 3、具有长视频理解、图文交互等大模型应用落地经验,在其中发挥关键的架构设计、模型优化作用; 4、具有研发提效相关的大模型应用落地经验,在其中发挥关键的架构设计、模型优化作用。
-
职位描述: 1. 多模态大模型:探索跨模态的信息对齐方法,研究多模态大模型的预训练、指令微调、RLHF(拒绝学习与强化学习)等技术,评估和提高多模态数据质量,进行数据清洗 2. 内容理解:探索适合微博的实体识别、属性抽取、关系分类等技术,探索图文/视频多模态的内容分类、信息抽取、智能摘要等技术 任职要求: 1. 自然语言处理、计算机视觉、机器学习、数据挖掘、人工智能等相关专业的硕士生/博士生 2. 熟悉BLIP2、LLaVA、MiniGPT、VisualGLM、Qwen-VL等LMM模型结构及训练方法; 3. 熟练掌握tensorflow、pytorch等深度学习框架,扎实的编程基础
-
1、参与图像、视频内容生成、理解、检索,自然语言理解等方向前沿技术研究 2、根据业务场景,给出相关算法层面解决方案并进行研发 3、完成相关模型搭建/调优/训练等相关工作,积极推动所负责能力的性能优化及工程化落地 4、持续关注相关领域最新进展,并进行前沿算法思想的落地验证 岗位要求: 1.计算机、数学等相关专业,硕士及以上学历,1-3年工作经验 2.数学基础扎实,能独立对现有算法进行定制优化提升 3.熟悉一般扩散模型、多模态模型,在图像生成、视频理解、多模态等方向有较为深入的研究,熟悉TensorFlow, Pytorch等框架 4.熟悉C/C++/python等语言,能熟练使用上述语言之一进行项目开发 5.了解数字图像处理一般方法,并有与深度学习相结合的实践经验; 加分项: 1.拥有扩散模型、多模态模型训练、调优经验者优先; 2.有AIGC方向项目商用落地经验者优先; 3.在国际期刊、会议上发表论文者优先
-
职位职责: 1、负责抖音系产品中视频、直播、图文等不同体裁下评论(文评、图评、音评等)、弹幕等互动内容的安全、体验、增长、创新工作; 2、面向互动内容中存在的对抗表达、隐晦表达、知识依赖等语义挑战,时序性、多模态、交互性等结构挑战,研发大模型驱动的机审系统,提升互动内容的安全、画风、生态的治理能力,有效降低互动内容的潜在风险; 3、分析和挖掘互动内容中蕴含的用户真实意图,探索基于大模型增强的统一内容理解技术,优化排序和分发策略以调控互动体验,提升平台口碑与用户粘性,支持在推荐、搜索、推送、广告、精选等场景中的应用; 4、探索技术驱动的创新互动内容产品形态,如智能总结、主播助理等,促进互动效率提升与用户增长; 5、基础技术方面持续探索LLM/MLLM等通用大模型在内容安全和理解领域的适配,从Pre-Train、Post-Train(SFT、RL)等方面优化,增强模型的感知和推理能力;同时探索围绕大模型相关的应用技术能力,如Auto-Prompt Engineering、Embedding、Incontext Learning、RAG等。 职位要求: 1、具有扎实的人工智能方面的基础知识,对CV、VLM、MLLM等技术有深入的理解,数学功底扎实,学习能力强; 2、有扎实的编码能力,熟悉主流的深度学习训练框架、工程框架等; 3、在CV、VLM、MLLM领域有成熟的项目落地经验,在短视频、图文、直播算法领域有经验者优先; 4、在计算机科学高水平会议和期刊如NIPS、ICML、CVPR、ICCV、ECCV、IJCAI、AAAI、KDD、SIGIR、WWW、ACL、PAMI、IJCV等论文发表或有竞赛经验者优先; 5、具有独立的分析问题和解决问题的能力,对解决具有挑战性问题充满激情;对技术有热情,追求极致,自驱力强;6、有良好的团队合作意识、沟通表达能力。
-
工作职责: 1.负责自动驾驶多传感器(摄像头、激光雷达、毫米波雷达)感知融合算法研发,搞定目标检测、跟踪、分割等任务,确保“看得清、认的准”,不允许“传感器各自为政”; 2.优化感知算法在复杂场景下的鲁棒性,比如暴雨、大雾、强光逆光等恶劣天气,以及隧道出入口、地下车库等弱光环境,杜绝“感知失效”; 3.参与感知模型的轻量化与车端部署,在保证精度的前提下降低计算资源占用,让算法在嵌入式平台(如Orin、地平线J6)上“跑得快、不卡顿”; 4.跟进感知数据闭环,与数据团队协作挖掘badcase,比如“远处小目标漏检”、“遮挡目标误判”、“障碍物抖动”,推动模型迭代优化。 任职要求: 1.计算机视觉、机器学习、人工智能等相关专业硕士及以上学历,2年以上自动驾驶感知算法经验,仅参与过单模态的”玩家”,请参看2; 2.精通CNN、Transformer等深度学习架构,熟悉3D目标检测(如PointPillars、VoxelNet)、BEV感知(如BEVFusion, Sparse系列)、Occupancy感知等算法,能对着论文复现核心模块; 3.熟练掌握Python/C++,能玩转PyTorch/TensorFlow,熟悉PCL、OpenCV、Eigen等库,会用卡尔曼滤波、粒子滤波等做传感器融合,代码调试能力强; 4.加分项1:了解传感器标定、时空同步技术,能解决“摄像头与激光雷达数据不同步”“标定参数漂移”等问题,对感知精度有“强迫症级”要求; 5.加分项2:能清晰解释“激光雷达点云稀疏区域的目标检测难点”,并提出优化方案; 6.加分项3:有感知算法量产部署经验,熟悉TensorRT、ONNX Runtime等推理框架,能搞定模型量化、剪枝; 7.加分项4:在CVPR、ICCV、ECCV等顶会发表过感知相关论文,或有Kaggle、Waymo等竞赛获奖经历。
-
岗位职责 1.我们正在构建原生支持视觉、音频与文本的大规模多模态模型体系,以推动人工智能系统实现对物理世界的全面感知与理解。你将加入语音与音频方向的核心研究团队,围绕以下关键研究任务开展工作:; 2.研发具备通用能力的端到端语音大模型,包括多语言语音识别、语音翻译、语音合成,副语言信息理解,音频理解 等; 3.推进 语音表征学习 与 语音编码/解码 架构研究,构建适用于多任务、多模态的统一声学表征; 4.探索音频和语音在多模态大模型中的表征对齐与融合机制,与图像、文本联合建模; 5.构建并维护高质量的语音多模态数据集、自动标注与数据合成技术。 岗位要求 1.计算机、电子工程、人工智能、语言学或相关领域博士,或硕士加多年相关工作经验; 2.深入理解语音音频信号处理、声学建模、语言模型和大模型架构; 3.熟练掌握 语音识别,语音合成,语音翻译等 一项多多项系统开发流程,具有多语言、多任务或端到端系统经验者优先; 4.对以下方向具备深入研究或实践经验者优先:; 5.语音表征预训练(如 HuBERT, Wav2Vec, Whisper 等); 6.多模态对齐与跨模态建模(音视频和文本); 7.有推动大模型在音频理解任务上达到 SOTA 性能的经验优先; 8.熟练掌握 PyTorch、TensorFlow等深度学习框架,有大规模训练与分布式系统经验者优先; 9.熟练 Transformer 类模型及其在语音、多模态领域的训练和推理。
-
岗位职责: 1、负责教授高三补习班文化课程,提升学生学术水平; 2、根据学生需求,制定个性化教学计划,提高教学效果; 3、参与教研活动,不断优化教学方法和内容; 4、与学生建立良好的沟通,关注学生心理发展,提供必要的学业指导。 任职要求: 1、国内985高校本科或者硕士实习生和毕业生均可,29岁内,男女不限,专业不限; 2、热爱教育,具有良好的师德和责任心; 3、善于沟通,能够激发学生学习兴趣,提高课堂参与度; 4、具备团队合作精神,能够积极参与学校组织的各类活动。 薪资待遇:月薪2万起,提供住宿,五险一金+其他福利。 工作地点:山东济南 、江西九江、河南登封、四川成都等地
-
[我们是谁?] 一刻talks是国内头部内容平台,每月有多个项目同时进行,包括名人演讲、直播活动、短视频制作、技术工具开发、智力峰会、智库服务等。我们需要一个能“盯住每个环节”的人,确保所有项目不卡壳、不拖延,团队高效运转。 [你要做什么?] 1. 把复杂流程变简单 梳理内容生产的全流程(从选题到视频发布),砍掉没用的环节,制定清晰的时间表和责任人。 协调技术团队和内容团队的需求,比如AI工具开发要和视频制作节奏匹配,别让技术拖后腿。 当多个项目撞车时,快速决定优先级,调配人力物力,避免团队手忙脚乱。 2. 解决实际卡点问题 每天检查项目进度,发现拖延马上解决。例如: o嘉宾临时改时间?立刻协调备用方案。 o拍摄设备被占用?提前锁定资源。 用飞书/腾讯文档/幕布等工具搭建共享表格,让所有人随时看到任务进展,谁没完成一目了然。 3. 用工具提效,拒绝重复劳动 把重复性工作交给工具:自动提醒截止时间、自动汇总数据报表、自动归档合同文件。 教团队用简单工具(比如飞书机器人)减少开会和扯皮时间。 4. 让团队协作更顺畅 制定跨部门协作的“对接模板”,比如技术团队需要内容团队提需求时,必须写清楚“要什么、什么时候要、用来干什么”。 每周组织30分钟复盘会,收集各部门流程中的痛点快速改进,同时进行项目进度追踪,确保项目完成 [我们需要你具备的能力] 1.干过项目管理: o有3年以上管理多项目的经验,经历过同时推进10个以上项目的混乱局面,并且成功让团队效率提升。 o能快速看懂业务,比如短视频制作周期、直播活动筹备关键节点、技术开发的测试流程。 2.动手能力极强: o熟练使用飞书/钉钉/Excel搭建项目管理表,能用简单工具解决问题(不需要会编程,但如果你能用工具自动生成报表就更好了)。 o能写清晰的操作指南,让新人也能快速上手。 3.沟通直接有效: o敢和各部门负责人“对表”,发现拖延直接点名问题,不绕弯子。 o能用大白话解释复杂流程,而不是满嘴“赋能”“抓手”“闭环”。 4.抗压且细心: o能同时盯住20个项目的关键节点,不错过任何截止日期。 o对数字敏感,能一眼看出报表里的数据矛盾。 [我们不要这样的同事] 只会在PPT上画流程图,但没实际落地经验。 遇到问题只会说“按流程走”,不会变通。 把时间都花在写报告上,而不是解决问题。
-
工作内容: 1、图像的识别理解:用户拍照的图片上传到某AI软件(如豆包、deepseek、通义等),再发送要求的指令,模型会根据指令生成关于图片的描述输出,比如品牌、型号、功能等信息文字提取。 2、图像编辑:上传一张图片,输入指令,比如换一个背景;图像的生成,比如上传一个自己的头像,要求换成动漫风格的图片;问答类型,上传图片,输入指令这是什么品牌;描述类型,比如拍一个电脑上传,判断图片里面品牌、需求类型、图片类型,看模型反馈结果质量如何 ,有没有准确性问题,或视觉问题。 3、文生图需求(单独需求):需要先理解图片,要有描述/编辑指令的能力,由模型生成图片。给AI指令,比如生成一只小狗在草地上玩耍,主要是我们的指令怎么写(输入指令相对比较难,所以要求文科),对于生成图的质量判断好坏。 要求: 1、学历:本科高优,文科专业优先,如果能力很好,也可以接受大专。(有人工手写和改写的内容,需要有文本语义判断能力,所以要求文科较好)。 2、能力素质:理解能力好、学习能力好、逻辑清晰【必需】 3、能力加分项:英文读写、代码编辑、高数/物理解题等能力【优先,比较欠缺的能力,如果有类似能力会优先面试】 4、有SFT/RM标注经验,可放宽至搜索等业务的结果质量标注(图片/文字/视频都可)【必需】 5、有文字编辑或处理经历,可适当放宽【必需】
-
1、面向AIGC多模态数据内容安全检测需求,进行图片、视频、音频等多模态数据的内容安全检测算法设计与实现; 2、面向AIGC多模态数据特征关联、融合、建模进行技术攻关,开展跨模态对齐检测模型设计与系统实现; 3、开展相关项目论证、申报和执行,负责工程实现; 4、具有计算机、网络安全、人工智能等相关专业硕士及以上学位; 5、具有数据安全、数据治理和AIGC等领域的研究基础,熟练使用机器学习框架,具有开发实践经验; 6、工作踏实认真、有高度的责任心、勇于开拓、具有较强的工程实现能力和团队合作精神。
-
本科及以上学历,计算机相关专业。有大型项目开发经验。
-
职位描述 1、对海量多媒体素材(如图片、视频、文本、音乐等)进行深入语义理解,在此基础上进行素材打散、内容匹配和智能创作,形成多样化高质量的内容,服务于智能广告生成、视频智能混剪、特效制作等方向,支持商业化、海外等多个重要业务线; 2、对生成的海量内容,设计基于多模态内容和用户反馈的质量评价体系; 3、基于线上用户的行为反馈,分析用户的兴趣点和生成内容优缺点,不断进行生成策略调优。 任职要求 1、对基于图像、视频、语音、文本等模态内容的各类算法算法有一定的理解,包括不限于图像/视频理解、检测、分割、OCR、人脸、ASR、文本生成等; 2、工程能力强,熟练掌握python/c++语言,有成功的项目经验; 3、熟悉常见的机器学习和深度学习算法,熟练使用至少一种深度学习框架,如Pytorch、TensorFlow、MXNet等; 4. 、对学术前沿有浓厚兴趣,时刻跟进技术前沿,并善于利用各类技术解决复杂的实际问题,有良好的沟通表达能力; 5、对搜索、GAN、图形学渲染、特效等方向有深入了解者优先。
-
团队介绍: 技术团队由北京大学计算机学院副院长教育部长江学者特聘教授崔斌教授领衔指导,团队研发实操经验丰富,显卡资源丰富,发表前沿论文,欢迎AI、大数据领域的大牛加入共创AIGC未来! 工作内容: 1、 推动文生图、图片编辑、视频编辑等AIGC技术研发,包括算法创新、工程实现与系统评测等; 2、参与模型的产品落地,包括大模型推理效率优化、基于反馈的算法调优等。 职位要求: 1、硕士及以上学历,具备机器学习/计算机视觉/软件工程相关专业知识; 2、熟悉PyTorch等深度学习框架; 3、熟悉前沿的神经网络架构(Transformer, ViT, CLIP)并有实际动手经验; 4、在生成式模型(VQ-VAE, VQ-GAN, Diffusion Models)和视觉自监督学习(MIM, MAE)方向有经验者优先,有目标检测、语义分割等研究经验者亦可; 5、在学术期刊(ICLR, NeurIPS, ICML, CVPR)发表过论文或在大型国际比赛中取得优秀名次者优先; 6、具备优秀的沟通能力和团队协作精神。 联系方式:请把简历发送至*************************
-
职位描述 1、跟踪、探索大模型方向/多模态预训练方向的前沿技术,将各方向的SOTA能力集成到模型底座上,提升下游任务的效果,打造团队的技术先进性; 2、多模态大模型结构的设计、训练任务的规划、预训练流程以及下游功能的开发等。 任职要求 1、计算机科学与技术、人工智能等相关专业的硕士或博士; 2、2年内计算机多模态/NLP/CV相关工作经验,有较强的coding能力; 3、热衷于通用大模型及新兴技术领域,具备独立开发尖端模型的能力,且拥有在NLP、CV、ML**会议或期刊上发表研究成果的经历者将获得优先考虑; 4、有良好的数学和编程基础,熟悉至少一种深度学习框架(如 TensorFlow、PyTorch); 5、具备良好的沟通能力和团队合作精神。
-
工作职责: -负责度加App的剪辑工具的产品策划、原型设计与推进落地 -研究视频创作者的需求和创作路径,深入挖掘视频剪辑的需求和痛点,能从抽象制定出完善的产品策略与方案 -负责方案推进过程中的跨部门协调沟通,协调各方资源并推动相关团队确保产品高质量上线 -建立产品的核心指标体系,对数据结果负责,通过数据分析验证产品效果和迭代优化方案,快速迭代 任职资格: -2年以上工具类产品经验,热爱创作,视频剪辑爱好者,有短视频平台运营账号,有视频工具类APP产品经验者优先 -了解内容创作并且对行业格局和发展趋势,有自己对行业的深度思考 -具备清晰的逻辑思维能力、敏锐的用户洞察力以及较强的数据分析能力 -具有出色的目标拆分及抗压能力,能够保持高效的执行力及工作节奏,能够快速完成复杂业务逻辑的梳理与落地 -具备优秀的学习能力、表达能力及高效执行力,有较强的进取心、责任心,能承受一定工作压力


