某AI公司
后训练研究
IT开发
数字技术
北京
3-5年
本科
¥30 - 40K15薪
公司介绍
我们的客户是一家硅谷明星AI 公司
职位描述
岗位职责:
后训练研究与实施
• 设计和实施先进的后训练技术:RLHF、DPO、GRPO 和新兴对齐方法
• 为对话式 AI 优化开发复杂的奖励模型和偏好学习系统
• 执行监督微调(SFT)、模型合并、蒸馏、混合专家(MoE)和多目标优化
• 研究和实施专门针对对话和陪伴 AI 的新型后训练方法
• 生成和整理合成数据集以进行定向模型行为修改
产品驱动的 AI 研究
• 将后训练研究与具体产品目标对齐:用户参与度、留存率和满意度
• 开发评估框架,衡量模型改进对业务指标的影响
• 设计和运行实验,验证生产环境中的后训练改进
• 创建用户交互与模型改进过程之间的反馈循环
强化学习与智能体系统
• 设计和实施用于语言模型优化的 RL 算法
• 与 AI 工程师合作开发智能体强化学习系统
• 专门为多轮对话智能体设计 RL 框架
• 开发捕捉复杂社交和情感交互质量的奖励系统
• 研究智能体 - 环境交互以改善上下文理解
研究到生产的流程
• 将前沿研究转化为生产就绪的后训练系统
• 构建可扩展的训练基础设施以实现持续的模型改进
• 设计用于后训练技术评估的 A/B 测试框架
职位要求
技术专长
• 在大型语言模型机器学习研究方面的经验
• 在后训练技术方面的深厚专业知识:RLHF、DPO 和偏好学习
• 强大的强化学习算法知识及其在语言模型中的应用
• 卓越的数据集处理能力,能够使用数据来操控和改善模型行为
• 合成数据生成和整理技术经验
• 熟悉开源模型及其架构
• 精通分布式训练、模型扩展和高效微调技术
• PyTorch、JAX 或类似深度学习框架的经验
协作与沟通
• 面向技术和非技术受众的优秀书面和口头沟通能力
• 良好的英语沟通能力优先
• 与产品、工程和设计等跨职能团队合作的经验
• 能够指导其他研究人员和工程师掌握后训练技术
• 管理研究计划并明确交付成果的强大项目管理技能
咨询顾问
Cassie Lin
Section Manager行业经理
分享