后训练研究

公司介绍

我们的客户是一家硅谷明星AI 公司

职位描述

岗位职责：后训练研究与实施 • 设计和实施先进的后训练技术：RLHF、DPO、GRPO 和新兴对齐方法 • 为对话式 AI 优化开发复杂的奖励模型和偏好学习系统 • 执行监督微调（SFT）、模型合并、蒸馏、混合专家（MoE）和多目标优化 • 研究和实施专门针对对话和陪伴 AI 的新型后训练方法 • 生成和整理合成数据集以进行定向模型行为修改产品驱动的 AI 研究 • 将后训练研究与具体产品目标对齐：用户参与度、留存率和满意度 • 开发评估框架，衡量模型改进对业务指标的影响 • 设计和运行实验，验证生产环境中的后训练改进 • 创建用户交互与模型改进过程之间的反馈循环强化学习与智能体系统 • 设计和实施用于语言模型优化的 RL 算法 • 与 AI 工程师合作开发智能体强化学习系统 • 专门为多轮对话智能体设计 RL 框架 • 开发捕捉复杂社交和情感交互质量的奖励系统 • 研究智能体 - 环境交互以改善上下文理解研究到生产的流程 • 将前沿研究转化为生产就绪的后训练系统 • 构建可扩展的训练基础设施以实现持续的模型改进 • 设计用于后训练技术评估的 A/B 测试框架

职位要求

技术专长 • 在大型语言模型机器学习研究方面的经验 • 在后训练技术方面的深厚专业知识：RLHF、DPO 和偏好学习 • 强大的强化学习算法知识及其在语言模型中的应用 • 卓越的数据集处理能力，能够使用数据来操控和改善模型行为 • 合成数据生成和整理技术经验 • 熟悉开源模型及其架构 • 精通分布式训练、模型扩展和高效微调技术 • PyTorch、JAX 或类似深度学习框架的经验协作与沟通 • 面向技术和非技术受众的优秀书面和口头沟通能力 • 良好的英语沟通能力优先 • 与产品、工程和设计等跨职能团队合作的经验 • 能够指导其他研究人员和工程师掌握后训练技术 • 管理研究计划并明确交付成果的强大项目管理技能

公司介绍

职位描述

职位要求

Cassie Lin