某运动零售公司
大模型开发-BAT
百货/超市
软件开发
上海
经验不限
本科
¥30 - 45K15薪
职位描述
- 参与公司大规模预训练模型(LLM / VLM / Diffusion 等)的核心研发,包括模型架构设计、训练策略优化、推理加速与工程落地。
- 负责大模型从数据构建、预训练、指令微调(SFT)、对齐(RLHF / DPO)、评测到部署的全链路研发,持续提升模型的理解、生成、推理与多模态能力。
- 深度参与超大规模分布式训练系统的搭建与优化,包括数据并行、模型并行、流水线并行、混合精度训练等技术,提升训练效率与稳定性。
- 针对业务场景(搜索、推荐、广告、内容生成、智能助手、代码生成等)进行模型能力增强与效果优化,推动模型在核心业务中的规模化落地。
- 跟踪前沿大模型技术(MoE、长文本建模、RAG、多模态融合、知识蒸馏、模型压缩等),探索新技术在产品中的可行性并推动工程化实现。
- 与平台、工程、产品团队协作,构建稳定高效的大模型训练与推理平台,提升整体研发效率与模型性能。
- 输出高质量技术文档、实验报告与工程规范,推动团队技术沉淀与体系化建设。
职位要求
- 计算机科学、人工智能、数学、电子信息等相关专业硕士及以上学历(优秀本科生亦可)。
- 扎实的机器学习与深度学习基础,深入理解 Transformer、Attention、LLM 训练范式等核心技术。
- 熟练掌握 Python,熟悉 PyTorch / TensorFlow,具备良好的工程实现能力与代码质量意识。
- 熟悉大模型训练流程,包括数据构建、预训练、微调、对齐、评测等环节,有实际项目经验者优先。
- 熟悉分布式训练框架(DeepSpeed、Megatron-LM、FSDP、Horovod 等)或具备超大规模训练经验者优先。
- 对大模型前沿技术(如 MoE、RAG、长上下文、SFT/RLHF、蒸馏、量化等)有深入理解或实践经验。
- 具备优秀的问题分析能力、学习能力与团队协作能力,能够推动技术从研究到落地。