AI科技公司
大模型推理工程师
信息技术
科技
北京
3-5年
硕士
¥60 - 90K16薪
职位描述
岗位职责
1、大模型训练环境搭建与集群调度:负责Qwen、DeepSeek等主流基座模型训练集群部署,适配大规模算力集群,保障超大参数量模型稳定训练运行。
2、训练框架定制开发与性能调优:基于PyTorch、Megatron- LM、LLaMA Factory等框架二次开发,优化张量并行、流水线并行、显存分片等核心训练机制。
3、训练算力与成本优化:通过算子优化、混合精度训练、模型剪枝压缩、动态梯度累积等方式,提升算力利用率,缩减训练周期与资源成本。
4、训练流程监控与故障稳控:搭建训练任务可观测体系,监控
损失值、收敛速度、硬件负载等指标,设计断点续训、异常告警、故障自愈机制。
5、数据集处理与训练评测:配合算法团队完成训练数据清洗、对齐微调任务,对比不同训练策略、基座版本效果,输出最优训练方案与模型版本。
分享