外资互联网科技
Senior Data Engineer(英文)
Information Technology
Technology
Shanghai
5-10 years
Bachelor
¥30 - 40K14MPs
Company Introduction
头部上市外资,全球团队
Job Description
核心职责:
数据管道开发与优化
• 设计与开发可扩展的 ETL/ELT 流程,处理结构化、半结构化与非结构化文本数据
• 优化数据读取与处理性能,识别并消除系统瓶颈
数据质量与数据集管理
• 应用去重、噪声过滤、敏感信息屏蔽、分词等技术实现高质量预处理
• 实施数据增强与合成策略,提升模型训练效果
• 执行自动化质量验证流程,确保符合 GDPR、CCPA 等隐私与合规标准
数据生命周期与任务治理
• 建立数据版本控制、追踪与可复现机制,覆盖数据采集至模型应用的全过程
• 管理数据任务调度,确保流畅、高效的数据处理链路
数据基础设施与编排管理
• 构建支持 LLM 的数据湖与数据仓库体系,兼容本地与云环境部署
• 使用 Apache Airflow、Prefect 或 Dagster 等工具实现复杂数据流的自动化编排与监控
任职资格:
• 计算机科学、数据开发、AI 等相关专业本科或硕士学历
• 至少 3 年数据开发相关经验,熟悉处理大规模文本/图像/语音数据集
• 有服务于大语言模型的数据管道设计及维护经验(含预训练、微调阶段)
• 精通文本预处理技术与挑战(去噪、去重、敏感信息处理等)
• 熟悉数据版本控制与血缘平台,如 DVC、LakeFS、MLflow 等
• 深入了解 PyTorch、TensorFlow 或 JAX 中的数据准备流程
• 具备数据标注流程及工具链实施经验
• 精通 Python,熟练掌握其数据处理库(如 Pandas、NumPy、PyArrow 等)
• 熟练运用 SQL,具备良好的数据建模与仓库架构能力
Consultant
Daisy Liu
Senior Consultant
Share