跳到主要内容

阿里巴巴智能引擎算法平台团队

阿里控股集团智能引擎事业部算法平台团队负责构建阿里集团模型训练基础设施，承担HappyHorse、HappyOyster系列模型的数据和训练Infra建设。团队建设了业界一流的大语言模型、多模态模型、生成模型的预训练、后训练框架以及样本存储和计算系统。开源项目包括Megatron-LLaMA、ROLL、RecIS 等，在NSDI、OSDI、SIGMOD等顶级会议发布了多篇工作，并获得 26 年 NSDI Outstanding Paper Award。团队致力于通过分布式优化、软硬件结合、模型-Infra Codesign等手段，从数据处理到训练全面优化大模型迭代效率，提升模型效果上限，打造行业前沿大模型基础设施。

关于团队

使命与职责

我们负责阿里巴巴大规模训练基础设施的构建，涵盖大语言模型训练 Infra、多模态大模型训练 Infra、预估算法大模型训练 Infra、特征计算与处理 Infra 以及算法平台建设等关键领域。

学术成果

代表性论文

NebulaSQL: A Large-scale Feature Computation System for Online Recommendation

SIGMOD 2026 Industry

SIGMOD'26

Weave: Efficient Co-Scheduling for Disaggregated RL Post-Training

OSDI 2026

OSDI'26

RollArt: Scaling Agentic RL Training via Disaggregated Infrastructure

OSDI 2026

OSDI'26

RollPacker: Mitigating Long-Tail Rollouts for Fast, Synchronous RL Post-Training

NSDI 2026 Fall

NSDI'26

Attack of the Bubbles: Straggler-Resilient Pipeline Parallelism for Large Model Training

NSDI 2026 Spring · 🏆 Outstanding Paper Award

NSDI'26

GREYHOUND: Hunting Fail-Slows in Hybrid-Parallel Training at Scale

USENIX ATC 2025

ATC'25

FaPES: Enabling Efficient Elastic Scaling for Serverless Machine Learning Platforms

SoCC 2024

SoCC'24

GBA: A General, Flexible, and Scalable Batch Auction System for Data Centers

NeurIPS 2022

NeurIPS'22

PICASSO: Unleashing the Potential of GPU-centric Training for Wide-and-deep Recommender Systems

ICDE 2022

ICDE'22

开源项目

开源训练框架与系统

Megatron-LLaMA

基于 Megatron 的大语言模型开源训练框架，支持高效分布式 LLM 训练。

LLMPyTorch

X-DeepLearning (XDL)

阿里巴巴开源的稀疏模型训练框架，支持大规模推荐和广告场景。

SparseRecSys

ROLL

强化学习开源训练框架，支持大规模 RL Post-Training 的高效分布式执行。

RLDistributed

Euler

阿里巴巴开源的分布式图学习引擎，支持大规模图神经网络训练。

GNNGraph

RecIS

预估大模型训练框架，面向推荐和广告场景的工业级大模型训练系统。

RecSysTraining

投递入口

开放岗位

点击岗位名称或投递按钮进入阿里人才页面。

智能引擎-大模型训练基础架构研发工程师/高级专家-AI Infra 投递

智能引擎-PostTrain框架研发工程师-AI Infra 投递

智能引擎-大模型平台研发工程师-强化学习环境投递

智能引擎-多模态大模型推理系统工程师/专家投递

智能引擎-高级引擎研发工程师投递

智能引擎算法平台-训练系统优化高级工程师/专家投递

智能引擎-机器学习系统工程师投递