跳到主要内容

阿里巴巴智能引擎算法平台团队

阿里控股集团智能引擎事业部算法平台团队负责构建阿里集团模型训练基础设施,承担HappyHorse、HappyOyster系列模型的数据和训练Infra建设。团队建设了业界一流的大语言模型、多模态模型、生成模型的预训练、后训练框架以及样本存储和计算系统。开源项目包括Megatron-LLaMA、ROLL、RecIS 等,在NSDI、OSDI、SIGMOD等顶级会议发布了多篇工作,并获得 26 年 NSDI Outstanding Paper Award。团队致力于通过分布式优化、软硬件结合、模型-Infra Codesign等手段,从数据处理到训练全面优化大模型迭代效率,提升模型效果上限,打造行业前沿大模型基础设施。

使命与职责

我们负责阿里巴巴大规模训练基础设施的构建,涵盖大语言模型训练 Infra、多模态大模型训练 Infra、预估算法大模型训练 Infra、特征计算与处理 Infra 以及算法平台建设等关键领域。

代表性论文

开源训练框架与系统

Megatron-LLaMA

基于 Megatron 的大语言模型开源训练框架,支持高效分布式 LLM 训练。

LLMPyTorch
GitHub

X-DeepLearning (XDL)

阿里巴巴开源的稀疏模型训练框架,支持大规模推荐和广告场景。

SparseRecSys
GitHub

ROLL

强化学习开源训练框架,支持大规模 RL Post-Training 的高效分布式执行。

RLDistributed
GitHub

Euler

阿里巴巴开源的分布式图学习引擎,支持大规模图神经网络训练。

GNNGraph
GitHub

RecIS

预估大模型训练框架,面向推荐和广告场景的工业级大模型训练系统。

RecSysTraining
GitHub

开放岗位

点击岗位名称或投递按钮进入阿里人才页面。