欧洲时间9月27日,在荷兰阿姆斯特丹举办的2019 OCP Regional Summit会议上,百度发布了业界首款支持OAI(Open Accelerator Infrastructure)标准和液冷散热的超级AI计算平台X-MAN4.0。百度在主导OAI标准定义的同时,也以实际行动推动OAI标准落地,通过构建开放的AI硬件生态系统来推动全球AI新硬件技术创新和落地。

百度超级AI计算平台X-MAN4.0

OAI标准为何而生?

随着AI技术的快速发展,众多AI芯片公司应运而生,AI芯片产业的格局正呈现多元化发展趋势。由于AI硬件系统设计的技术难度和复杂性,其研发周期通常长达一年,并且需要投入大量的研发资源,这严重阻碍了新AI加速芯片的落地和应用。

OCP开放计算项目,是由Facebook携手英特尔、Rackspace等公司于2011年成立的一个非营利组织,也是全球云计算基础硬件技术领域覆盖面最广、最有影响力的开源组织。在今年3月美国OCP全球峰会上,百度联合Facebook和微软发布了OAM(OCP Accelerator Module)标准,该标准制定了AI硬件加速模块的尺寸、供电、高速互联接口等规范,之后主导发起将OAM项目升级为OAI,该标准用于指导AI硬件加速模块和系统设计,它集合定义了AI硬件加速模块本身、主板、互联拓扑、机箱、供电、散热以及系统管理等系列设计规范。

通过OAI标准,可以统一AI硬件加速模块和系统设计,有效兼容多元化AI加速芯片,促进AI芯片多元化生态格局的健康持续发展。

百度主导OAI标准定义

首款支持OAI标准和液冷散热的AI计算产品X-MAN4.0

X-MAN4.0是百度超级AI计算平台X-MAN系列产品的第四代,是第一款支持OAI标准和液冷散热的的AI计算产品。X-MAN4.0单节点可以支持8个AI加速器,加速器之间采用8 port HCM(Hybrid Cube Mesh)互联架构,双向通信带宽高达56GBps。在单个机柜层面,X-MAN4.0最大可支持32个AI加速器构建互联集群,具有极好的可扩展性。X-MAN4.0符合ODCC 3.0整机柜规范,高度为4SU(182.5mm),宽21英寸(536.0mm),长度850mm,支持风冷散热方式,也支持液冷,采用更高效的48V供电方式。

百度X-MAN系列产品多项技术行业领先,如X-MAN1.0首次实现AI计算硬件解耦架构、X-MAN2.0首次将冷板式液冷散热技术应用到AI计算产品里、X-MAN3.0首次倡导模块化标准化设计。此次百度将相关设计理念贡献到OCP并主导 OAI标准制定,并实现了首款支持OAI标准及液冷散热的AI计算产品。浪潮作为百度的重要合作伙伴之一,一直在参与X-MAN系列产品的研发和生产。

OAI标准获得行业广泛支持

OAI项目是由百度、Facebook、微软三家国际AI领先企业联合发起的,包括多项标准,其中OAM标准已经在3月发布,OAI-UBB(Universal Baseboard)标准已经形成初稿即将在10月正式发布。OAI标准也得到了众多公司包括Google、阿里、腾讯、京东云等互联网企业,英伟达、英特尔、AMD、高通、赛灵思等AI芯片企业,Graphcore、Habana Labs、寒武纪等AI芯片及处理器初创企业,以及浪潮、IBM、联想、英业达等ODM/OEM系统厂商的参与和支持。当前英特尔、英伟达、AMD和Habana已经开发出了支持OAM标准的AI加速卡,并且OAI项目成员相比3月初增长了近50%,这充分显示了OAI标准的全球影响力。

对此,百度副总裁侯震宇表示:“百度非常高兴能够与Facebook和微软及OCP其他成员围绕OAI标准的制定展开合作,该标准将极大提高不同AI硬件加速模块和系统的互操作性,加速新AI硬件加速模块的大规模落地应用。”

OAI标准获得广泛支持

参与全球标准定义,打造软硬一体AI全栈解决方案

此次百度主导OAM和OAI标准定义,不仅将又一次推动AI新硬件技术全球范围内的创新与进步,还会进一步将自己在AI领域的最佳实践、专业能力和创新能力,贡献给国际AI社区,促进世界AI水平的进步。这不是百度第一次参与国际AI领域技术标准的制定了。2018年5月,在纽约人工智能大会上,百度、谷歌、斯坦福大学、哈佛大学等多家企业和高校联合发布了一套用于测量和提高机器学习软硬件性能的国际基准 MLPerf,旨在推动机器学习硬件+软件相关技术创新。

通过基础技术创新,百度正在打造AI芯片昆仑、超级AI计算平台X-MAN、深度学习框架PaddlePaddle等软硬一体全栈AI解决方案。

在“夯实移动基础,决胜AI时代”的战略指引下,百度也在稳步打造AI生态体系,加速AI技术的产品化和商业化进程。作为AI生态体系的重要组成部分,百度打造了面向自动驾驶领域的Apollo开放平台和对话式AI操作系统DuerOS,并通过百度智能云的ABC(AI、Big Data、Cloud Computing)三位一体发展战略,促进各行各业智能化升级。