共创软硬件协同生态：Graphcore IPU与百度飞桨的“联合提交”亮相MLPerf

发布日期：2022-07-08 07:25浏览量：1233次

AI领域最负盛名的产业级基准测试榜单MLPerf Training 2.0于6月30日正式发布。本次榜单中，百度飞桨与Graphcore合作，在MLPerf中开启了一种创新的“联合提交”模式。

“联合提交”亮相MLPerf

本次MLPerf Training v2.0中，百度飞桨与Graphcore合作了一种创新的结果提交模式：Graphcore与百度使用同样的软硬件配置（Graphcore IPU和飞桨深度学习框架）提交了MLPerf BERT模型的成绩。图1展示了此次Graphcore与百度使用IPU提交的BERT基准测试结果，飞桨的性能与Graphcore高度优化的自研框架PopART性能相当。

图1：MLPerf Training v2.0, Graphcore与百度提交的BERT模型在Graphcore IPU上的训练性能结果。其中，红色代表Graphcore使用原生框架PopART取得的成绩，蓝色代表Graphcore与百度使用飞桨框架取得的成绩。

“联合提交”：

飞桨硬件生态共创计划的新尝试

百度飞桨在WAVE SUMMIT 2022深度学习开发者峰会上，携手十余家硬件厂商发布了硬件生态共创计划。飞桨将结合伙伴自有软硬件基础开发栈特色，针对不同应用场景和产品，面向广大开发者共同推出厂商定制版飞桨框架、建设开源模型库、开发课程与培训内容等，更好地服务开发者，实现生态繁荣共赢。

百度飞桨与Graphcore合作的MLPerf联合提交，是飞桨硬件生态共创计划的一次创新尝试。两个公司采用完全一样的软硬件配置进行成绩提交，这种联合提交方式在MLPerf比赛中首次出现。为此，我们在准备阶段跟组织者MLCommons做了细致的沟通，以确定这一提交方式的可行性。这次合作的成果令人欣慰，不仅双方技术合作的成果通过MLPerf介绍给全球开发者，这种软硬合作提交的模式也在MLPerf媒体沟通会上获得其他厂商代表的称赞。

“联合提交”背后的技术合作

针对本次MLPerf联合提交，百度飞桨与Graphcore进行了深度协同优化，主要体现在如下方面：

优化并行度

针对模型切分策略进行优化，从而提高模型并行度，并且通过优化并行读取数据集的策略，将模型在IPU上的吞吐发挥到极致。

提高片上内存使用率

通过降低部分操作的精度压缩片上内存占用，节省片上存储空间，从而支持将优化器状态从片下存储迁移到片上存储，减少片上片下的IO交互，并且也能提高部分算子的片上内存使用比例，提升算子计算效率。

融合collective算子

将数据并行中产生的多个collective算子融合成单个算子，能减少同步开销的同时，也能增加对带宽的使用率，发挥IPU高效的计算性能。

减少不必要的计算资源占用

原本在evaluation的过程中需要进行无效的反向计算，当前通过仅计算前向图的特性，节省evalution过程中无效的计算资源占用，提升整体evalution性能。

硬件优化

Bow-2000相较于M2000具有更高的主频(1.4x), 大幅提升了计算效率。

飞桨与Graphcore的合作历程

飞桨一直积极与硬件厂商合作以优化用户体验与性能。2020年，飞桨携手13家硬件厂商发起“硬件生态圈”，Graphcore即是初始成员之一。2021年，百度飞桨实现了在Graphcore IPU上训练与推理的全面支持，并开源了相关代码。双方团队在IPU-POD16&64上进行数据并行与模型并行，以及在Bert-Base模型上进行精读和吞吐量验证取得了良好的性能效果。Graphcore的Poplar SDK 2.3与百度飞桨框架最新的2.3版本已经完全集成，相关代码已在百度飞桨的GitHub上线供开发者获取。

2022年5月，Graphcore在WAVE SUMMIT 2022深度学习开发者峰会上正式宣布加入由百度飞桨发起的硬件生态共创计划。Graphcore和百度飞桨将基于该共创计划共同研发技术方案，协同定制飞桨框架，建设模型库与场景范例，以“IPU+飞桨”为产业赋能，推动产业AI化转型和升级。

结语

随着人工智能技术在各行业的广泛应用及快速发展，业界已从各自独立的硬件算力驱动和算法创新驱动进入到算法和硬件协同创新阶段。本次MLPerf的联合提交，是百度飞桨与硬件生态共创伙伴Graphcore合作的创新尝试。未来，飞桨将通过硬件生态共创计划，与更多硬件厂商一起，加速人工智能的应用落地，推动AI工业大生产的实现进程。

MLPerf介绍

MLPerf是由AI领域世界知名的学术研究者和产业专家发起的人工智能领域基准测试标杆。MLPerf旨在提供一个公平、实用的基准测试平台，展示业界领先的AI软硬件系统的最佳性能，其测试结果已获得AI领域的普遍认可。世界上几乎所有主流的硬件生产商和软件服务提供商都会参考MLPerf发布的结果构建自己的基准测试系统，以测试其开发的新的AI加速芯片和深度学习框架在MLPerf模型上的性能表现。

更多阅读