高效算力之困:算存运如何协同?
通信产业网|2023-11-02 12:49:08
作者:胡媛来源:通信产业网

【通信产业网讯】(记者 胡媛)当前,大模型等人工智能技术的发展,引发算力需求爆发式增长,算力布局不断加速。“十四五”规划和2035年远景目标纲要指出,建设高速泛在、天地一体、集成互联、安全高效的信息基础设施,增强数据感知、传输、存储和运算能力。

数字经济以数据资源为关键要素,数字基础设施是数字经济时代的“高速公路”,运力、算力、存力三者协同发展,数字基础设施才能发挥数据的要素价值,充分释放数字经济活力。当前,我国算力、存力、运力现状如何?如何打造“算、存、运”协同的高效算力?

“算、存、运”需高效协同

数据显示,算力、存力、运力如果做好高效协同,一个AI算力中心的效率可能会提升50%。目前,许多发达国家已经把算、存、运三者涉及的科学技术作为创新前沿,并投入重金发展。

近日,工信部等六部门联合印发《算力基础设施高质量发展行动计划》,提出到2025年,计算力方面,算力规模超过300EFLOPS,智能算力占比达到35%,东西部算力平衡协调发展。运载力方面,国家枢纽节点数据中心集群间基本实现不高于理论时延1.5倍的直连网络传输,重点应用场所光传送网(OTN)覆盖率达到80%,骨干网、城域网全面支持IPv6,SRv6等创新技术使用占比达到40%。存储力方面,存储总量超过1800EB,先进存储容量占比达到30%以上,重点行业核心数据、重要数据灾备覆盖率达到100%。

中国作为全球最大的算力市场之一,数据中心机架总规模超过760万架标准机架,算力总规模达197EFlops,位居全球第二,但存在利用率不高等问题,甚至通用算力利用率只有百分之十几,已存在算力与运力、存力发展不平衡的问题。

中国工程院院士倪光南指出,当前AI算力中心蓬勃兴起,但对算力基础设施理解有片面性。存力、算力、运力共同构成数字基础设施核心底座,对于AI智能计算中心,中国算力中心要重视存力、算力和运力均衡配置,不能偏废失调,才能取得最大的经济效益和社会效益。

算力就是计算能力,运力是网络运载能力,存力则是数据存储能力。怎样理解这三者之间的关系?我们不妨把数字经济想象为一台大型计算机,那么算力就是中央处理器,运力则是主板电路,存力就是内存。这样来看,要让这台大型计算机发挥出最大效能,仅有强大的中央处理器显然是不够的。

存储必须重构

高存力充分释放算力,实现GPU/NPU利用率提升30%。高存力通过全局元数据、算子下推、向量检索、缓存加速等数据加速引擎,可缩短数据预处理周期,提高训练集加载效率和推理准确度,减少训练中断,GPU/NPU利用率有效提升。

按照测算,我国将在2025年成为世界上数据量最大的国家,但公开数据显示,美国存算比为1.11TB/GFlops,而中国为0.42 TB/GFlops,存力显然跟不上数据量的增速。数据量的爆炸式增长和存储需求的持续升级,对企业的存储系统造成前所未有的巨大压力,关键业务、通用业务对存储能力的诉求不断提升。

新华三集团存储产品线总经理兼首席产品经理关天舒在接受《通信产业报》全媒体记者采访时表示,存储介质的演进,从应用的角度看,存储架构亟需一次颠覆传统的跨越式创新,随着高速网络、RDMA、NVMe等技术的发展,以及数据池化、湖仓一体化趋势的深入,文件、对象、大数据的多协议融合部署需求快速增长。在AIGC的催化下,存储行业正在迎来一场技术变革,基于LLM大模型的应用跟以往任何应用都不一样,它会对数据存储的容量、性能、可靠性、管理等带来颠覆性的影响。未来的存储必须重构,才能更好地适配AI时代用户对数据存储的新需求。

事实上,存力并不仅仅指容量,还包括安全可靠、绿色低碳等综合能力,只有这样才能让数据存得下、跑得快、用得好。算力只有与运力、存力均衡配置,才能提升使用效率,真正发挥出数据要素的价值。

运力要跟得上

算力需求越大,运力越要跟得上,高运力充分释放算力+存力,实现算力提升20%。高运力具备高网络数据吞吐能力,是算力和存力充分释放的关键。网络丢包、流量不均,则数据传输低效,增加计算和存储等待,算力性能显著降低。

以“东数西算”为例,旨在利用西部更丰富的算力资源,去支撑东部更多的算力需求。却有诸多困难,对应用实时性要求高的“热数据”,想要传到西部,所需的传输网络不仅要满足低时延、高可靠性、大带宽、广覆盖等要求,还得面临跨区域、跨层级连接的挑战,要么传输效率很低,要么传输成本高昂。以超算为例,目前运输存储超算数据的硬盘还是通过卡车、火车、飞机,算完了再把结果取回来,这些算力还都是孤岛。

业内专家认为,这就需要有一个新的技术解决方案——公用专网的技术,它不同于公网和专网,而是一种类似于能提供专网的公网,像专网一样安全、保证质量,又像公网一样经济、方便灵活。

在亚信科技首席技术官、高级副总裁、IEEE Fellow欧阳晔博士看来,首先,需要高通量的网络传输基础设施,结合400G、OXC的全光传输系统,在算力节点间构筑高效、灵活、超大带宽的全光运力底座。其次,面向重点业务提供确定性网络保障,减少数据重传带来的资源、算效损耗。最后,需要提升网络与业务的融合性,通过可编程网络技术,有控制、有选择地开放芯片的报文处理和转发逻辑,实现网络服务能力与业务需求的高度适配。

统筹发力

算力是集信息计算力、网络运载力、数据存储力于一体的新型生产力,主要通过算力基础设施向社会提供服务。面向经济社会发展和国家重大战略需求,要稳步提升算力综合供给能力,着力强化运力高效承载,不断完善存力灵活保障,持续增强算力赋能成效,全面推动算力绿色安全发展,为数字经济高质量发展注入新动能。

倪光南建议,中国算力中心要建设领先的运力设施,用更领先的网络构建千亿物联能力;打造坚实的算力设施,在通用计算、人工智能计算等多样性计算领域不断突破;构筑可靠的存力设施,让数据存得下、跑得快、用得好。

“目前来看,暂时无法给出一个确切的时间来预测算力规模达到300EFLOPS的时间,但是可以肯定的是,随着技术的不断进步和市场需求的增加,算力增长的加速度会逐步凸显。”中国联通研究院未来网络研究部总监曹畅表示,要实现300EFLOPS的算力规模,需要在技术、投资、市场等多个方面取得突破性的进展。需要研发更高效的算法和计算架构,需要采用更先进的芯片和硬件设备,需要优化网络连接和数据传输效率等。此外,还需要大量的投资来支持基础设施建设,技术的研发和应用。

责任编辑:胡媛

【欢迎关注通信产业网官方微信(微信号:通信产业网)】

版权声明:凡来源标注有“通信产业报”或“通信产业网”字样的文章,凡标注有“通信产业网”或者“www.ccidcom.com”字样的图片版权均属通信产业报社,未经书面授权,任何人不得复制、摘编等用于商业用途。如需转载,请注明出处“通信产业网”。

评论More+
×