华为发布新一代算力芯片,单卡算力达H20的2.87倍

近日,华为重磅发布并展出了搭载全新昇腾950PR(Ascend 950PR)处理器的AI训练推理加速卡Atlas 350。软通动力计算产品事业群企业级产品研发管理本部总经理邓忠良将超强A860 A5比作赋能大模型时代的“核武级”算力。

近日,华为重磅发布并展出了搭载全新昇腾950PR(Ascend 950PR)处理器的AI训练推理加速卡Atlas 350。软通动力计算产品事业群企业级产品研发管理本部总经理邓忠良将超强A860 A5比作赋能大模型时代的“核武级”算力。据介绍,超强A860 A5是一款6U2路AI服务器产品,搭载鲲鹏920新型号处理器,可支持8块昇腾Atlas350加速卡,具有超强算力、灵活拓展、安全可靠等特点,适合用于AI大语言模型训练和推理、AI加速计算、视频分析等应用场景。

据介绍,昇腾芯片是华为AI算力战略的基础。华为2018年发布的昇腾310芯片,是昇腾系列芯片首款产品。2019年,华为发布昇腾910芯片;2025年,昇腾910C芯片随着Atlas900超节点规模部署,昇腾芯片逐渐为外界所熟悉。

作为华为重量级芯片产品,早在2025年9月,华为副董事长、轮值董事长徐直军在华为全联接大会2025上首次介绍了昇腾950系列芯片,并官宣了昇腾950系列芯片的发布时间——昇腾950PR将在2026年第一季度推出,首先支持的产品形态是标卡和超节点服务器。

华为介绍,与前一代昇腾芯片相比,昇腾950PR在低精度数据格式、向量算力、互联带宽及自研HBM等方面实现大幅提升。该卡采用自主研发的灵衢互联协议,将8000多张卡整合为一张逻辑卡,解决传统集群规模越大算力利用率越低的行业难题。自研低成本HiBL1.0内存技术,避免使用昂贵的HBM3e/4e,降低企业硬件成本。

华为昇腾计算业务总裁张迪煊表示,Atlas 350的单卡算力达到了英伟达H20的2.87倍,是目前国内唯一支持FP4低精度的推理产品;HBM(高带宽内存)容量是H20的1.16倍,达到了112GB,多模态生成速度可以提升60%;内存访问颗粒度从512字节减少到128字节,小算子访存效率提升4倍。

据介绍,Atlas 350除了支持FP16、FP8外,还支持更低精度的FP4。这意味着,集成Atlas 350板块的服务器能够支持更大的模型以及时延更低的推理,精度小了,计算速度就会更快,寄存器效率也会更高。目前Atlas 350在互联网推荐场景的实测数据显示,该卡的时延更低、响应更快,特别适合短视频、电商、广告推荐等高并发场景。在大模型推理、文生图、文生视频等多模态场景,其性能也和英伟达的L20相当。

张迪煊表示,基于Atlas 350等产品,结合AI发展趋势与客户需求,昇腾将打造大、中、小三大核心算力场景,助力伙伴满足差异化场景需求,共同深耕行业智能化。

面向万亿级模型,昇腾384超节点凭借“超大带宽、超低时延、统一内存编址”三大特性,实现有效算力线性扩展,更好支撑大模型训练与推理,已在多行业成功落地;面向千亿级模型,昇腾提供“开箱即用”的单机服务器,满足“快速部署”与“成本可控”的平衡;面向百亿级模型,昇腾开放更多算力档位、更高集成度、更宽温度设计的模组/板卡,结合更多OS兼容、更多场景SDK(软件开发工具包),使能伙伴打造多样化产品。

据了解,华为算力卡实力强劲,以升腾系列为核心构建了完整产品线,已实现从单卡性能到系统架构的全面突破,成为国产AI算力的重要代表。

Atlas350加速卡,支持FP4精度,成为国内唯一量产FP4的加速卡,完成从望尘莫及到同台竞技的跨越。

自2025年8月升腾全量软件开源以来,CANN等核心组件完成架构解耦,安装包从8个拆分为29个,编译效率提升58%,累计支持PyTorch、vLLM等50多个开源社区,贡献650多项关键特性。

根据Bernstein Research预测,2026年华为在中国AI加速器市场的收入份额将提升至50%,成为绝对主力,而英伟达受产品禁售影响份额或将降至8%。

华为算力卡不仅在单卡性能上实现对英伟达H20的性能超越,更通过超节点架构创新,实现了从技术跟随到架构引领的转变,展现了强大的技术实力和市场竞争力。

THE END
责任编辑:赵智华
免责声明:本站所使用的字体和图片文字等素材部分来源于互联网共享平台。如使用任何字体和图片文字有冒犯其版权所有方的,皆为无意。如您是字体厂商、图片文字厂商等版权方,且不允许本站使用您的字体和图片文字等素材,请联系我们,本站核实后将立即删除!任何版权方从未通知联系本站管理者停止使用,并索要赔偿或上诉法院的,均视为新型网络碰瓷及敲诈勒索,将不予任何的法律和经济赔偿!敬请谅解!