热头条丨首个高稀疏率AI计算卡S100在浪潮内测支持千亿级别大模型

(资料图片)

中国经济网北京7月8日讯（记者王惠绵）近日，墨芯人工智能首次发布SparseOne S100在浪潮服务器中的测试数据，S100是全球首个高稀疏率AI计算卡，运行多个AI主流模型，性能表现为国际大厂主流AI推理卡的6倍。

值得注意的是，这是墨芯首次披露S100运行能够实现单卡推理大模型，突破单卡难以满足高算力需求的瓶颈，有效解决业界对大模型，普遍采取多机多卡分布式的方式，完成推理所带来的时间长、功耗高、成本高等问题。

近年来新兴的NLP模型——T5，曾被称为“全新NLP SOTA预训练模型”，以其高参数量，让许多计算卡“望而却步”。但在本次测试中，S100在单机单卡环境下就能运行T5-8B模型，算力高达141.8 SPS。

除了高算力的优势，相较于当前国际大厂主流推理卡单卡只能支持百亿参数级别的模型，墨芯S100可以支持千亿参数级别的模型。

在单机单卡环境，不影响精度的前提下，S100运行BERT模型，SST-2数据集，性能达12176 SPS；S100运行ResNet-50模型，ImageNet数据集，性能达28260 FPS。在主频800 MHz的测试环境中，S100运行ResNet-50模型时算力达33197 FPS。浪潮内测主频为700 MHz。

所有测试均是在实际环境中，S100计算卡能够直接投入实际场景的使用，拥有较高的应用价值。同时还能满足高能效比、低功耗和高精度，为企业大幅降低部署成本和运维成本。

据了解，S100超高性能源于稀疏化计算。而稀疏化的原理是指，在AI矩阵运算中，将无效元素剔除，极大加快计算速度，降低计算成本。2021年8月，谷歌人工智能主管Jeff Dean在一次TED演讲中表示，稀疏化是下一代AI架构中最重要的趋势之一。

墨芯作为稀疏化产业实践者，其稀疏化计算解决方案具有广阔的生态前景。墨芯人工智能创始人兼CEO王维表示，“墨芯将构建涵盖软件、硬件、应用的AI计算平台，与研究人员、开发者、软件开发商等合作伙伴一起，为各行各业用户提供高性能AI计算服务，共同构筑场景丰富、生机勃勃的稀疏化生态。”