DeepSeek揭秘如何突破软硬件瓶颈|科创要闻
人工智能军备竞赛在国内外持续迭代演进。揭秘OpenAI、何突谷歌、破软瓶颈微软、硬件阿里巴巴等不断推出新应用,科创MCP协议、揭秘AI编程、何突具身智能机器人、破软瓶颈芯片自研等场景多样拓展。硬件自从年初引起全球震动并激发诸多领域AI变革以来,科创DeepSeek的揭秘一举一动都备受关注,但其最新R2模型千呼万唤仍未推出。何突
5月14日,破软瓶颈DeepSeek团队发表最新论文,硬件解释其DeepSeek-V3模型在硬件架构和模型设计方面的科创关键创新,公开大规模训练和推理的降本秘诀,令人瞩目的效率突破是如何做到的,又给业内很大启发。
这篇发表在arXiv平台的论文Insights into DeepSeek-V3:Scaling Challenges and Reflections on Hardware for AI Architectures,DeepSeek创始人兼CEO梁文锋出现在合著名单中。
相较此前的DeepSeek-V3技术报告,本篇论文的重点不在算法,而是从硬件架构和模型设计双重视角出发,探讨了硬件和模型两者如何相互配合,以实现低成本的大规模训练和推理,主要涵盖五方面内容,包括DeepSeek模型的设计原则、低精度驱动设计、以互联为驱动的设计、大规模网络驱动设计、面向未来的硬件架构设计。
论文重点介绍了多头潜在注意力(MLA)以提高内存效率、混合专家(MoE)架构以优化计算与通信权衡、FP8混合精度训练以充分发挥硬件潜力,以及多平面网络拓扑以最小化集群级网络开销等关键创新,还为未来AI硬件与模型协同设计提出了建议。
大模型的迅猛扩张暴露了硬件的架构瓶颈:内存容量不足、计算效率低下、互连带宽受限等。DeepSeek研究团队通过基础设施与算法团队的深度合作,开发了一个适用于MoE模型的FP8混合精度训练框架。在混合精度训练中,模型的权重和激活值可以使用FP8进行计算,而关键的梯度计算和优化步骤则使用更高的精度(如FP32)来保证训练的稳定性,从而在不损失模型性能的前提下,充分发挥硬件的计算能力,加速训练过程,降低训练成本和内存占用。
论文披露了对通信架构的重构。DeepSeek提出多平面双层胖树网络(MPFT),将传统三层网络拓扑压缩为两层,通过8个独立网络平面实现流量隔离和成本下降。这是DeepSeek首次披露超大规模集群的网络优化方案。
他们还提出了未来硬件架构设计的前瞻性方
(责任编辑:知识)
-
我们经常会发现新买的玻璃茶杯内有一股异味,但由于许多人对清除异味的方法并不了解,因而围绕着它产生了各种各样的问题。为了帮助大家更深一步了解新买的茶杯有异味怎么办,以及玻璃茶杯该怎么去除茶垢,解 ...[详细]
-
韦德:今夏是否留公牛取决巴特勒 不想经历重建发布时间:2018-11-17 10:33 来源:豫都网 我要投稿[摘要]北京时间1月20日消息,来自ESPN的报道称,公牛队当家球星德维恩-韦德表态,今夏 ...[详细]
-
中国消费者报武汉讯禹静 何怡 记者吴采平)“五一”假期即将来临,适逢《消费者权益保护法实施条例》以下简称《条例》)即将实施,为了让广大消费者乐享假日、放心消费,4月30日,湖北省市场监管局、湖北省消费 ...[详细]
-
中国消费者报深圳讯记者黄劼)5月6日,深圳市消费者委员会发布“五一”节日期间消费投诉情况,住宿服务、交通票务、旅游服务投诉居多。记者从深圳市消委会了解到,今年“五一”期间5月1日至5月5日),深圳市消 ...[详细]
-
8月14日消息,作为共享伞中的一员,“要借伞”已于2016年12月获数百万人民币种子轮融资,由个人投资。要借伞目前正在进行天使轮融资,融资额度800万人民币,用于扩大团队、研发 ...[详细]
-
精彩的菲律宾特色表演 东南网记者 夏菁 摄东南网11月28日讯本网记者 夏菁)11月28日,“更多欢乐,尽在菲律宾”旅游文化节暨旅游产品年终大促在厦门启动。11月28日至12月 ...[详细]
-
“在这一瞬间忘了要去向哪里的深夜/我不知道我还有多少相聚分别……”一曲李健自己填词的《车站》,悠扬动听而充满诗意,以曲中“车站的离别&r ...[详细]
-
今天是路易斯·菲戈41岁的生日,国际米兰俱乐部和所有球迷祝福我们的传奇生日快乐! ...[详细]
-
玻璃是目前使用较广泛、应用范围较广的无机非金属材料,能够应用于建筑、日用、艺术、仪表等领域,种类十分丰富。除了常用的钢化玻璃、印花玻璃以外,还有光学玻璃、调光玻璃等对技术要求较高的类型。本篇文 ...[详细]
-
REDMI Note 15系列将在本周正式推出,该系列依旧主打耐用品质。目前,REDMI方面已经发出了新品邀请函,新系列再次在品质上玩命卷。REDMI Note系列有着广为人知的名号——小金刚,该系列 ...[详细]