首页 国内 国际 社会 军事 科技 财经 体育 娱乐
首页 采集科技文章 返回首页

DeepSeek-V4发布!迈入百万上下文时代 华为昇腾超节点全面支持|deepseek|英伟达|算法

《科创板日报》4月24日讯(记者 黄心怡)DeepSeek-V4的预览版本今日上线并同步开源。DeepSeek-V4模型上下文处理长度由原有的128K显著扩展至1M,支持百万字超长上下文。同时,输出长度最大为384Ktokens。首次增加了KV Cache滑窗和压缩算法,减少Attention计算和访存开销,并通过模型架构创新更好地支持了Agent和Coding场景。


华为昇腾、天数智芯、寒武纪等国产芯片厂商已经支持DeepSeek-V4新模型。华为昇腾超节点全系列产品支持DeepSeek V4系列模型,实现DeepSeek V4-Pro 20ms和DeepSeek V4-Flash 10ms低时延推理。

DeepSeek方面称,受限于高端算力,目前V4-Pro的服务吞吐仍有限,预计下半年昇腾950超节点批量上市后,Pro价格会大幅下调。

▍百万上下文成标配

DeepSeek-V4模型按大小分为两个版本:DeepSeek-V4-Pro(1.6T参数,49B激活)和DeepSeek-V4-Flash(284B参数,13B激活),且同时支持“非思考模式”与“思考模式”,均拥有百万字超长上下文的能力。

据介绍,V4系列采用DSA稀疏注意力机制,实现token维度压缩,让1M(一百万字)超长上下文成为标配,降低了长文本处理对计算和显存的需求,为复杂长程任务提供了支撑。

其中,DeepSeek-V4-Pro,相比前代模型,DeepSeek-V4-Pro的Agent能力有所增强。

在Agentic Coding评测中,V4-Pro已达到当前开源模型最佳水平,并在其他Agent相关评测中同样表现优异。据评测反馈使用体验优于Sonnet 4.5,交付质量接近Opus4.6非思考模式,但仍与Opus4.6思考模式存在一定差距。

DeepSeek-V4-Pro在世界知识测评中,大幅领先其他开源模型,仅稍逊于顶尖闭源模型Gemini-Pro-3.1。

在数学、STEM、竞赛型代码的测评中,DeepSeek-V4-Pro超越当前所有已公开评测的开源模型,取得了比肩世界顶级闭源模型的成绩。

DeepSeek-V4-Flash模型参数下降至284B,推理成本进一步降低,模型参数和激活更小

相比DeepSeek-V4-Pro,DeepSeek-V4-Flash在世界知识储备方面稍逊一筹,但展现出了接近的推理能力。而由于模型参数和激活更小,相较之下V4-Flash能够提供更加快捷、经济的API服务。

在Agent测评中,DeepSeek-V4-Flash在简单任务上与DeepSeek-V4-Pro旗鼓相当,但在高难度任务上仍有差距。

▍华为昇腾、天数智芯、寒武纪等国产芯片支持DeepSeek-V4

目前,华为昇腾超节点全系列产品已支持DeepSeek V4系列模型,实现DeepSeek V4-Pro 20ms和DeepSeek V4-Flash 10ms低时延推理

据了解,昇腾950、昇腾A3超节点对DeepSeek V4系列模型全面适配。同时为便于用户快速微调,提供了基于昇腾A3超节点的训练参考实现。

基于DeepSeekV4-Pro模型,在8K输入场景,昇腾950超节点可实现TPOT约20ms时单卡Decode吞吐4700TPS。DeepSeek V4-Flash模型,8K长序列输入场景下可实现TPOT约10ms时单卡Decode吞吐1600TPS。

基于昇腾A3 64卡超节点结合大EP模式部署,DeepSeek V4-Flash模型,8K/1K输入输出场景,基于vLLM推理引擎可实现2000+TPS的单卡Decode吞吐。针对DeepSeek V4-Pro模型,昇腾A3同步支持推理部署,性能持续优化中。

国产GPU厂商天数智芯完成了与DeepSeek-V4的Day 0级适配。据悉,天数智芯以天垓系列训练芯片与智铠系列推理芯片为核心,承接DeepSeek-V4的全场景应用。

而寒武纪基于vLLM推理框架完成了对此次285B DeepSeek-V4-flash和1.6T DeepSeek-V4-pro两个版本的Day 0适配,适配代码已开源到GitHub社区。

▍下半年昇腾950超节点将批量支持DeepSeek V4

根据DeepSeep官方文档介绍,DeepSeek V4并不是只在英伟达体系内做优化,而是将细粒度专家并行(EP)方案同时在英伟达GPU和华为昇腾NPU上完成验证,这说明其推理路径已经具备跨算力平台的适配能力。但在开源层面,当前释放的仍主要是基于CUDA的MegaMoE和DeepGEMM,底层实现深度绑定英伟达工具链。

从价格看,DeepSeek V4-Pro输入(缓存命中)是1元/百万tokens,输入(缓存未命中)是12元,输出是24元;V4-Flash输入(缓存命中)是0.2元/百万tokens,输入(缓存未命中)是1元,输出是2元。

值得一提的是,官方API页面在小字中提到,受限于高端算力,目前V4-Pro的服务吞吐仍有限,预计下半年昇腾950超节点批量上市后,Pro价格会大幅下调。这意味着,DeepSeek正尝试把模型运行时从单一硬件依赖中解耦出来。


此外,华为云首发适配了DeepSeek-V4模型。华为云MaaS模型即服务平台已为开发者提供免部署、一键调用DeepSeek-V4-Flash API的Tokens服务。

📚 相关阅读

• “同事.skill”出圈 玩梗背后藏法律与技术隐患|调用|电子表格
• 一周新车盘点 | 魏牌大六座SUV V9X开启预售 零跑推最贵新车D19|底盘|双电机|奇瑞汽车|中型suv
• “水军拉踩风波”被关注!传工信部约谈理想汽车与东风日产|李想|新车上市|新车发布会|东风日产乘用车公司
• REDMI K90 Max手机正式开售|销价|max|redmi
• 扎克伯格深度专访:中美AI竞争完全错误,美国别想长期领先中国|特朗普|扎克伯克|马克·扎克伯格
• 寒武纪回应互联网大厂自研芯片影响:公司产品对各类人工智能技术具备较好普适性|世界人工智能大会