
DeepSeek 开源动作仍在抓续,激发了 AI 圈又一轮震憾。
2 月 21 日 12 点,DeepSeek 团队在 X 平台发布了一段英文践诺。浅易解说一下,其实说的即是:"从下周运行,我们将开源 5 个代码仓库,以完全透明的花式共享我们轻细但诚挚的进展。"
紧接着在 2 月 24 日,DeepSeek 就开源了首个代码库 FlashMLA。
用我们得到 App AI 学习圈主持东说念主快刀青衣淳厚的话说,能作念出这样的行为,口舌常有气派的。他打了一个譬如:之前开源的是责任闭幕,就像一个淳厚傅,把他所有的教授忘我传授给你。而目下,你不但能拿到淳厚傅的隐私,还能看到淳厚傅在经由中是何如干活儿的。这对许多东说念主来说,会比闭幕更有价值。
虽然,列国网友对 DeepSeek 这一动作王人不乏歌唱之辞,反响十分热烈。
今天我们先不细究代码库 FlashMLA 的责任道理,而是想来聊一下,从 DeepSeek R1 发布以来许多东说念主在想考的一个问题:简直具有"开源精神"的DeepSeek 加上华为,能不可超越英伟达和 Open AI?
无意前不久,我们得到的万维钢淳厚,在他的专栏里花大篇幅恢复了这个问题。本文选自《万维钢 · 精英日课 6》,文中万淳厚用更全面、更长久的视角,探讨了为什么 AI 需要越来越强的算力,以及中国为什么要冲突芯良晌代甘休、坚抓永久插足通用东说念主工智能研发等问题。
底下,请万维钢淳厚为你共享:
作者:万维钢
开头:《万维钢 · 精英日课6》
01
对算力的需求永无尽头
DeepSeek 遴选了一些奥密的优化方法,或者用相比少的算力完结 o1 级别的功能,这相称了不得,这对中国——也对好意思国——的大模子研发者王人是天大的好音信。
但这毫不是说以后英伟达那种高等芯片就没用了,咱国产芯片就够用了。目下 AI 缩放定律远远莫得看到尽头,更高的智能条目更高的算力这个根蒂原则并莫得变。
要知说念就算莫得 DeepSeek,别家公司和科研团队,包括 OpenAI 我方,也在优化模子性能,再有计划到英伟达芯片升级,用山姆 · 奥特曼的话说即是"模子输出资本每年王人会裁汰十倍"(即降至底本的十分之一)。
假定 DeepSeek 冲突之前那一刻,OpenAI 用 100 的算力得到 100 的智能,DeepSeek 冲突了,群众用 10 的算力就能得到 100 的智能——但你的指标不是 100 的智能,而是一万、以致一百万的智能,是以你仍然需要比目下跳动百倍千倍的算力。
是以对算力的需求目下来说如故无尽头的。
但英伟达并非安枕而卧,好意思国有好几家公司在作念我方的 AI 芯片,中国也有包括华为、寒武纪、百度、壁仞科技等等正在追逐。那么国产 AI 芯片的水平相关于英伟达来说到底怎么呢?国产最强的是华为昇腾。
我让 ChatGPT Deep Research 调研况兼制作了底下这张表格,把华为昇腾和英伟达近几年的主流 GPU 作念了个对比——

这个闭幕不错说是既不让东说念主悲不雅,又不让东说念主乐不雅。面前能用的最强国产 GPU 是 2022 年发布的华为昇腾 910B,它的性能在某种道理上照旧略略超过目下仍然被许多 AI 公司曩昔使用的、英伟达 2020 年发布的 A100。这很遑急,这说明就算好意思国对中国搞全面断供,中国也能接续历练 AI。
但 910B 比英伟达目下确方丈芯片,2023 年发布的 H200 和 24 年发布的 B100,就差距相比大了,算力大要十分于英伟达的二分之一到四分之一。华为 2025 年行将量产昇腾 910C,基础算力与 910B 差未几,推感性能听说达到英伟达之前 H100 的 60%。但英伟达 2025 年会推出 GX200,算力预估是 910C 的五倍。
02
高等智能一定是通用智能
为什么英伟达在接续突飞大进,而华为有点接近极限的兴味?
这里最遑急的原因即是光刻制程。
英伟达 A100 和华为昇腾系列王人是 7 纳米制程,在这个规范上中芯国外能作念。只是在 910C 这个级别条目 N+2 制程,中芯国外的良率听说很低,这意味着出产资本高。而英伟达 H 系列、B 系列、GX 系列分离是 5 纳米、4 纳米、3 纳米制程,中芯国外作念不了。
因为中国大陆莫得极紫外光刻机。《精英日课》讲《芯片干戈》一书的时候说过,极紫外光刻机极其不可能靠一个国度完全自强不断造出来,目下看至少改日十年之内可能性不大。
是以面前最可行的主义,如故从英伟达买。
那你说目下 DeepSeek 照旧很好用,我们就在这个基础上进步性能行不行,何苦非得追求最高的性能呢?我以为那是万万不行的。
要知说念 DeepSeek 是个相对相比小的模子,它是不错跟 o1 对标,但 o1 也不是超大模子。
就在 2025 年下半年,也许更早,OpenAI 会推出 GPT-5,那将是一个超大的模子。它会像目下 GPT-4o 一样领有端对端历练出来的多模态,它将不但能阅读图像,而且能阅读视频和音频,它将能处理海量的数据——是以它需要许多张 GPU。DeepSeek 不会毁灭这种模子。
再者,更遑急的是,AGI、以及紧接着更遑急的 ASI,即是需要超大的算力—— 因为高等智能一定是通用智能。
DeepSeek R1 的效劳高,有许多草创性的时代,然而我们也不可否定,其中有一定以放胆宽度相易效劳的身分。
R1 和之前的 V3 王人是「羼杂群众(mixed experts)」模式,是可能最早法国的 Mistral 模子先遴选的,是把智能踱步开成多少个群众模块,每次碰到新任务就只调用联系的模块,而无用「全脑」整个想考,这就大大检朴了算力。
这个作念法十分于你问我数学题我就用数学模块,问我古诗词我就用古诗词模块。但我们设计,关于更复杂的问题,也许即是需要同期调用几个范围的学问和想维模式本领处分。
出奇是创造力老是来自不快乐见的流畅,那么这个模块分割法就会甘休推崇。再者,DeepSeek 专注于数学、编程和说话处理这几个范围,亦然为了检朴算力不得不为之。
就在最近,斯坦福大学李飞飞的团队发明了一个更激进的作念法,堪称只用不到 50 好意思元(有个说法是 6 好意思元)的历练用度就弄出一个数学解题水平跟 R1、o1 差未几的推理模子,叫 S1。他们是何如作念的呢?
第一,从开源的通义千问(qwen)的一个小版块说话模子运行,省去前期大范畴的历练;
第二,用一千说念精选数学题专诚历练数学解题智商,且只历练数学智商;
第三,用 Google Gemini 的一个推理版块的推理经由的蒸馏数据来历练我方的推贤惠商。
这个作念法,就如同找个脑子快的孩子,给他一套精选习题集,让他背诵别东说念主的解题套路。这样历练作念题家虽然快,然而这除了快莫得别的孝敬。这个作念法不会像 R1 那样泄露出任何新智商,不会给你任何惊喜。
这不是通往 AGI 之路。
03
更多的参数 + 更长的想考时分 = 更好的谜底
梁文锋胸襟大志,满盈不单是想提供一个低廉的作念题家,而是想作念 AGI。接下来的情形,我揣测,差未几是底下这样的——
关于一般的日常任务,比如一般编程、搞个会议纪要、写个文书责任的发言稿、弄个报表之类,只好用普通模子就不错,中国不但没问题而且可能有价钱和服务上的上风,也许中国的模子是最佳的。
但关于科研任务,出奇是探索最前沿冲突,你需要能想得很广而且很深,你需要尽可能地堆积算力。我有个说法是淌若一个科研团队高兴花 5000 好意思元问 ChatGPT 一个问题,而另一个通常水平的科研团队高兴花一万好意思元,那么后者将得到更好的谜底——只是是因为模子高兴为他们想考更永劫分。
只好缩放定律仍然灵验,那么,更多的参数 + 更长的想考时分 = 更好的谜底
亦然更值钱的谜底。接下来 AI 在科研范围会本事越过,科研发现的速率会加速,是以争夺会相称是非。一种新药只可被发现一次,谁先作念出来即是谁的。
还有一个在我看来最遑急的有计划,是谁先达到 ASI。
我们这里不妨界说ASI 是「我方不错历练我方」的超等东说念主工智能。那么谁先达到 ASI,谁就等于是获取了一个满盈的泉源上风。这就十分于策略游戏里谁先造出「奇不雅」来,能大大加强我方的策略上风。
试想淌若好意思国率先达到 ASI,那就意味着以后的路全买通了,剩下的事只是给 AI 喂芯片喂电力汉典,不需要东说念主类科学家再有奇想妙想,可谓是安枕而卧——那到时候中国何如办呢?还靠一帮东说念主费力追逐吗?
交运的是中国有个 DeepSeek。就在 DeepSeek 的论文中,照旧泄露出小数迹象,模子我方给我方建议了一个算力优化策略。你不错说梁文锋照旧看到了 ASI 的光泽。我们设计 OpenAI 细目也有访佛的东西,但他们从未公开过。
DeepSeek 震撼好意思国这段时分,Anthropic CEO 达里奥 · 阿莫迪(Dario Amodei)有一些公开言论,很耐东说念主寻味。他说淌若不甘休中国发展 AI,那会对全东说念主类王人有平允,我们会迎来突飞大进的十年——然而中国会把 AI 用于军事,而这对好意思国很不利,是以他命令好意思国政府加强对中国 AI 的甘休。他还说,真但愿 DeepSeek 团队到好意思国来为他们公司责任。
这些言论在 X 上遭到了好意思国网友的围攻。泉源你行为一个科技公司 CEO 去强调地缘政事,这自己即是错的:科技应该为全东说念主类服务。再者你咋这样会想呢?东说念主家 DeepSeek 凭啥到好意思国来帮你干?
这些言论进一步说明了 DeepSeek 的策略道理。接下来好意思国政府有可能加强对中国 AI 的甘休,以致完全脱钩,但也有可能松动英伟达的出口管束,毕竟跟特朗普什么王人不错谈。无论怎么,我们必须认准 ASI 这个大标的,而满盈不可高慢于解解数学题、日常编程那些任务。
总想四两拨千斤、少费钱多就业儿、以 20% 的插足处分 80% 的问题,那是走不远的。
中国必须有东说念主宁可聘用勤苦又费钱的路。
万淳厚是前物理学家,现科学作者,得到 App《万维钢 · 精英日课》主持东说念主。万淳厚从 2016 年起,在得到 App 开设《精英日课》年度专栏,于今已更新到第 6 季,累计超过 70 万东说念主次订阅奴才。接待你加入正在更新的《万维钢 · 精英日课 6》。

