2025-02-01T12:20:12.008Z
德国之声:DeepSeek被不少人称为“神秘的东方力量”。其原因之一在于性能比肩GPT-4o的DeepSeek-V3,据其自称训练成本不到GPT-4o的1/20。也有人质疑其真实成本是否更多?您认为用如此低的成本训练出顶级的模型有可能吗?
肖涵博士:我认为完全有可能。首先这并不包含试错成本的,也就是“炮灰成本”。只计算这一次成功花了五百多万。其次大模型本身的训练技巧,随着时间变化,发生了很多演进和升级。像OpenAI这种顶尖公司,发布一项产品需要打磨很久,成品出来可以从发布日期向前倒退3、4个月,而DeepSeek本身不需要做太多PR相关的宣传,准备大概一个月左右,所以这两个模型之间差了有小半年,在这个时间差里,模型的发展是非常迅速的。不管从数学上还是深度学习上会出现很多新知识使得模型训练更有效。而且就我所知,DeepSeek在2023年就开始做一些非常底层的技术优化,再加上整个开源社区,在过去两三年之内,会有很多新的一些技巧,使得成本会降得非常低。
德国之声:您刚才提到开源社区, DeepSeek便宜又好用,有人认为它的成功不仅是技术层面,更是对开源精神的彻底践行,您认为就开源与闭源而言,开源会是未来趋势所在吗?
我觉得就AI模型而言,未来价格肯定是越来越便宜,这在未来会象是水电煤气一样,成为通用的基础设施。好比我们现在不会在每个月为上网花多少钱纠结一样。但便宜是有代价的。因为就很多初创公司而言,它无法支付这么高的运营成本。DeepSee之前积攒了非常多的GPU,它现在把这部分算力一下释放出来,肯定会对市场造成冲击。而开源本身,和价格以及商业化之间是一个非常复杂的关系。有人非常讨厌开源——比如早期的比尔盖茨。他曾经非常讨厌Linux,因为他觉得Linux开源免费,没有人愿意用Windows了。所以这两天我们看到Altman(OpenAI CEO)和Amodei(Anthropic CEO)反应非常激烈,因为觉得DeepSeek这种低价策略加上开源,导致他们的客户流失非常严重。
德国之声:所以主要还是商业利益上的冲突,从DeepSeek来说,这可能是个很好的战略?
从DeepSeek角度来说,把模型开源确实是一个非常好的战略,但得看它之后是不是坚持开源,如果坚持开源就是战略,假如只开源这一次,就是一个战术。为什么说是很好的战略呢?因为西方对中国模型本身并不放心,他觉得模型内部训练时就有了价值观偏见。因为生成类AI的输出风格和他的训练样本非常相关。大家都知道中国互联网基本处于一个封闭状态,西方人会对“模型自带的意识形态”产生害怕心理。而选择开源的话,就相当你把我模型的数据(不是训练模型的数据)下载下来放到自己的GPU上去跑,包括我们今天看到Amazon和英伟达的云服务器都支持了DeepSeek模型,就是因为它选择开源模式。部署到本机内部,西方也无所谓什么顾虑,不管什么价值观输出,至少不存在信息传回中国政府这种。
德国之声:您刚刚说到西方的顾虑,正好有一则新闻,意大利宣布暂时禁用DeepSeek,理由是就数据保护给出的信息不充分。不少国家监管机构也开始对DeepSeek数据保护漏洞行调查。数据保护问题是对使用AI模型的普遍忧虑吗?
首先意大利并不只是针对DeepSeek,它当年也针对OpenAI,以及Google。但我觉得欧洲对于发展AI和个人隐私保护这两者没有捋得很清楚。这两者肯定要有一先一后,几乎不可能同时解决。这也是为什么欧洲之所以今天在AI方面比较落后,它把这两个矛盾没有理清楚。在这一领域中美走得比较前面就是因为大家在数据保护上相对还是“睁一只眼闭一只眼”。比如我曾在三藩市参加一个聚会,有个小游戏要求一小时内写一个小程序:扫描人脸——生成一条pick up line (搭讪)原理是:用扫描得到的人脸匹配Linkin个人信息再输入GPT生成。我在欧洲呆久了,想,这app侵犯人隐私权不得完蛋啊,结果底下美国人一片欢呼。所以这可能还是文化不同。
德国之声:说到中美在AI领域走在前列。有人比喻美国主要做从0到1,也就是技术创新,中国人是做从1到10,应用创新。这次DeepSeek成功,有人认为仍然只是应用层面的提高,没有技术创新,但也有人认为DeepSeek已经出现根本性突破。您认为有技术层面的创新吗?
根本突破不存在。DeepSeek肯定是从1到10,因为是OpenAI先做出来,这点毋庸置疑。DeepSeek是在它之后做出来,但在工程上把成本压得非常低。并且我觉得在这个问题上,我认为在过去二三十年中美发展以及世界经济发展都离不开中美非常明确的分工 – 美国负责0到1,中国1到10,明确分工之下,世界才能和平发展,经济稳定向前,如果其中哪一方觉得“不公平,我也想做0到1,或者美国说“凭什么1到10都是你”,比如我要把美国工厂都迁回来,这就有矛盾了是不是?一旦矛盾出现,分工开始出现纠缠,大家都开始想着利益重新划分。
德国之声:所以DeepSeek是站在前人0到1的基础上,比如思维链这种,他不是第一个提出来,但是它挖得比较深。
对,它有勇气去深入挖掘,这本身和DeepSeek的公司背景有关系。这是一个量化公司,做量化交易,和普通公司最大的不同,他们在“玩钱”,“玩杠杆”,是非常危险的事,从这种角度,做量化交易的人往往更脚踏实地,不会道听途说哪种算法好就拿来用,即使是Google,OpenAI发明的算法,它也会做非常非常多的修改。相反很多AI公司他们多是互联网所谓”大厂“思维 – 想着怎么用产品经理的思维把产品做大,然后去marketing,去PR。产品本身如何在其次,至少用广告打造、宣传让大家认为产品有前途。量化交易不是这种思维。所以这一点上也是DeepSeek区别于其他中国AI公司的地方。并且我觉得这次DeepSeek也是给中美一些非常爱玩广告噱头的AI公司的一个提醒,更关注的应该是把最有效的资源投入到解决最难的问题上。
德国之声:这次DeepSeek震撼硅谷AI巨头,震撼芯片交易市场,有人问,中国在AI领域要赶超美国了吗?
我觉得差距肯定会越来越小,主要取决于两点。第一点中国对于AI模型的监管是不是还是像现在这样睁一只眼闭一只眼。比如政府肯定知道 ,比如这个模型在被提问时可能是会说出“天安门事件“这种敏感信息(外文语言模式,或者模型脱机使用,编者按),但它选择不作为,我认为这是正确的,应该选择不作为。模型层面不应该有审核,大模型提供商不应该被审核。审核的应该是下游做应用的层面。假设有一天中国政府说要对模型层面进行审核,那对AI的发展肯定会是一个非常不好的信号。第二点是能不能有更多初创公司进入这个赛道,投入到模型训练这个红海(竞争残酷、激烈的市场)中。几年下来不少AI初创都淡出了,如果之后因为价格战内卷到比如只剩下DeepSeek和通义千问,这对于AI模型发展其实是不好的。
德国之声:说到AI市场竞争,微软和OpenAI声称DeepSeek蒸馏自己的模型来对其模型进行训练,有人说这是无法避免的,您觉得这算“知识窃取“吗?
OpenAI o1思维链并没有公开,但DeepSeek的思维链是很清楚的,从它的“深度思考”模式你可以看到。OpenAI在比较模型时可能会觉得存在自己“被逆向工程”了的可能。但逆向工程这个东西在整个技术发展来讲就是无法避免的。德国汽车都被逆向工程了多少回了嘛。我觉得这个东西用平常心对待就完了。就相当于发你一个律师函,就是给你点压力
。
肖涵,德国慕尼黑工业大学获得计算机科学博士。Jina AI 创始人兼 CEO 。德中人工智能协会创始人兼主席 。
德国之声致力于为您提供客观中立的新闻报导,以及展现多种角度的评论分析。文中评论及分析仅代表作者或专家个人立场。
© 2025年 德国之声版权声明:本文所有内容受到著作权法保护,如无德国之声特别授权,不得擅自使用。任何不当行为都将导致追偿,并受到刑事追究。