2025/03/11
笔者深切地感受到,大语言模型(LLM)等生成式AI(人工智能)的开发迎来了重大转折点。契机就是“DeepSeek冲击”。
由于中国AI企业DeepSeek开发出了高性能的低成本大语言模型,2025年1月下旬,英伟达(NVIDIA)等美国高科技公司的股价暴跌。“DeepSeek冲击”这一说法,可能模仿了前苏联在1957年成功发射全世界第一颗人造卫星“斯普特尼克1号(Sputnik-1)”后,美国受到的“斯普特尼克冲击”。两种说法都表示美国因其他国家取得辉煌成就而受到了打击。
DeepSeek 的训练成本据称在数亿日元左右,但目前又出现了成本远低于此的开发案例。那就是斯坦福大学的研究团队于2025年1月下旬发布的大语言模型。
在硬件方面,该研究团队使用了16个图形处理器(GPU)“H100”。让中国阿里云(Alibaba Cloud)开发的“Qwen(通义千问)”的某个模型对精心挑选的1000个样本进行了26分钟的学习。据称,仅通过这样的方法,就实现了可与美国OpenAI的“o1”相媲美的大模型性能。
有AI研究人员估算,使用16个H100运行26分钟的成本为6美元,也就是不到1000日元。即便使用以时间为单位出租GPU的服务,26分钟的学习成本似乎也能控制在几千日元的水平。由此可见,如果沿用现有成果,确实可以大幅降低大模型的开发成本。
重点并不在于DeepSeek或斯坦福大学开发的大模型的具体性能及开发成本本身。而在于只要方法得当,就能以低成本开发出与以往一样的高性能模型。
在AI开发中,经验表明“模型的参数数量”“训练数据量”“计算量”这三个因素与AI的性能成正比。因此,与美国微软(Microsoft)关系密切的OpenAI及美国谷歌(Google)等公司,展开了“让更大的模型用更长的时间学习更多数据”的规模竞争。
“DeepSeek冲击”预示着这种规模竞争“进入尾声”。要从头开始开发高性能大语言模型,需要大规模的模型和大规模的学习,这一事实在未来可能基本上不会改变。但是,仅靠这些做法已经无法在竞争中取得胜利了。
仅使用Transformer的一半机制
笔者认为,这种规模竞争发生的背后原因可能是OpenAI开发的“GPT”内部结构存在问题。
GPT是“Generative Pre-trained Transformer(生成式预训练转换器)”的缩写,它基于谷歌开发的“Transformer”模型。首先,我们来回顾一下Transformer的工作原理。
Transformer大体上由编码器(Encoder)和解码器(Decoder)两个部分组成。以将英语文本翻译成日语为例,首先将英文输入编码器,这时会输出抽象地表达英文含义的小数据。将“含义数据”输入解码器后,就会输出符合相应含义的日语文本。翻译就是通过这样的流程来实现的。
然而,GPT等文本生成类大语言模型,仅使用了Transformer的解码器,只一味学习“某段文本之后的字符串”。通过这种方法,能够推测出后续的文本,从而实现文本生成。
而谷歌开发的“BERT(Bidirectional Encoder Representations from Transformers)”等文本分析类大模型仅使用了Transformer的编码器。由于这类模型能够把握整个文本的结构,因此具有擅长分析的特点。不过,由于没有解码器,无法直接生成文本。
相反,文本生成类大模型由于没有编码器,相较于 BERT 等模型,其在文本解析方面较为薄弱。如果同时使用编码器,这个问题就能得到解决,但 OpenAI可能是出于避免增加计算量和不必要信息混入的考虑,选择不添加直接与生成无关的编码器。
OpenAI在开发GPT时实际采用了什么方法呢?那就是“蛮力硬干”。通过不断推进模型和训练的规模化,最终使得仅凭解码器就能解析文本。
在Transformer中,使用名为“自注意力(Self-Attention)”的机制来理解上下文,该机制能够显示文本中某部分正在关注的其他部分。BERT 可以利用某一部分前后的上下文,而GPT仅能利用前文。尽管存在这些局限性,OpenAI还是通过“蛮力”突破了这一难关。
历史重复上演
这样开发出来的GPT必然存在一个缺点。那就是“不擅长处理长文”。
以使用基于GPT的聊天式AI服务“ChatGPT”来创作小说的情况为例,它一开始能顺利地输出文本,但当文本达到一定长度后,往往会突然出现故事无法保持连贯的情况。使用ChatGPT来创作长篇小说是相当困难的。
原因在于表示自注意力机制覆盖范围的“上下文窗口(Context Window)”。当整个文本变长超出上下文窗口的范围时,ChatGPT就无法通过自注意力机制来掌握上下文了。只要扩大上下文窗口,这个问题就可以得到解决,但由于这样做会导致计算量大幅增加,因此很难随意扩大。在BERT等文本分析类大模型中,当文章超出上下文窗口范围时,自注意力机制同样无法使用,但由于可以接受整个文本作为输入,因此文本的结构信息本身得以保留。
日本有一种说法是鸟类只有短期记忆,因此“鸟脑”一词用来形容容易忘事的人(编者注:类似中文里用“鱼脑”形容记忆力差。)。类似地,像GPT这样的文本生成类大模型可以说是“鸟脑AI”。
作为解决这一缺点的方法,“长期记忆”受到了关注。谷歌在2024年12月于论文预印本网站“arXiv”上发布的论文《Titans: Learning to Memorize at Test Time》中,提出了一种名为“Titans”的方法,以实现长期记忆。
Titans的特点是,不仅在Transformer中添加长期记忆机制,还具备遗忘机制。它引入了“Surprise Metrics(惊讶指标)”,该指标可定量表示输入与预测不同时的“惊讶”程度。可以根据这个指标,为需要记忆的信息进行加权,以防止保存在长期记忆中的信息过度膨胀。
在Transformer问世之前,擅长处理时间序列数据的RNN(Recurrent Neural Network,循环神经网络)及LSTM(Long Short Term Memory,长短期记忆网络)等模型也被用于自然语言处理。有趣的是,LSTM是在没有长期记忆的RNN的基础上添加长期记忆机制的模型。虽然Titans和LSTM在长期记忆机制的安装方法上有所不同,但目的十分相似。
迄今为止,AI 的发展历史反复经历了因突破性技术的出现而带来重大变革的过程。其中,最重要的技术或许是深度学习(Deep Learning)。此外,在自然语言处理领域,Transformer的问世极大地提升了AI的实用性,在图像生成领域,扩散模型的问世起到了同样的作用。
在AI的历史中,规模竞争带来的进化可以说十分罕见,而由划时代的创意带来的非连续性进化才真正发挥了重要作用。“DeepSeek冲击”正在让AI领域回归到这种原始状态。
谁会想出新的划时代创意呢?拥有大量优秀研究人员或工程师的大型科技公司仍然具有优势,这是不争的事实,但改变世界的创意或产品有时也会产生于边远之地。从这个意义上来说,笔者对作为“远东边陲者”的日本研究人员和工程师充满了期待。
大森敏行 日经XTECH
数据来源:https://xtech.nikkei.com/atcl/nxt/column/18/00682/021200178/
更多资讯请关注日经BP微信公众号