2025/02/07
本文的3个要点:
1.英伟达宣布与丰田合作并发布超小型超级计算机
2.驱动机器人和自动驾驶汽车的“物理AI”是最大亮点
3.解读用于“培育”物理AI的最新技术“世界基础模型”
1.英伟达宣布与丰田合作并发布超小型超级计算机
2.驱动机器人和自动驾驶汽车的“物理AI”是最大亮点
3.解读用于“培育”物理AI的最新技术“世界基础模型”
这是一场仿佛在宣示2025年“主角依然是我们”的演讲。在1月10日闭幕的全球最大级别科技展会“CES 2025”上,担任开幕主题演讲人的是英伟达首席执行官(CEO)黄仁勋。当时会场提前3小时就排起了长队,挤满了听讲者。
黄仁勋宣布将在自动驾驶领域与丰田合作,并发布了手掌大小的超小型AI(人工智能)超级计算机等诸多产品和技术,他花费较长时间介绍的是驱动机器人和自动驾驶汽车等实际运行的“物理AI”。英伟达将其视为占销售额80%的AI用数据中心之后的新商机,并实施了进一步部署。
英伟达CEO黄仁勋宣布将与丰田合作
“世界基础模型”是什么?
在坚定地要扩大业务的物理AI方面,英伟达此次提出了一个令人陌生的术语“世界基础模型”。同时发布了包含模型及其评估工具等在内的基础技术“Cosmos”。
在介绍“Cosmos”的定位之前,我们先来了解一下英伟达的物理AI相关理念。英伟达把应用于机器人和自动驾驶等领域的物理AI定位为重点发展领域。目前生成式AI的主要用途是在个人电脑和智能手机上回答用户提问或者帮助撰写文章等虚拟用途。英伟达着眼于更长远的未来,瞄准了由AI实际操作人类身边世界(物理世界)的巨大市场。
要在物理世界中驱动自动驾驶汽车和人形机器人等运行,有两种方法可供选择。一种是“基于规则”的方法,即设定在A情况下执行B,在C情况下执行D这样的规则来驱动,另一种方法是由AI基于通过摄像头和传感器获取的数据,承担从识别情况、判断到操作的全部任务。这种方法一般称为“端到端(End-to-End,E2E)”。
以往机器人和自动驾驶大多采用基于规则的方法,近年来接连出现采用E2E方法的企业。例如,马斯克领导的美国特斯拉2023年采用了基于E2E的自动驾驶系统。据悉包括华为在内的很多中国企业也在开发E2E自动驾驶汽车。
E2E机器人和自动驾驶也使用AI,从这一点上来说,与ChatGPT等对话式AI是相同的。但是,它们之间存在决定性的差异。ChatGPT等是通过大量文本数据等进行学习,而用于机器人等的AI则需要学习我们“身边的世界”。
也就是说,必须让AI学习在现实世界中依据物理法则而实际发生的现象。其原因在于,如果作为大脑的AI不了解身边的世界,即使给机器人增加高性能GPU(图形处理器),也无法如愿运行。
那么,如何获取用于学习的数据呢?正如自动驾驶汽车开发需要通过测试行驶大量里程来获取数据一样,现实世界的数据需要人工准备,这是以往的主流做法,但这需要极大的成本和时间。如果在驱动机器人实际运行的同时进行学习,必须要确保安全性。
向模拟技术大规模投资
解决这一问题的方法是模拟。近年来,英伟达在可逼真重现现实的“Omniverse”模拟技术方面进行了巨额投资。通过在虚拟空间中合成学习数据并让AI学习这些数据,可大幅降低成本。
Cosmos是一个有助于模拟的平台。英伟达将Cosmos的基础模型称为“世界基础模型(World Foundation Models、WFM)”。一般来说,用于自动驾驶等的理解现实世界物理法则和因果关系等的模型被称为“世界模型(World Model)”。世界基础模型也接近这一概念。已公开的Cosmos第一代模型使用对现实世界进行拍摄的2000万小时视频数据等进行了事先学习。也就是说,通过实际影像学习物理法则。
英伟达CEO黄仁勋在发表主题演讲的第二天召开媒体联合采访会,表示“(CES的)主题演讲中最重要的事情之一就是世界基础模型。就像(美国OpenAI公司开发的)GPT是理解语言的基础模型一样,世界基础模型能理解摩擦、惯性、物体的存在、几何学和空间性。能理解语言模型无法理解的物理世界”。这就是所谓的“世界AI”。
“用于训练AI的AI”
Cosmos可以生成用于训练物理AI的合成数据。也就是说,定位成用于训练AI的AI。如果在Omniverse的虚拟空间中输入传感器等三维数据和用CAD制作的对象数据,用自然语言发出指示,就可以制作人工智能训练用的写实视频。
例如,下面的图片输入了从建筑物传感器获取的数据、用CAD制作的汽车和货架等对象。
如果对Cosmos输入“这个场景是从一个旧仓库里透过敞开的车库门向外看的情形”、“暗淡的阳光从门口射进来”、“有一个布满灰尘的储物架贴着墙壁”、“地板是水泥的,可以看到磨损”、“汽车是干净的轿跑,反射着周围的环境”之类的描述,就会生成视频。
将传感器数据和以CAD制作的数据输入Omniverse
通过用自然语言向Cosmos发出指令,可以生成写实的数据
即使使用相同的数据,也能通过改变指令来生成不同的合成数据
视频由三维的矢量数据组成,可以自由改变对象的位置等。如果将指令改为“晴朗的阳光”、“新建的仓库”、“湿地板”等,就可以生成不同情况下的合成数据。
“机器人和自动驾驶汽车的学习所需的是具有真实感的数据。并非图像生成式AI创造的幻想的世界”,在CES上的英伟达展区,负责人这样解释道。
通过学习周围的世界,Cosmos可以生成高度真实的合成数据。在英伟达负责Omniverse的副总裁雷夫·莱巴雷迪安(Rev Lebaredian)解释称,“WFM的风险是幻觉,这正是作为Omniverse的伙伴而开发Cosmos的原因。它们是生成根植于现实世界的合成数据的理想组合”。
借助AI,E2E的机器人和自动驾驶的可行性越来越高。随着用于学习的合成数据以Cosmos实现量产,技术开发或将进一步取得进展。
资料来源:https://business.nikkei.com/atcl/gen/19/00511/011500044/
By Sho Shimazu
更多资讯请关注日经BP微信公众号
Original article: http://cn.nikkei.com/columnviewpoint/column/57947-2025-02-07-05-00-05.html?print=1