Wed, 05 Feb 2025 16:06:05 GMT
在这篇文章中,谷歌(GOOGL)于周三向公众发布了Gemini 2.0——其迄今为止“最强大”的人工智能模型套件。去年12月,公司已向开发者和可信测试者开放访问权限,并将部分功能整合至谷歌产品中,但此次发布标志着“全面开放”,据谷歌所述。
该模型套件包含2.0 Flash,被誉为“主力模型,最适合大规模、高频任务”;2.0 Pro Experimental,主要聚焦于编码性能;以及2.0 Flash-Lite,谷歌称其为“迄今为止最具成本效益的模型”。对于文本、图像和视频输入,Gemini Flash每百万令牌向开发者收费10美分,而更经济的Flash-Lite版本则收费0.75美分。
随着科技巨头与初创企业间的人工智能军备竞赛升温,谷歌持续发布新模型是其大力投资“AI代理”广泛战略的一部分。Meta、亚马逊、微软、OpenAI和Anthropic也在推进代理型AI的发展,即能够代表用户完成复杂多步骤任务的模型,而无需用户逐一指导。
谷歌在12月的博客文章中写道:“过去一年,我们一直在投资开发更具代理性的模型,意味着它们能更好地理解周围世界,提前多步思考,并在你的监督下代表你采取行动。”文章还提到,Gemini 2.0在“多模态方面取得新进展——如原生图像和音频输出——及原生工具使用”,这一系列模型“将使我们能够构建新的AI代理,更接近我们通用助手的愿景”。
由前OpenAI研究高管创立的、获亚马逊支持的AI初创公司Anthropic,是开发AI代理竞赛中的主要竞争对手。去年10月,该公司表示其AI代理能像人类一样使用计算机完成复杂任务。Anthropic的计算机使用能力使其技术能够解读屏幕内容、选择按钮、输入文本、浏览网站,并通过任何软件和实时互联网浏览执行任务。
Anthropic首席科学官Jared Kaplan当时接受CNBC采访时表示,该工具“基本上能以与我们相同的方式使用计算机”,能够完成“数十甚至数百步”的任务。
OpenAI近期也发布了类似工具,推出了名为Operator的功能,可自动化处理规划假期、填写表格、预订餐厅和订购杂货等任务。这家微软支持的初创公司将Operator描述为“一个能上网为你执行任务的代理”。
本周早些时候,OpenAI宣布了另一款名为Deep Research的工具,允许AI代理编译复杂研究报告并分析用户选择的问题和主题。谷歌在12月也推出了同名工具——Deep Research,作为“研究助手,探索复杂主题并代表你编译报告”。
CNBC在12月首次报道,谷歌将在2025年初引入多项AI功能。首席执行官Sundar Pichai在当时的战略会议上表示:“在历史上,你不必总是第一个,但必须执行得好,真正成为产品中的佼佼者。我认为这就是2025年的重点。”
原文链接:https://www.cnbc.com/2025/02/05/google-opens-gemini-2point0-its-most-powerful-ai-model-to-everyone.html