OpenAI宣布其最新AI模型具备”图像思维”能力,可理解图表与手绘草图

Wed, 16 Apr 2025 17:00:20 GMT

2024年9月25日,OpenAI联合创始人兼首席执行官山姆·奥尔特曼在意大利都灵OGR大修工厂举行的”意大利科技周2024″活动上发表演讲。图片来源:Stefano Guidi | Getty Images News | Getty Images

OpenAI发布了最新人工智能模型,宣称该模型具备”图像思维”能力,能够理解并分析用户绘制的草图与图表,即使图像质量低劣也不受影响。这款名为o3的核心推理模型与精简版o4-mini同步面世,延续了OpenAI今年九月推出的首款多步骤复杂问题求解模型o1的技术路线。

o3模型允许用户上传白板笔记、手绘草图等图像素材,由AI进行深度解析与交互讨论。该系列模型还支持图像旋转、缩放等编辑功能。自2022年底推出现象级聊天机器人ChatGPT以来,OpenAI持续突破文本边界,将AI能力拓展至图像、语音及视频领域。面对谷歌、Anthropic及埃隆·马斯克旗下xAI的激烈竞争,这家估值已达3000亿美元的AI巨头正全力保持生成式人工智能领域的领先优势。

“我们的推理模型首次能自主调用所有ChatGPT工具——包括网络浏览、Python编程、图像理解与生成,”OpenAI在公告中强调,”这显著提升了解决复杂多步骤问题的效能,向自主决策迈出实质性步伐。”据透露,o3与o4-mini是该公司首个实现”图像思维”的AI模型,不仅能识别图像,更能”将视觉信息直接整合至推理链条”。

上月OpenAI推出的原生图像生成功能因可创作吉卜力风格动画作品引发网络热潮。此次o3模型特别针对数学运算、编程开发、科学计算及图像理解进行优化,而o4-mini则以更快响应速度和更低运行成本见长。两款模型已于周三向ChatGPT Plus、Pro及Team用户开放。

OpenAI用户社区长期调侃其模型命名体系混乱。首席执行官奥尔特曼本周在X平台发文加入自嘲:”不如我们今年夏天前整改命名规范?在此之前欢迎大家尽情吐槽(我们确实该被吐槽)。”

公司声明强调两款模型已通过”迄今最严格安全压力测试”,并援引本周更新的”预备框架”文件。近期OpenAI因调整安全规程引发争议,本周更声明保留”在竞争对手发布无相当防护的高风险系统时修改安全要求”的权利。政策调整后,部分微调模型将免于安全测试要求,其GPT-4.1模型也未按惯例发布包含安全测试详情的”模型卡”文件。今年二月,OpenAI就曾在推出DeepResearch智能体工具数周后才补交系统说明文档。

截至发稿,OpenAI未就置评请求作出回应。

(财经频道报道:消息称OpenAI正考虑开发社交网络平台)

原文链接:https://www.cnbc.com/2025/04/16/openai-releases-most-advanced-ai-model-yet-o3-o4-mini-reasoning-images.html

jpichiban