近日,人工智能领域热闹非凡,OpenAI、DeepSeek 以及谷歌相继发布或升级旗下模型,为行业发展注入新活力,引发广泛关注。
当地时间 3 月 25 日,OpenAI 宣布重大更新,推出基于 GPT-4o 模型的原生图像生成功能,不再调用独立的 DALL-E 文生图模型。OpenAI 的 CEO 奥特曼称 GPT-4o 为 “有史以来最好的模型”,并宣布全面免费开放基础功能,API 调用价格下调 50%。利用 GPT-4o 的多模态能力,ChatGPT 在图像生成上有了质的飞跃,能更精确遵循指示、渲染文字,且在多轮迭代优化图像时保持角色形象一致。官方示例展示了生成黑板板书、印刷体等的出色效果,不过 OpenAI 也坦言新图像生成器存在局限性,易受模型幻觉影响,在密集文字和非拉丁语文字图像生成方面表现欠佳。这一举措被视为应对谷歌 Gemini 等竞品技术压力的关键动作。
同日,DeepSeek 对外宣布,DeepSeek V3 模型完成小版本升级,目前版本号为 DeepSeek-V3-0324。用户登录官方网页、APP、小程序进入对话界面后,关闭深度思考即可体验,API 接口和使用方式保持不变。新版 V3 模型借鉴 DeepSeek-R1 模型训练过程中的强化学习技术,大幅提升推理类任务表现。在数学、代码类相关评测集上取得超过 GPT-4.5 的得分成绩;在 HTML 等代码前端任务上,生成代码可用性更高,视觉效果更美观;中文写作任务方面,基于 R1 写作水平进一步优化,尤其提升中长篇文本创作质量;联网搜索场景下,报告生成类指令输出内容更详实准确、排版更清晰美观;工具调用、角色扮演、问答闲聊等方面能力也有一定提升。
而在稍早时间,谷歌正式推出新一代人工智能推理模型 Gemini 2.5。其旗舰版本 Gemini 2.5 Pro Experimental 集成了统一推理能力,支持文本、图像、音频、视频及代码的多模态输入,上下文窗口达 100 万 token(约 75 万单词),未来还将升级至 200 万 token。凭借这一特性,模型在处理跨模态复杂问题时优势显著,谷歌也将其称作世界上最强大的模型。
Gemini 2.5 Pro Experimental 在多项基准测试中成绩斐然,在 Aider Polyglot 代码编辑测试中得分 68.6%,超越 OpenAI、Anthropic 等模型;在 SWE-bench Verified 测试中获 63.8%,仅次于 Claude 3.7 Sonnet(70.3%) 。在 “人类最后考试”(多模态综合测试)中,它以 18.8% 准确率领先多数竞品,且无需依赖外部工具;在 LMArena 排行榜上,该模型以 40 分优势超越 GPT-4.5,登顶视觉竞技场及网页开发竞技场。即日起,Gemini 2.5 Pro 通过 Google AI Studio 和 Gemini 应用向订阅 “Gemini Advanced”(月费 20 美元)的用户开放,未来还将登陆 Vertex AI 平台。
(综合报道)