xAI 发布升级版 Grok 1.5V 版本

0
7743

马斯克旗下的人工智能公司 xAI 宣布推出 Grok 1.5V。

当地时间 4 月 12 日,xAI 在 X 平台发布了 “Grok-1.5 Vison” 版本的预告,并同时宣告,公司正在湾区招募设计师、工程师、产品、数据、架构和标注师等职位。

从预告页面的介绍和发布的七个例子能看出来,Grok-1.5V 版本主打多模态视觉信息处理,对标 GPT-4,强调 “理解物理世界的能力” 。

据介绍,作为 xAI 公司的第一代多模态 AI 模型,Grok-1.5V 不仅能够处理文本信息,更能够处理包括文档、图表、截图和照片在内的各种视觉信息。这一创新性的功能扩展,使得 Grok-1.5V 能够更全面地理解并解析现实世界中的复杂信息。

xAI 在官方新闻稿中演示了 7 个 Grok-1.5V 案例,包括用户可以通过上传流程图照片,让模型将其转化为 Python 代码;或者根据一幅图画编写故事;甚至解释难以理解的网络迷因。这些功能不仅提升了 AI 模型的实用性,也展现了 xAI 在人工智能领域的创新实力。

不仅如此,xAI 专门推出了 RealWorldQA 测试数据集,里面 700 多个场景图像对人类来说很直观,但对 AI 模型来说是大考验。在 RealWorldQA 基准测试中,Grok-1.5V 比 GPT-4V、Claude 3Sonnet、Claude 3 Opus 和 Gemini Pro 1.5 等主流竞争对手更为优异。

尤其在新推出的 “RealWorldQA物理世界理解” 测试中,Grok-1.5V 得分 68.7%,这个能力远超行业其他模型,这个应该得益于特斯拉收集了全球最多的真实世界的视觉视觉。

x.ai 认为,提升多模态理解和生成能力是构建有益人工通用智能的关键所在。未来几个月,他们将在图像、音频、视频等更多模态上取得进一步突破。

资料来源:综合报道;图片来源:xAI

Previous articleDEKRA德凯受邀参加2024国际星闪联盟产业峰会
Next article“Let’s jump in一起跳吧” 和佩奇一起探索新篇章

LEAVE A REPLY

Please enter your comment!
Please enter your name here