斯坦福 AI 团队抄袭清华系大模型

0
684

日前,斯坦福 AI 团队主导的 Llama3-V 开源模型,被爆出涉嫌抄袭清华系明星创业公司面壁智能的开源模型 “小钢炮” MiniCPM-Llama3-V 2.5。

事件起因是一个来自斯坦福大学的作者小组发布了一篇名为《Llama 3-V:Matching GPT4-V with a 100x smaller model and 500 dollars》的文章,并宣称只需要 500 美元就能训出一个 SOTA 多模态大模型,比 GPT-4V、Gemini Ultra、Claude Opus 都强,且尺寸还比 GPT-4v 小 100 倍。

当天,该帖子浏览量就突破 30 万,转发超 300 次,还瞬间冲上 HuggingFace Trending Top 5。

但很快,一位 X 用户 @yangzhizheng1 指出,名为 Llama3-V 的模型有大量作品疑似从 MiniCPM-Llama3-V 2.5 项目中窃取而来,后者为中国大模型初创企业面壁智能推出的开源端侧多模态模型,刚于 5 月 21 日发布。

据称,Llama 3-V 与 MiniCPM-Llama3-V 2.5 在模型结构、代码、配置文件等方面几乎一模一样,只是斯坦福 AI 团队将其中的变量名称做了更改。网友更是直接将相关的关键证据一一截图,进行列举证明。

发现了这一问题的网友在 Llama3-V 页面上提出了质疑,但 Llama3-V 页面很快就被作者删除了。目前,Llama3-V 的 GitHub 项目主页已显示为 “404”,HuggingFace 上的 Llama3-V 项目已不可见。作者社交媒体账号上,此前宣传 Llama3-V 的内容页已经遭到删除。

随后,面壁智能首席科学家、清华大学长聘副教授刘知远在知乎上回应,MiniCPM-Llama3-V 2.5在研发时内置了一个彩蛋,就是对 “清华简” 的识别能力,而 Llama3-V 模型居然也有一模一样的能力。

值得一提的是,刘知远透露,识别清华简是 MiniCPM-Llama3-V 2.5 的一项实验功能,训练图像是最近从出土文物中扫描并标注,且尚未公开发布。而两个模型在识别的表现上,正确的结果上基本一致,错误的情况也颇为相似。

事情发酵一天后,斯坦福 Llama3-V 团队的两位作者森德哈斯·沙玛(Siddharth Sharma)和阿克沙·加格(Aksh Garg)在社交平台上就这一学术不端行为向面壁 MiniCPM 团队正式道歉,并表示会将 Llama3-V 模型悉数撤下。

此外,斯坦福人工智能实验室主任克里斯托弗·大卫·曼宁(Christopher David Manning)也发文谴责这一抄袭行为,同时还对清华的开源模型表达了赞赏。

面壁智能 CEO 李大海也在朋友圈发声,表示对这件事深表遗憾。“技术创新不易,每一项工作都是团队夜以继日的奋斗结果。希望团队的工作被更多人关注与认可,但不是以这种方式。”

(综合报道)

Previous article联劝公益特邀天线宝宝担任”心愿实现官” 圆梦乡村儿童六一心愿
Next articleVisa宣布五家初创企业入选2024年亚太区加速器计划

LEAVE A REPLY

Please enter your comment!
Please enter your name here