斯坦福AI团队承认抄袭国产大模型开源“套壳”是与非再掀热议

科创板日报记者张洋洋责编毛明江 2024-06-04 14:55

①美国斯坦福大学AI团队承认其发布的Llama3V模型，抄袭了国内AI创业公司面壁智能的MiniCPM系列模型；
                ②部分国内大模型常被质疑套壳国外开源大模型。

《科创板日报》6月4日讯（记者张洋洋） 近日，国内AI创业公司面壁智能的大模型被美国斯坦福大学AI团队套壳抄袭的事件在网络引起热议。

事情的最新的进度是，斯坦福Llama3-V团队的两位作者Siddharth Sharma和Aksh Garg在社交平台上就抄袭行为向面壁智能团队正式道歉，并表示会将Llama3-V模型悉数撤下。相似内容的道歉信，已于几小时前被作者发出一次，但被迅速删除。

现在，该斯坦福团队成员已删除他们在社交媒体上官宣模型的推文，并将该项目在Github和HuggingFace上的库一并删除。

事件起因是，斯坦福大学AI研究团队于5月29日发布了一个名为Llama3V的模型，该研究声称只要500美元就能训练出一个SOTA多模态模型，效果比肩GPT-4V、Gemini Ultra与Claude Opus。

因该研究团队3名作者拥有斯坦福大学、特斯拉、SpaceX的名校和大厂背景，Llama3V模型一经发布就引发了诸多关注。

但随后有网友发现，Llama3V与中国AI创业企业面壁智能在5月中旬发布的8B多模态开源小模型MiniCPM-Llama3-V 2.59（面壁小钢炮）高度重合，前者只是进行了一些重新格式化，并把图像切片、分词器、重采样器等变量重命名。

6月2日深夜，面壁智能团队证实，斯坦福大模型项目Llama3-V与MiniCPM一样，可以识别出“清华简”战国古文字，“不仅对得一模一样、连错得都一模一样”。这一古文字数据为研究团队花费数月从清华简上逐字扫描并人工标注得来，并未对外公开，证实抄袭事实。

面壁智能CEO李大海在朋友圈发声，表示对这件事深表遗憾：“技术创新不易，每一项工作都是团队夜以继日的奋斗结果”“希望团队的好工作被更多人关注与认可，但不是以这种方式”。

面壁智能联合创始人、首席科学家刘知远也在朋友圈发表了一篇真诚恳切且意味深长的回应。

他表示Llama3-V团队未能遵守开源协议对前人成果尊重和致敬，严重破坏了开源共享的基石。但他也提到，三位作者还很年轻，有两位仅是斯坦福大学的本科生，未来还有很长的路要走，“如果知错能改，善莫大焉”。

除了抄袭本身这个学术不端的行为之外，本次事件还引发热议的点在于，AI行业一直存在部分国内大模型套壳国外开源大模型的刻板印象。在业内，关于大模型“套壳”的争议，也由来已久。

批评者认为“套壳”掩盖了原创性缺失，对开源模型简单调整，而非实质创新；支持者则认为，基于成熟开源架构进行定制化改进是技术发展的常态，类似于在iOS、Android基础上开发App。

实际上，当今绝大多数大模型均基于谷歌大脑团队在2017年推出的Transformer神经网络架构，及其随后衍生出的三种变体。从大模型的发展轨迹观察，现今模型的构建无不在“借鉴”Transformer及其变体架构的基础上展开。

关于“套壳”的界定，国内一名AI上市公司大模型架构师《科创板日报》记者解释称，在参考其他模型架构时，开发者会在原有基础上进行重要创新，比如采用新的数据处理方法、提升算法效率等。同时，开发者会公开说明自己的改动是基于哪个开源模型，并阐述所做的创新和改进，这符合开源社区的规则和理念。然而，如果改动只停留在表面，没有带来新的技术洞察或实质的性能提升，那么这种改动就可能被看作是简单的套壳。

在利用开源进行“套壳”成常态的行业背景下，对于后来者的模型或者公司而言，究竟什么才是核心竞争力？

前述大模型架构师认为，核心还是有充足的算力和高质量的数据。其中，数据质量决定模型好坏，要得到高质量的数据，关键在于处理和标注，现在大模型厂商的数据来源基本相同，但处理后的质量差别很大。此外，在模型和算法方面也还有很多提升和创新的空间，足够的人才储备和持续投入，才能有持久竞争力。

财联社声明：文章内容仅供参考，不构成投资建议。投资者据此操作，风险自担。