近日,一篇数百学者署名的大型模型综述研究论文涉嫌抄袭的新闻引发关注。上游新闻记者在论文首页看到,这100位学者来自19个研究院,分别是清华、北大、人大、交大等国内研究院,哥大、蒙特利尔大学等国外研究院,字节跳动、华为等企业实验室,中科院、微软亚洲研究院、北京致远人工智能研究院(以下简称北京致远研究院)等研究院。
4月13日,该论文第一作者单位官网发布“致歉信”回应:“对此情况,该所立即组织内部调查,在确认部分文章存在问题后,开始邀请第三方专家进行独立评审,并进行相关责任追究。”4月15日,上游新闻记者拨打北京致远研究院官网预留的座机,电话语音提示“拨打的号码是空”。
北京致远研究院官微发布“道歉信”
谷歌研究员发文称论文抄袭。
随着以深度学习为代表的AI技术的快速发展,智能模型的训练应用模式也在与时俱进。4月13日,宾夕法尼亚大学博士生、谷歌研究员达芙妮·伊波利托(Daphne Ippolito)在社交媒体上表示,致远研究院100名作者签名的综合研究《大模型路线图》(Roadmap for Big Model)涉嫌抄袭多篇论文。包括他自己团队的成员Nicholas Carlini的一项研究,“重复数据删除训练数据生成者语言模型更好”。上游新闻记者注意到,该推文附有尼古拉斯·卡里尼博客的链接。Nicholas Carlini在4月8日的博客中写道:“我的一位合著者在阅读论文《大模型的路线图》时,注意到有些文字似乎很熟悉。快速看了一下,发现其实有一堆文字是直接从我们的论文里抄来的。”
上游新闻记者看到,Nicholas Carlini还在博客中举证。他论文中抄袭的部分在左边用绿色突出显示,右边是原论文中对应的文字。
4月12日,尼古拉斯·卡里尼再次更新博客。他写道,“我想避免在不知道幕后发生了什么的情况下做出判断。可能有些初级作者的本意是好的,以为可以用一句引语把文字抄下来……对于高级作者来说,可能看过文字,觉得看起来很有道理,只是对文字做了一些调整,不知道文字从何而来。关键是我们不知道。这篇论文有100个作者,任何事情都可能发生。”
尼古拉斯·卡里尼最后写道,“我希望这个博客能引起人们对这类事情的关注。例如,约1%的已发表和已接收论文的数据复制率高于该报告。我应该在写这个博客的时候给出这个背景。所以,再次希望大家不要特别严厉地批评这篇(涉嫌抄袭)论文。”
涉嫌论文抄袭的作者来自19个机构。
上游新闻记者在这篇疑似抄袭的《大模型路线图》首页看到,这篇论文的署名作者多达100人,参与作者来自国内外19个科研院所和机构。包括清华大学、东北大学、纽约大学、北京大学、哥大、哈尔滨工业大学、北京航空航天大学、上海交通大学、蒙特利尔大学、字节跳动ai实验室、华为理论计算机实验室、软件学院、自动化学院、微软亚洲研究院、北京致远研究院等
论文首页显示,这100位学者来自19个顶级研究所。
在论文作者的引言部分,“唐杰设计了这个大模型的路线图”。上游新闻记者在官网“致远社区”、北京致远研究院搜索发现,3月31日,一篇文章《如何提炼一个大模型?200页pdf100+作者19个单位!北京致远、清华唐杰等人发表论文《大模型路线图》,详细介绍了预训练大模型资源技术的应用。文章介绍了这篇论文:“由五道大模型研究项目负责人、致远副总裁、清华大学计算机系教授唐杰领衔,北京致远人工智能研究所最近发布了《大模型路线图》。从大模型的基础资源、构建、关键技术、应用四个方面,全面介绍和探讨了15个具体领域的16个相关课题。非常值得关注。“据清华大学官微”恭喜!5个清华人当选!“国际计算机学会会员的一篇文章简介”,清华大学计算机系教授唐杰。2006年,他在清华大学计算机系获得博士学位。他的兴趣包括社交网络分析、数据挖掘、机器学习和知识图谱。因其对信息和社交网络挖掘的贡献而当选。”