AI 代写重要学术会议稿件评审引发争议
在发现一场国际人工智能(AI)会议21%的稿件评审是由AI生成后,争议爆发了。
据《自然》报道,许多学者对提交给明年“国际学习表征会议”(ICLR)的稿件和同行评审表示担忧。他们在社交媒体上指出,其稿件评审中出现了臆造的参考文献,以及对其工作给予了异常冗长且模糊的反馈。ICLR是一场机器学习专家的年度聚会。
美国卡内基梅隆大学的AI研究员Graham Neubig收到疑似由大型语言模型(LLM)生成的同行评审报告。他说,这些报告“非常冗长,有很多要点”,其要求进行的分析也不是“通常针对典型的AI或机器学习论文,审稿人会要求的标准统计分析”。
但Neubig需要帮助来证明这些报告是由AI生成的。于是,他在社交媒体上发帖,悬赏能扫描所有会议投稿及其同行评审的人,以检测AI生成的文本。第二天,他收到美国科技公司潘格拉姆实验室(Pangram)首席执行官Max Spero的回复,该公司开发了检测AI生成文本的工具。Pangram扫描了所有提交给将于明年4月在巴西里约热内卢举行的ICLR 2026会议的19490篇研究和75800份同行评审。Neubig和其他超过1.1万名AI研究人员将出席此次会议。
Pangram的分析显示,约21%的ICLR同行评审完全由AI生成,超过一半含有使用AI的迹象。Pangram已将分析结果发布在网上。“人们原本只是怀疑,但没有具体证据。”Spero说,“在12小时内,我们编写了一些代码来解析这些投稿中的所有文本内容。”
ICLR组织者表示,他们现在将使用自动化工具来评估提交的稿件和同行评审是否违反了AI使用政策。美国康奈尔大学的计算机科学家、ICLR 2026高级项目主席Bharath Hariharan表示,这是大会首次大规模地面对这一问题。
Pangram团队使用了其自行开发的一款工具,该工具可以预测文本是否由LLM生成或编辑。Pangram的分析标记出15899份完全由AI生成的同行评审。但它也识别出许多提交给会议的、疑似含有AI生成文本的稿件:199份稿件(占1%)被发现完全由AI生成;61%的投稿主要由人工撰写;9%的稿件含有超过50%的AI生成文本。Pangram在一篇预印本论文中描述了该模型。
对于许多收到ICLR评审意见的研究人员来说,Pangram的分析证实了他们的怀疑。丹麦哥本哈根大学的计算机科学家Desmond Elliott说,他收到的3份评审中,有一份似乎“没有抓住论文的重点”,并且包含了一些奇怪的表达。
ICLR 2026团队允许作者和审稿人使用AI工具修改文本、生成实验代码或分析结果,但要求必须公开此类用途。同时,会议还禁止任何可能会违反稿件保密性或产生伪造内容的AI使用。会议组织者现在将使用Pangram的分析以及其他自动化工具,来评估投稿和评审是否违反了这些政策,并将处罚违规的作者和评审员。
“监督同行评审过程的研究人员将被要求标记低质量的评审,而不仅仅是LLM生成的评审。”Hariharan说,“鉴于这些自动化工具可能存在误报,我们不会完全依赖它们。”
一些作者已经撤回了他们的ICLR投稿,因为其稿件的同行评审中包含虚假陈述。其他人仍在思考如何回应收到的评审意见。
ICLR 2026的情况凸显了同行评审员为跟上快速发展的领域而面临越来越大的压力。Neubig说:“目前在AI和机器学习领域,我们在评审方面面临危机,因为过去5年该领域呈指数级扩张。”
Hariharan说,平均每位ICLR评审员被分配了5篇论文,必须在两周内完成评审,这是一个非常巨大的负荷,远高于过去的工作量。
Pangram开发的AI检测工具发现,同行评审员越来越多地使用AI来起草对作者的回复。
| 分享1 |





