AI“思想抄袭”激辩:当科研论文抄观点不抄字
人工智能生成的科研成果正引发学界对“思想抄袭”的激烈争论。《自然》杂志报道指出,部分标注为大型语言模型生成的论文虽未直接复制文字,却存在挪用他人研究方法或核心观点且不标注出处的情况,即“抄观点不抄字”。这种“思想抄袭”现象对现有学术诚信体系提出了全新挑战。
“思想挪用”案例引发争议
2025年1月,韩国高等科学技术研究院研究员朴炳俊收到印度班加罗尔科学研究所“揭发团队”的邮件,被告知一款名为“The AI Scientist”的工具生成的未发表手稿疑似使用了他论文中的研究方法却未署名。朴炳俊核查后发现,尽管该AI手稿提出了新架构,但两篇论文的核心方法高度相似。印度“揭发团队”在2025年2月发表的研究中指出,经外部专家评估,多个AI生成手稿存在未直接复制文字却挪用他人观点且不署名的现象。这些由大模型生成的研究观点表面新颖,实则是“巧妙抄袭”,原创性难以验证。
进一步调查显示,Sakana AI于2025年3月宣布的首篇通过国际学习表征会议研讨会同行评审的全AI生成论文,疑似挪用了2015年一项研究的核心成果且未标引用。专家评估认为,这篇AI论文与2015年研究的相似性达到5级(最高级)。针对斯坦福大学团队的4份AI生成研究方案、Sakana AI的10份手稿及36份新方案的评估发现,24%的AI生成作品达到4-5级相似度。
抄袭定义存在学界分歧
针对上述指控,“The AI Scientist”研发团队予以否认,称抄袭指控“毫无根据”。团队表示AI手稿与前人研究假设不同、应用领域各异,方法存在部分关联仅是“未引用文献”,这在人类研究者中常见。学界对是否构成抄袭的判断也存在分歧:佐治亚理工学院研究员本·胡佛认为相似度3级“远不足以构成抄袭”;而朴炳俊虽自评相似度达5级,也承认这可能不符合法律或伦理层面的抄袭定义。
柏林应用科学大学专家德博拉·韦伯-伍尔夫指出,争议根源在于“抄袭”定义的认知差异。部分学者认为抄袭需“主观故意欺诈”,但她主张“意图不应作为判断标准”,因为AI无主观意识且无法追溯观点来源。她引用国际学术诚信中心的定义强调:“未恰当标注他人可识别的观点或成果,且存在原创性预期时,即构成抄袭”。
检测技术滞后加剧挑战
德国锡根大学专家乔拉恩·比尔指出,计算机科学等领域论文数量激增,研究者本就难以验证观点新颖性;而大模型通过重组训练数据生成观点的特性会加剧学术信用流失。更关键的是,“思想抄袭”验证尚无有效方案。新加坡南洋理工大学研究员刘阳表示,现有技术可检测句子语义相似度,但“观点或概念层面的相似度检测研究极少”。
测试显示,商业抄袭检测工具Turnitin未能识别出专家判定的AI论文来源文献,学术搜索工具OpenScholar仅识别出1篇。尽管“The AI Scientist”采用“大模型生成关键词+语义学者搜索+大模型评估”的流程验证原创性,但比尔认为该过程过于简化,无法媲美专家判断。生成式人工智能的算法规则倾向于合理性而非真实性,模型内置随机性导致即使相同提示下输出内容也不同,难以保证准确性。
学术体系面临系统性重构
AI科研对现有学术体系产生深层冲击。新加坡国立大学学者靳民彦表示,AI工具终将普及,关键是找到正确使用方式。生成式人工智能可能诱发四类学术伦理问题:难认定的内容剽窃、隐蔽性数据泄露、系统性知识偏见和自增强虚假信息。在出版领域,AI生成内容的涌现可能导致知识生产主体地位变化,引发著作权归属争议。
针对学位论文场景,AIGC介入可能带来剽窃隐患和伪造隐忧。剽窃行为可能通过文本重述和润色规避查重系统;而AI幻觉可能导致生成虚假数据或内容。从技术原理看,生成式人工智能本质是基于Transformer架构的概率预测续写工具,通过海量数据训练形成自注意力机制,其输出结果存在固有不确定性。
规范框架与未来路径
学界普遍认为需规范AI科研工具使用。“The AI Scientist”团队承认其成果仅是“概念验证”,建议当前阶段仅将工具用于“启发思路”,研究者需自行验证输出内容可靠性。在出版伦理层面,需要深化跨学科研究构建治理格局,强化行业自律明确应用边界,完善政策法律监管。
对于学术机构,应创新引注规范、审慎使用服务、加强人机双向理解和数据全程监管。在学位论文评审中,需强化生成式人工智能显式标识机制,明确申请人对AIGC的验证义务,采用严格评议标准。随着2025年《学位法》实施,人工智能代写未被明确列入学术不端范畴,但工具主义立场下使用者责任亟待明晰。
人工智能科研应用既带来效率提升,也伴生伦理挑战。唯有通过技术规范、制度完善和教育引导的多维协同,才能在拥抱技术创新的同时守护学术诚信基石。