近日,南京大学历史学院公布了“我用AI写历史”论文竞赛的最终结果。这场发起于3个月前的实验性论文竞赛,吸引全国近900名本科生报名参与。比赛鼓励学生充分使用AI辅助写作,但要求公开全部操作痕迹。
(相关资料图)
作为一次大胆的实验,其结果如何?“我们并不觉得应该有下一次比赛。”竞赛发起人、南大历史学院副院长王涛教授告诉记者,本次比赛已经证明了一个令人不安的事实——即便是在如此仓促的前提下,本科生借助AI也能提交一份像模像样的学术论文。这让他认为,传统意义上的课程论文,正在失去作为成果检验工具的效力。
有人有上百页对话记录,有人“一键出稿”
作为一项实验性赛事,“全程留痕”是竞赛的核心设计。参赛者需在南京大学自主研发的“数智文献处理平台”上完成创作,所有文献处理、检索、提问与回答等操作轨迹均被自动记录。
然而,参赛者在留痕上的投入程度差异明显。王涛透露,有的同学提交的交互证据仅有寥寥数页,属于“一键出稿+少量修改”模式;也有同学提交了上百页的与AI对话记录,而最终成文仅十余页,每一轮提问、史料核对、论证修正都留下了清晰的迭代痕迹。“这部分同学的写作过程相当用心,真正把AI当成了协作者,而不是代笔者。”王涛说。
关于赛前普遍担忧的“AI幻觉”问题,主办方通过推荐使用指定的数智文献平台,“锁死”了材料来源,从技术层面最大程度降低了幻觉风险。但仍有部分同学选择使用其他AI工具,且未对生成内容进行有效核实,提交的论文存在明显的史实错误和文献虚构问题。“工具本身不是问题,问题在于使用者是否具备历史学的基本素养和求证意识。”王涛表示。
提问记录难解“原创性”追问,人机评分差异大
本次竞赛最受瞩目的创新,在于评审环节引入了“人机双轨制”,50多位人类专家与一套AI评分系统各自独立打分,再取均值形成最终榜单。
然而,评审过程暴露出的问题,远比预想中复杂。
首先,“全程留痕”并未真正降低评审难度。 根据赛制,专家在评阅论文时需同时查看学生的提问记录与AI回答。但多位专家反馈,这一设计“增加了评审难度”——如何判断学生在整个过程中到底做了多少智力贡献?提问的质量能否等价于思考的深度?这些问题至今没有答案。王涛坦言:“如何判断学生在AI辅助下的真实工作量,或许将成为AI时代论文评审的核心困境。”
其次,AI评委比人类专家更为宽松,两者评分标准存在系统性偏差。
数据显示,AI评委给出的中位分为86分,而人类专家的中位分仅为80分;最高分同样出自AI之手。
进一步统计显示,专家均分与AI评分的相关系数较低,说明两者对“好论文”的认知框架存在显著差异。
这种差异直接体现在具体的评审结果上,有争议的论文大量存在。此次特别增设的“最具争议奖”颁给了两篇分差最大的作品:《简要分析西汉翔鹭纹铜鼓纹饰反映的民俗文化》(专家高分 vs AI低分),以及《论明征安南之战中明军火器战术的应用》(专家低分 vs AI高分)。王涛认为,这跟论文风格没有关系,还在于行文逻辑和论证过程,“我们甚至推测,AI评审更侧重于形式规范,如结构、引用等,而专家看重历史思维和问题意识,这成为争议的焦点。”
值得注意的是,人类专家内部也并非意见统一。据统计,专家内部分差大于20分的论文达38篇,占总数的18%。这表明,即使在纯人工评审时代,学术评价的主观性也远未被充分讨论。人机分歧,某种程度上只是将这一固有矛盾推向了前台。
历史学本科教育或需重新定义“何为成果”
王涛解释,本次竞赛的目的并非打造一个更完美的“人机协作大赛”,而是通过实验揭示一个已到来的事实:在一个仅持续数月、多数参赛者仓促上阵的竞赛中,已涌现出相当数量“像模像样”的学术论文。如果AI能在如此短的时间内辅助本科生完成达到发表水准的文本,那么传统意义上以课程论文为终端的考核方式,其检验学生学术能力的效力正面临根本性质疑。
“如果技术再进步十年,”王涛说,“历史学本科教育中绝对不能被AI替代的部分,不是史料检索、文献综述,甚至不是初稿撰写,而是提出真正问题的能力、对史料进行批判性质疑的直觉,以及将碎片纳入宏大叙事的历史想象力。这些东西,AI可以模仿,但无法‘拥有’。”
据了解,本次竞赛的所有数据、论文与评审记录将全部开源,供全国高校文科教育工作者参考。主办方将于近期召开专题研讨会,以这场实验为起点,推动关于“AI时代历史学本科教育何为”的进一步讨论。
扬子晚报/紫牛新闻记者 杨甜子
校对 朱亚萍
关键词: 最新资讯
营业执照公示信息