深圳热线 > 正文

南京大学“我用AI写历史”论文竞赛结果揭晓：传统课程论文效力面临挑战

2026-06-30 17:21:25 来源：紫牛新闻

近日，南京大学历史学院公布了“我用AI写历史”论文竞赛的最终结果。这场发起于3个月前的实验性论文竞赛，吸引全国近900名本科生报名参与。比赛鼓励学生充分使用AI辅助写作，但要求公开全部操作痕迹。

(相关资料图)

作为一次大胆的实验，其结果如何？“我们并不觉得应该有下一次比赛。”竞赛发起人、南大历史学院副院长王涛教授告诉记者，本次比赛已经证明了一个令人不安的事实——即便是在如此仓促的前提下，本科生借助AI也能提交一份像模像样的学术论文。这让他认为，传统意义上的课程论文，正在失去作为成果检验工具的效力。

有人有上百页对话记录，有人“一键出稿”

作为一项实验性赛事，“全程留痕”是竞赛的核心设计。参赛者需在南京大学自主研发的“数智文献处理平台”上完成创作，所有文献处理、检索、提问与回答等操作轨迹均被自动记录。

然而，参赛者在留痕上的投入程度差异明显。王涛透露，有的同学提交的交互证据仅有寥寥数页，属于“一键出稿+少量修改”模式；也有同学提交了上百页的与AI对话记录，而最终成文仅十余页，每一轮提问、史料核对、论证修正都留下了清晰的迭代痕迹。“这部分同学的写作过程相当用心，真正把AI当成了协作者，而不是代笔者。”王涛说。

关于赛前普遍担忧的“AI幻觉”问题，主办方通过推荐使用指定的数智文献平台，“锁死”了材料来源，从技术层面最大程度降低了幻觉风险。但仍有部分同学选择使用其他AI工具，且未对生成内容进行有效核实，提交的论文存在明显的史实错误和文献虚构问题。“工具本身不是问题，问题在于使用者是否具备历史学的基本素养和求证意识。”王涛表示。

提问记录难解“原创性”追问，人机评分差异大

本次竞赛最受瞩目的创新，在于评审环节引入了“人机双轨制”，50多位人类专家与一套AI评分系统各自独立打分，再取均值形成最终榜单。

然而，评审过程暴露出的问题，远比预想中复杂。

首先，“全程留痕”并未真正降低评审难度。根据赛制，专家在评阅论文时需同时查看学生的提问记录与AI回答。但多位专家反馈，这一设计“增加了评审难度”——如何判断学生在整个过程中到底做了多少智力贡献？提问的质量能否等价于思考的深度？这些问题至今没有答案。王涛坦言：“如何判断学生在AI辅助下的真实工作量，或许将成为AI时代论文评审的核心困境。”

其次，AI评委比人类专家更为宽松，两者评分标准存在系统性偏差。

数据显示，AI评委给出的中位分为86分，而人类专家的中位分仅为80分；最高分同样出自AI之手。

进一步统计显示，专家均分与AI评分的相关系数较低，说明两者对“好论文”的认知框架存在显著差异。

这种差异直接体现在具体的评审结果上，有争议的论文大量存在。此次特别增设的“最具争议奖”颁给了两篇分差最大的作品：《简要分析西汉翔鹭纹铜鼓纹饰反映的民俗文化》（专家高分 vs AI低分），以及《论明征安南之战中明军火器战术的应用》（专家低分 vs AI高分）。王涛认为，这跟论文风格没有关系，还在于行文逻辑和论证过程，“我们甚至推测，AI评审更侧重于形式规范，如结构、引用等，而专家看重历史思维和问题意识，这成为争议的焦点。”

值得注意的是，人类专家内部也并非意见统一。据统计，专家内部分差大于20分的论文达38篇，占总数的18%。这表明，即使在纯人工评审时代，学术评价的主观性也远未被充分讨论。人机分歧，某种程度上只是将这一固有矛盾推向了前台。

历史学本科教育或需重新定义“何为成果”

王涛解释，本次竞赛的目的并非打造一个更完美的“人机协作大赛”，而是通过实验揭示一个已到来的事实：在一个仅持续数月、多数参赛者仓促上阵的竞赛中，已涌现出相当数量“像模像样”的学术论文。如果AI能在如此短的时间内辅助本科生完成达到发表水准的文本，那么传统意义上以课程论文为终端的考核方式，其检验学生学术能力的效力正面临根本性质疑。

“如果技术再进步十年，”王涛说，“历史学本科教育中绝对不能被AI替代的部分，不是史料检索、文献综述，甚至不是初稿撰写，而是提出真正问题的能力、对史料进行批判性质疑的直觉，以及将碎片纳入宏大叙事的历史想象力。这些东西，AI可以模仿，但无法‘拥有’。”

据了解，本次竞赛的所有数据、论文与评审记录将全部开源，供全国高校文科教育工作者参考。主办方将于近期召开专题研讨会，以这场实验为起点，推动关于“AI时代历史学本科教育何为”的进一步讨论。

扬子晚报/紫牛新闻记者杨甜子

校对朱亚萍

关键词：最新资讯

南京大学“我用AI写历史”论文竞赛结果揭晓：传统课程论文效力面临挑战

热门推荐

热门文章

全站热门