名称:Uncritical use of AI in science needs reality check作者:Lisa Messeri;M. J. Crockett
人工智能正在迅速加速科学产出,但同时也存在一些风险,例如可能导致研究范围狭窄化、削弱科学判断力,并对科学家的培养方式产生负面影响。过去三年,科学界在AI工具,尤其是大语言模型(LLMs)的辅助下产出了大量论文,科研人员也一直在寻求将半自主智能体纳入其工作流程。然而如今盲目的使用AI往往伴随着巨大的风险,有些问题已经显现,例如论文往往聚焦于更狭窄的既定研究课题,且在某些情况下被评估为科学价值较低;AI将原本的科研流程自动化,这丧失了培养早期科研人员的机会,该问题暂时尚未解决且往往被忽视。传统上,科研培养是将理论知识和方法与入门级的实践工作学习到的隐性知识相结合。通过科学技术领域学者的反复证明,科研的方法无法单靠文字传达知识,“诀窍”都是在研究中通过学徒制和实践进行传承。科研的隐性知识有什么,例如判断“合理”的数据,掌握方法难以表述的细节,判断研究结果与现有文献一致。这些技能对于科研人员监督AI辅助的工作流程至关重要,倘若AI代替了科研的基本工作,下一代科研人员将缺乏对AI工作流程正确与否的判断。这个现实必须引起思考并重新审视科研机构的最终目标,是仅为了得到结果还是同时培养出一个鲜活的、科学认知不断更迭的人?当前在加速前者的情况下势必威胁到后者,这将如何应对?二、More output, less understanding人工智能行业向科研人员积极推销大语言模型(LLM)产品,将其作为提高生产力的技术进行营销,有些科研人员也欣然接受了,吹捧它们能够“极大提升”写作效率。如果生产力解释为论文的产出数量,那么AI的确做到了,而且影响深远。如今像SocArXiv和PsyArXiv等在线预印本(preprint)库已经对AI论文实行临时暂停或更新审稿政策,ArXiv因为计算机领域论文极易被AI量产而停止接收美国国立卫生研究院开始限制每位项目负责人(Principal Investigator)每年申请的基金数量最多为6个。从功利的角度来看,使用AI的科研人员获得了更多的引用和更快的晋升速度,但这只是在职业上的收益,这种生产力进步在科学贡献上还需要进一步审视。现有证据表明在LLM驱动下的论文出现了“AI垃圾内容”,包括虚构的图像和不存在的引用。期刊 Organization Science 在2021年1月-2026年1月收录的6957份投稿进行了审计,观察到大语言模型辅助的论文科学质量较差。另一个针对2024年一场AI会议的论文以及2023-2024年间发布在三个预印本服务器(arXiv, bioRxiv和SSRN)上的264125份论文的研究发现,AI辅助的论文中文笔不再是衡量科学质量的指标。这种现象意味着表面令人信服但在科学上表现平庸的论文将会污染现有的知识生态系统,且尚无解决方案。此外,一项涵盖生物学、医学、化学、物理学、材料科学和地质学的4130万篇研究论文的分析显示,AI在诱导作者在已知问题上趋同于相同的解决方案,而不是去创造新的方案,这一早期预警表明AI极有可能对知识生态系统产生连锁性的负面影响。三、Threat of deskilling
科学界对AI的最大愿景莫过于实现一个半自动甚至全自动的“AI科学家”,近期这类产品在科学界和工业界获得了极大的追捧。这些“AI科学家”的开发者声称初衷是“辅助并加速人类科学家的工作,而非取代他们”,那么这类产品肯定需要具备专业技能的科研人员进行监管,由他们负责指导并核查AI的产出。
现在科学界对一个可以贯穿全部科研流程的AI抱有极大的热情,但其中许多看似“低门槛技能”的任务却恰恰是传统中科研新手的入门起点。清洗原始数据能够感知数据的多样性和质量,搜索并总结文献有助于建立对研究领域的初步认知。
现有的资深科研工作者均是在AI普及前完成了训练,受益于数十年的实践经验,这些经验可能是如今的科研人员永远无法培养出来的。我们无法预判这些枯燥的工作的一部分或者全部对培养一个资深科研工作者是否是必要的,但不应提前否认这个命题。
四、A way forward
越来越多的证据表明,LLM驱动的科学生产力提升往往伴随着代价。
在过去几年中,科学家们已经形成了一种在工作中披露AI使用情况的规范。这是一个重要的第一步,但仅靠披露掩盖了使用人工智能工具动机的多样性。例如,一位非英语母语的研究人员可能会利用大语言模型来润色论文终稿;而另一位研究人员可能依赖机器学习模型来处理那些如果不自动化就无法分析的大型数据集,甚至是在紧迫的截止日期前从零开始生成文献综述。将所有此类使用方式一概而论,会掩盖它们对科学劳动、判断力和问责制所产生的不同影响。
科学领域不仅要对使用AI工具保持透明,更要对使用原因保持透明。在作者和审稿人的交流互动中将逐渐建立起一个规范,用于评估使用AI的各种理由与最终研究结论稳健性之间的联系。
更复杂的问题是应该如何培养未来的科学家,以及如何在每个阶段评估他们的胜任能力。项目负责人如何信任科研人员能够负责任地使用AI工具,研究生培养也需要商讨关于AI使用的政策,需要必须掌握哪些技能来应对未来的技术发展。
科学家们现在就应该在全领域范围内展开讨论,而不是在没有证据的情况下盲目假设:自动化入门级的工作不会对未来同事的专业能力产生任何影响。在我们驾驭知识生产的这一最新阶段时,必须谨记:工业界的目标并不等同于科学界的目标。学术科学不仅关乎生产力,更关乎深层的理解、对创造性解决方案的探索,以及培养能够成为下一代研究人员的批判性思考者。现在正是科学界评估AI产品究竟是在助力还是在阻碍这些目标的关键时刻。