当前位置：首页>学习笔记>读书笔记:人工智能时代,如何进行古代文学研究?

读书笔记:人工智能时代,如何进行古代文学研究?

2026-04-27 01:44:08

我是一个技术小白，除了WPS三件套，有关电脑的工作什么也不会。在这样的背景下，人工智能工具的发展，不能不让我感受到深深的焦虑，尤其是读完张剑老师《论陆游对苏轼诗歌的学习及经验——兼谈人工智能时代的文学研究与写作》一文后，这种焦虑迫使我不能不尝试作出改变和努力。文学接受本身是古代文学研究中一个长盛不衰的话题，张剑老师以现代化的研究方法，遍及式地研究了陆游诗中接受苏轼诗之处，研究方式精密科学，结论详实可靠，能够发前人所未发。令人瞠目结舌、哑口无言。如何掌握这种工具？如何用这种工具武装自己、运用到自己的工作中？

恰好，今年我也在做一个有关文言教学的挑战杯项目，技术同学为我们搭建了一个基于RAG技术的大语言模型。虽然我对技术很无知，但是在江启翔的解释下，我还是基本理解了一些相关概念，例如RAG技术、上下文检索功能等等。为了尝试建立一个RAG知识库，我首选了无需写代码的IMA软件。作为初次尝试，我从知网上下载了十篇和“人工智能时代文学研究”的论文（我发现像张剑老师《陆》文那样人工智能赋能古代文学研究的好论文很少，无奈加入了一些文学理论、现当代文学研究的文章），尝试让IMA为我列出参考文献表、进行文献综述，并为我指引古代文学研究中使用人工智能技术的方法。

以下内容主要由IMA撰写，我仅仅承担了初次文献筛选和部分内容的修正、调整。包括参考文献，也是由IMA进行格式转化和编序的。为了纪念我的“第一次吃螃蟹”，我也把它上传到我的公众号。

一、交给AI阅读的知识库

蔡熙，夏明凤，黄巧心，向丰田，雷秋香.文学与人工智能跨学科研究笔谈[J]. 湖南工业大学学报（社会科学版），2026, 31(1).

陈艺心.人工智能技术在文学领域研究中的应用[J]. 自然辩证法通讯，2025, 47(8): 93-99.

傅修海.智能时代的文学批评与史料运用[J]. （期刊信息缺失），2025(2).

高玉,陈阳.文学跨学科研究与文学研究新机遇——高玉先生访谈录[J].新文学评论，2026，15(01):69-78+2.

刘阳.人工智能对理论例证的处理得失论——以文论为测试样本[J]. 学术界，2025(12).

陆继广.人工智能在文学研究领域的应用现状与展望[J]. 四川省干部函授学院学报，2025(4): 115-120.

毛郭平.人工智能文学批评概率性问题的生成及意义[J/OL].内蒙古社会科学,1-7[2026-04-26].

王兆鹏. AI时代古代文学量化研究的目的、意义与发展方向[J]. 湖南师范大学学报（社会科学版），2025(6).

余宏.历史脉络、核心议题与研究展望：文学与人工智能（AI）研究图谱[J]. 安徽理工大学学报（社会科学版），2026, 28(1): 54-61.

张剑.论陆游对苏轼诗歌的学习及经验——兼谈人工智能时代的文学研究与写作[J]. 北京大学学报（哲学社会科学版），2026, 63(1): 117-128.

二、文献综述

问：古代文学研究中，我们应该如何应用人工智能工具？尤其是具体方法上？请你归纳知识库中论文的观点，注意论文发表时间，简要评述学界的看法，并且归纳应用人工智能进行古代文学、文献学研究的具体方法。

答：根据您提供的知识库资料，我将从学界看法评述和具体方法归纳两个方面，为您梳理人工智能在古代文学与文献学研究中的应用。

一、学界看法评述（基于知识库观点）

综合多篇论文（发布时间集中于2025-2026年），当前学界对AI在古代文学研究中的应用持有一种 “谨慎乐观、人机协同”的主流态度，其认识经历了从工具辅助到范式革命的深化。

价值与优势已成共识

1.提升效率与客观性：AI在文献检索、数据整理、文本挖掘（如字句相似度比对、主题情感分析、实体识别）方面具有无可比拟的优势，能处理海量文本，发现人脑难以察觉的模式，使研究结论更具实证性和可验证性。（王兆鹏，2025；陈艺心，2025；陆继广，2025）

2.拓展研究边界：AI助力实现 “远读”，从宏观上把握文学演变脉络、作家群体关系、时空分布等，弥补了传统“细读”的局限。同时，它推动了计算文学、数字人文等交叉领域的发展。（王兆鹏，2025；莫莱蒂观点被引用于陆继广，2025）

3.辅助深度研究：如张剑（2026）的研究所示，AI能高效统计出陆游诗中对苏轼诗句的近千处引用/化用，为深入的接受史、影响研究提供了扎实的数据基础，突破了传统考据的局限。

局限与挑战认识清醒

1.无法替代人文内核：学者普遍强调，AI目前无法理解文学的深层意义、审美价值、历史语境和创造性思维。它擅长回答“是什么”“有多少”，但难以解释“为什么”“意味着什么”。（王兆鹏，2025；刘阳，2025；傅修海，2025）

2.存在“技术黑箱”与偏见：AI的算法可能不透明，其结论依赖训练数据，可能存在数据偏见、算法偏见，甚至产生“机器幻觉”（虚构信息）。文学研究的最终解释权和价值判断必须掌握在研究者手中。（余宏，2026；黄巧心，2026；向丰田，2026）

3.引发主体性与伦理反思：AI生成文本对传统的作者身份、版权观念构成挑战，同时也促使学界思考人机协作的伦理，以及如何防止技术应用导致的文化霸权或思维固化。（余宏，2026；陆继广，2025）

未来方向：走向深度融合

1.学界呼吁不应是“替代”，而是 “融合”。理想模式是“定量分析（AI）与定性阐释（人）相结合”，AI负责发现现象、提供数据，人类负责提出假设、解读意义、进行价值判断。（王兆鹏，2025；陆继广，2025）

2.未来研究应从外部数量统计转向内部内容与质量分析（如主题、情感、风格、句法的深度量化），并从工具应用层面上升到方法论乃至哲学层面的构建，思考人工智能时代的文学研究范式。（王兆鹏，2025；陆继广，2025）

二、具体应用方法归纳（基于知识库案例）

结合知识库中的研究实践，可以将AI在古代文学与文献学研究中的应用方法归纳为以下几个层面：


应用层面	具体方法	技术/工具举例	研究目标与案例
1. 文本处理与基础分析	- 文本数字化与语料库建设- 实体识别 (NER)- 文本挖掘与特征提取	OCR、正则表达式、分词工具、NLTK、Spacy	构建专题文献数据库；自动识别作品中的人名、地名、官职、典故等，用于人物关系网络、历史地理研究。
2. 计量分析与宏观研究（“远读”）	- 风格/作者归属分析- 词汇共现与主题建模- 社会网络分析- 时空信息可视化	机器学习分类模型、LDA主题模型、Gephi、GIS地图	分析作家群体风格、流派特征；挖掘文本集群的潜在主题演变；分析作家交游、作品人物关系；将作家行迹、作品系地进行地图可视化。
3. 深度关系与影响研究	- 文本相似度计算- 互文性检测- 次韵/用韵分析	difflib、SequenceMatcher等字符串匹配算法、自定义韵律规则	如张剑（2026）研究：批量比对苏诗与陆诗，统计字句化用、立意模仿的实例；自动检测次韵唱和作品，量化文学接受与影响。
4. 辅助阐释与知识生成	- 知识图谱构建- 智能问答与文献检索- 辅助生成研究综述	图数据库、RDF、大语言模型提示工程	将作家、作品、事件、概念构建成关联知识网络，揭示复杂联系；快速定位相关资料；梳理某一问题的学术史脉络。

核心工作流程建议（“两结合一参与”方法论，陆继广，2025）：

1.问题驱动：研究者提出具体的文学研究问题。

2.AI量化发现：利用上述方法，让AI处理数据、发现模式、统计现象（如某类意象的高频出现、两位作家文本的相似度峰值）。

3.人工假设与阐释：研究者对AI发现的现象提出人文假设（如为何这个时期该意象流行？相似度高的原因是什么？）。

4.人机协同验证：再次利用AI工具（或结合传统文献考证）对假设进行验证或深化分析。

5.意义判断与升华：研究者结合专业知识，对结果进行最终的解释、评价和理论提升，完成文学批评或史论建构。

总结而言，当前学界认为，人工智能是古代文学研究的强大辅助器和催化剂，而非替代者。最有效的应用路径是将AI的客观、高效、宏观的数据处理能力，与人类研究者的主观洞察、历史感、审美判断和理论思辨能力深度结合，共同推动古代文学研究走向更精密、更开阔、更具创新性的境界。

三、我们需要什么方法？

问：如果我也想做古代文学研究（例如：研究某一诗人的语典转化、诗风接受这样的问题），请结合知识库，告诉我，我需要掌握什么具体的AI技术？你可以根据知识库中的论文，给我举一下例子吗？比如张剑老师的研究，他可能是怎么进行文本处理的？你仔细研读下，告诉我这样的研究应该怎么来完成？

答：好的，我们来仔细研读张剑老师在《论陆游对苏轼诗歌的学习及经验》一文中的研究方法，并结合知识库中其他论文的观点，为您拆解完成此类研究的具体步骤和技术实现路径。

一、张剑研究的核心方法与技术路径分析

根据论文描述，张剑老师的研究清晰地展示了一个“人机协同、定量先行、定性升华”的完整范式。其核心步骤如下：

第一步：提出核心问题

·人文问题：陆游对苏轼诗歌的学习接受具体情况如何？（是学得少，还是学得多且有得？）

·可量化的问题：陆游诗中引用、化用苏诗的数量、类型和质量究竟怎样？

第二步：利用AI进行大规模、精确的定量发现（这是传统方法难以做到的）

1.文本准备：

o获取苏轼和陆游诗歌的全集数字化文本（论文提及依据《全宋诗》）。

o进行基础的文本清洗，统一格式，可能包括去除注释、校记异文等，形成可供机器比对的纯净语料。

2.核心比对算法应用：

o使用定制开发的软件分析系统（文中提到是中国社科院友人开发的）。其关键技术是：

§字符串相似度匹配：核心是difflib.SequenceMatcher这类算法。系统对苏诗和陆诗的每一联进行比对，计算“匹配度”。

§设定阈值：论文将“一联之中匹配度在30%以上”的结果都抓取出来，共得到 1848处初步匹配。

§算法原理：该算法基于最长公共子序列（LCS），强调顺序连续性。即使两句仅共享一个字，也可能因连续顺序匹配而获得一定相似度分值。这保证了检索的全面性，但也会引入“噪声”。

3.数据清洗与人工筛查：

o**机器初筛后的“粗数据”**包含大量无效信息（如“人生百年”、“马革裹尸”等共有成语）。

o研究者进行人工甄别：这是关键的人机结合点。张剑老师需要逐一审阅这1848处匹配，依据文学素养和上下文语义，剔除偶然重合的通用语，筛选出真正具有接受、化用关系的例子。最终确认 “近千处”有效案例。

o这一步体现了AI的广度（全量扫描）与人的深度（语义判断）的结合。

第三步：基于定量发现的类型学构建与深度分析

1.分类归纳（人工完成）：根据近千个案例，张剑老师从文学研究角度将其归纳为四大类型：

o字句摹拟（一字不移型、点窜变化型）

o立意摹拟（直承其意型、变化其意型）

o风格摹拟

o次韵唱和

o（注：AI可以帮助聚类，但最终的分类范畴和命名需要研究者基于文学理论来定义。）

2.质量分析（人工完成）：对每一类中的具体案例进行审美和艺术价值的评判，指出哪些是“生吞活剥”，哪些是“夺胎换骨”，哪些是“神气暗合”。这完全依赖于研究者的文学批评能力。

3.次韵诗发现的特殊技术：

o除了字句匹配，研究还用到韵部比对算法。软件系统能穷尽式统计出陆游次韵苏诗的作品（提到共926首，其中严格次韵二十余首）。

o这改变了学界此前“陆游无和苏诗”的印象，展示了AI在特定形式规则（押韵）检索上的强大能力。

第四步：经验总结与理论升华（人文核心）基于前三步的扎实数据，提炼出两条文学经验，并引申到人工智能时代的文学研究思考。这部分是纯人文的思辨，是研究的最终目的。

二、如何完成一项类似的研究：您的行动路线图

假设您要研究“诗人B对诗人A的语典转化与诗风接受”，您可以遵循以下步骤：


阶段	具体任务	所需技术与方法	工具/资源示例	注意事项
第一阶段：准备与提出问题	1. 明确研究对象（A、B诗人）。2. 提出具体假设（如“B深受A影响，尤其在XX题材上”）。3. 将问题转化为可计算的问题（如“找出B诗中所有与A诗相似度高于X%的句子”）。	文献调研能力、问题转化能力。	学术数据库、文学史。	问题越具体，后续技术分析越有针对性。
第二阶段：数据获取与预处理	1. 获取A、B诗人的可靠数字化全集。2. 文本清洗：去除标题、作者、注释等非诗句文本，确保每行是一条诗句或一联。3. 文本规范化：统一繁体/简体、异体字，处理OCR错误。	文本编辑、正则表达式、编码处理。	文本编辑器（VS Code, Sublime）、Python (re库）、古籍数据库（如国学大师网、中华经典古籍库）。	数据质量决定分析质量。清洗是关键且繁琐的一步。
第三阶段：核心分析 - 语典转化挖掘	1. 全文本相似度扫描：- 编写或使用脚本，将B的每一句/联与A的全集进行相似度计算。- 核心工具：Python的 difflib.SequenceMatcher。- 保存所有超过阈值（如25%、30%）的结果，包括诗句内容和相似度分数。2. 语义相似度辅助分析（可选但更深入）：- 使用预训练的中文BERT等模型，将诗句转化为向量，计算余弦相似度。- 这能捕捉到字面不同但语义相近的化用（如“明月”化用“玉盘”）。	Python编程、字符串算法、自然语言处理基础。	Python, difflib, transformers库（调用BERT模型），scikit-learn（计算余弦相似度）。	人工筛查至关重要！机器结果只是“候选名单”，必须逐条用文学眼光判断是否为有意的化用，排除成语、俗语的偶然重合。
第四阶段：核心分析 - 诗风接受探究	1. 风格计量：- 词汇层面：分别统计A、B的高频词、特色词（可通过TF-IDF提取）。- 句法层面：统计分析句式长度、虚词使用频率等。- 主题层面：对A、B的诗集分别进行LDA主题建模，比较其主题分布。2. 关系可视化：- 将筛选出的有效“化用案例”作为关系，绘制 “A诗句 -> B诗句”的影响网络图。- 可以按题材、创作年代对网络进行着色，观察影响密度的变化。	统计方法、主题建模、社会网络分析基础。	Python pandas, gensim（LDA），networkx, Gephi（可视化）。	风格分析需要结合文学常识解读数据。例如，高频词统计后，要问“为什么是这些词？”
第五阶段：人工阐释与论文写作	1. 分类与定性：像张剑一样，对机器发现的案例进行人工分类（字句、立意、意象等），并评价其艺术高低。2. 脉络梳理：结合诗人的生平、时代背景，解释影响发生的时机、方式和原因。3. 结论升华：总结B学A的特点、得失，及其在文学史上的意义。	文学批评能力、史学功底、理论思辨能力。	Word/LaTeX。	这是研究的灵魂。AI告诉你“有什么”和“有多少”，你负责回答“为什么”和“意味着什么”。

三、给您的研究建议

1.从小处着手：不要一开始就比对两位诗人的全部作品。可以先选择一个公认的影响明显的领域（例如，B的山水诗对A的继承），或者选取特定的形式（如七律、用典）进行试点研究。

2.善用现有工具：不一定需要从头开发算法。可以探索现有的数字人文平台或开源代码。例如，寻找是否有现成的“古诗相似度比对”工具或脚本。

3.接受“不完美”的输出：AI的初步结果必然包含大量垃圾信息。人工筛查和鉴别是本研究方法中不可省略、且最能体现您学术功底的核心环节。这个过程本身就是发现和思考的过程。

4.技术学习路线：如果您是新手，优先学习Python基础和difflib库的使用，这是复现张剑研究核心步骤的门槛最低的技术。然后再逐步接触文本向量化、LDA等更高级的方法。

总而言之，张剑的研究范例表明，成功的AI赋能的古代文学研究，是研究者以清晰的人文问题为导向，巧妙地利用AI作为超级放大镜和计数器，获取前所未有的实证规模，最终回归深厚的文学阐释与理论建构的过程。您既是研究的设计师，也是数据的炼金术士，更是意义的赋予者。

追问：核心比对算法应用这一步，我不知道该怎么入手学习

追答：根据知识库中张剑（2026）等论文的实践，您在“核心比对算法应用”这一步遇到困难，是完全正常的。这是技术入门的关键一步，但门槛并不像想象中那么高。下面我为您拆解一个清晰、可操作的学习路径和入门方案。

一、核心思想：您需要掌握什么？

您不需要成为算法专家，而是要学会“使用现成的工具/代码来完成比对”。核心是理解“字符串相似度计算” 的基本原理，并能在Python环境中运行它。

二、具体学习路径与操作指南

第一步：搭建基础环境

1.安装Python：前往官网（python.org）下载安装最新稳定版（如3.11+）。

2.安装代码编辑器：推荐使用VSCode，界面友好，插件丰富。

3.学习基础操作：了解如何在命令行（终端/CMD）中运行Python脚本，以及如何使用VSCode打开和运行 .py 文件。

第二步：理解核心算法与工具

张剑研究中使用的核心是difflib.SequenceMatcher。您可以直接使用它，无需自己编写复杂算法。

·这是什么？ 它是Python标准库 difflib 中的一个类，专门用于比较序列（字符串就是字符序列）的相似性。

·它做什么？ 给定两个字符串（比如两句诗），它能计算出一个介于0.0到1.0之间的 相似度比值（ratio）。比值越高，越相似。

·怎么用？ 只需几行代码。

一个极简的示例代码，您可以直接运行试试：

import difflib

# 示例诗句

su_shi_line = "人生看得几清明"# 苏轼句

lu_you_line = "苦无多日是清明"# 陆游句

# 创建SequenceMatcher对象

matcher = difflib.SequenceMatcher(None, su_shi_line, lu_you_line)

# 计算相似度比率

similarity_ratio = matcher.ratio()print(f"诗句A: {su_shi_line}")print(f"诗句B: {lu_you_line}")print(f"相似度比率: {similarity_ratio:.2%}") # 格式化为百分比

# 还可以获取最长的匹配块

match_block = matcher.find_longest_match(0, len(su_shi_line), 0, len(lu_you_line))

longest_match = su_shi_line[match_block.a: match_block.a + match_block.size]print(f"最长公共子串: '{longest_match}'")

第三步：从单句比到批量比——构建您的研究脚本

单句比对只是演示。您需要的是将一位诗人（B）的所有句子，与另一位诗人（A）的所有句子进行批量比对。这需要一个嵌套循环。

一个基础框架思路：

1.加载数据：将诗人A和诗人B的诗集分别读入两个列表（list_a, list_b）。

2.双重循环比对：

results = [] # 用来存储所有比对结果for line_b in list_b: # 遍历B的每一句

for line_a in list_a: # 遍历A的每一句

matcher = difflib.SequenceMatcher(None, line_a, line_b)

ratio = matcher.ratio()

if ratio > 0.3: # 设定一个阈值，比如0.3（30%）

results.append({

'source_line': line_a,

'target_line': line_b,

'similarity': ratio

})

3.保存结果：将results 列表保存为CSV或Excel文件，方便您用Excel打开并进行人工筛查。

import pandas as pd

df = pd.DataFrame(results)

df.to_csv('comparison_results.csv', index=False, encoding='utf-8-sig')

第四步：优化与深入学习

当基础脚本跑通后，您可以考虑以下优化，这些在知识库论文中均有提及：

1.预处理：比对前去除标点、统一繁体简体，可以提高匹配准确性。

2.设定更科学的阈值：张剑研究用了“30%以上”，您可以通过试验确定适合您语料的阈值。

3.引入语义相似度（进阶）：difflib 是字面匹配。若要捕捉“春风”与“东风”这类语义相似，需使用 词向量模型（如BERT）。但这需要更多NLP知识。建议先从difflib熟练掌握开始。

4.使用现成平台/代码：在GitHub等网站搜索“Chinese text similarity”、“古诗相似度”等关键词，可能会有开源项目直接可用。

三、立即动手的建议清单

1.找两首小诗做实验：不要一开始就用《全唐诗》。找两位诗人各10-20首代表作，手动整理到一个txt文件里（每行一句）。

2.运行上面的极简示例，感受算法输出。

3.尝试改编批量比对的框架，在您的小数据集上运行。

4.打开生成的CSV文件，人工检查哪些是真正的化用，哪些是噪声（如“人生”、“千里”等常见词）。这正是张剑论文中“人工筛查”的关键环节，也是您文学素养发挥作用的地方。

四、学习资源推荐

·官方文档：Python difflib 库官方文档是最准确的参考。

·免费教程：在B站、慕课网搜索“Python文本处理”、“difflib相似度”等关键词，有大量视频教程。

·关键概念：了解“最长公共子序列（LCS）”这个概念，有助于理解 SequenceMatcher 的原理。

总结： 您的突破口就在于 “动手运行那几行代码”。技术是为问题服务的，difflib 这个工具已经足够强大，能让您跨出至关重要的第一步。一旦完成了第一次批量比对和人工筛查，您就真正走上了AI赋能文学研究的实践道路。后续的风格分析（LDA）、网络可视化（Gephi）都可以在此基础上逐步叠加学习。

四、我对示例代码的尝试和学习

在python程序中，import语句用于导入其他Python文件（模块），以便使用这些模块中定义的类、方法或变量，从而实现代码复用。

difflib是Python标准库中的一个模块，它提供了一系列用于比较序列，特别是文本序列的工具。这些工具可以用来发现两个文本文件或字符串列表之间的差异，并以多种格式展示这些差异，包括HTML格式。为了了解“difflib”这一模块，我查询了difflib的官方文档以及一些教程。坦诚说，阅读是困难的，不过我大体理解了这一过程。

下面是我对示例代码的尝试：

我尝试把最近正在研读的《吴船录》中引述的诗句和同时期的范成大创作诗句进行输入：

效果不错。

在未来的学习中，应该重视人工智能工具，让它在古代文学学习与研究中发挥更多作用。ima已接入了中国古籍数据库，这应该是清洗好的数据，也许能够给我们的工作很多帮助。

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。