我是一个技术小白,除了WPS三件套,有关电脑的工作什么也不会。在这样的背景下,人工智能工具的发展,不能不让我感受到深深的焦虑,尤其是读完张剑老师《论陆游对苏轼诗歌的学习及经验——兼谈人工智能时代的文学研究与写作》一文后,这种焦虑迫使我不能不尝试作出改变和努力。文学接受本身是古代文学研究中一个长盛不衰的话题,张剑老师以现代化的研究方法,遍及式地研究了陆游诗中接受苏轼诗之处,研究方式精密科学,结论详实可靠,能够发前人所未发。令人瞠目结舌、哑口无言。如何掌握这种工具?如何用这种工具武装自己、运用到自己的工作中?
恰好,今年我也在做一个有关文言教学的挑战杯项目,技术同学为我们搭建了一个基于RAG技术的大语言模型。虽然我对技术很无知,但是在江启翔的解释下,我还是基本理解了一些相关概念,例如RAG技术、上下文检索功能等等。为了尝试建立一个RAG知识库,我首选了无需写代码的IMA软件。作为初次尝试,我从知网上下载了十篇和“人工智能时代文学研究”的论文(我发现像张剑老师《陆》文那样人工智能赋能古代文学研究的好论文很少,无奈加入了一些文学理论、现当代文学研究的文章),尝试让IMA为我列出参考文献表、进行文献综述,并为我指引古代文学研究中使用人工智能技术的方法。
以下内容主要由IMA撰写,我仅仅承担了初次文献筛选和部分内容的修正、调整。包括参考文献,也是由IMA进行格式转化和编序的。为了纪念我的“第一次吃螃蟹”,我也把它上传到我的公众号。
一、交给AI阅读的知识库
蔡熙,夏明凤,黄巧心,向丰田,雷秋香.文学与人工智能跨学科研究笔谈[J]. 湖南工业大学学报(社会科学版),2026, 31(1).
陈艺心.人工智能技术在文学领域研究中的应用[J]. 自然辩证法通讯,2025, 47(8): 93-99.
傅修海.智能时代的文学批评与史料运用[J]. (期刊信息缺失),2025(2).
高玉,陈阳.文学跨学科研究与文学研究新机遇——高玉先生访谈录[J].新文学评论,2026,15(01):69-78+2.
刘阳.人工智能对理论例证的处理得失论——以文论为测试样本[J]. 学术界,2025(12).
陆继广.人工智能在文学研究领域的应用现状与展望[J]. 四川省干部函授学院学报,2025(4): 115-120.
毛郭平.人工智能文学批评概率性问题的生成及意义[J/OL].内蒙古社会科学,1-7[2026-04-26].
王兆鹏. AI时代古代文学量化研究的目的、意义与发展方向[J]. 湖南师范大学学报(社会科学版),2025(6).
余宏.历史脉络、核心议题与研究展望:文学与人工智能(AI)研究图谱[J]. 安徽理工大学学报(社会科学版),2026, 28(1): 54-61.
张剑.论陆游对苏轼诗歌的学习及经验——兼谈人工智能时代的文学研究与写作[J]. 北京大学学报(哲学社会科学版),2026, 63(1): 117-128.
二、文献综述
问:古代文学研究中,我们应该如何应用人工智能工具?尤其是具体方法上?请你归纳知识库中论文的观点,注意论文发表时间,简要评述学界的看法,并且归纳应用人工智能进行古代文学、文献学研究的具体方法。
答:根据您提供的知识库资料,我将从学界看法评述和具体方法归纳两个方面,为您梳理人工智能在古代文学与文献学研究中的应用。
一、学界看法评述(基于知识库观点)
综合多篇论文(发布时间集中于2025-2026年),当前学界对AI在古代文学研究中的应用持有一种 “谨慎乐观、人机协同”的主流态度,其认识经历了从工具辅助到范式革命的深化。
价值与优势已成共识
1.提升效率与客观性:AI在文献检索、数据整理、文本挖掘(如字句相似度比对、主题情感分析、实体识别)方面具有无可比拟的优势,能处理海量文本,发现人脑难以察觉的模式,使研究结论更具实证性和可验证性。(王兆鹏,2025;陈艺心,2025;陆继广,2025)
2.拓展研究边界:AI助力实现 “远读”,从宏观上把握文学演变脉络、作家群体关系、时空分布等,弥补了传统“细读”的局限。同时,它推动了计算文学、数字人文等交叉领域的发展。(王兆鹏,2025;莫莱蒂观点被引用于陆继广,2025)
3.辅助深度研究:如张剑(2026)的研究所示,AI能高效统计出陆游诗中对苏轼诗句的近千处引用/化用,为深入的接受史、影响研究提供了扎实的数据基础,突破了传统考据的局限。
局限与挑战认识清醒
1.无法替代人文内核:学者普遍强调,AI目前无法理解文学的深层意义、审美价值、历史语境和创造性思维。它擅长回答“是什么”“有多少”,但难以解释“为什么”“意味着什么”。(王兆鹏,2025;刘阳,2025;傅修海,2025)
2.存在“技术黑箱”与偏见:AI的算法可能不透明,其结论依赖训练数据,可能存在数据偏见、算法偏见,甚至产生“机器幻觉”(虚构信息)。文学研究的最终解释权和价值判断必须掌握在研究者手中。(余宏,2026;黄巧心,2026;向丰田,2026)
3.引发主体性与伦理反思:AI生成文本对传统的作者身份、版权观念构成挑战,同时也促使学界思考人机协作的伦理,以及如何防止技术应用导致的文化霸权或思维固化。(余宏,2026;陆继广,2025)
未来方向:走向深度融合
1.学界呼吁不应是“替代”,而是 “融合”。理想模式是“定量分析(AI)与定性阐释(人)相结合”,AI负责发现现象、提供数据,人类负责提出假设、解读意义、进行价值判断。(王兆鹏,2025;陆继广,2025)
2.未来研究应从外部数量统计转向内部内容与质量分析(如主题、情感、风格、句法的深度量化),并从工具应用层面上升到方法论乃至哲学层面的构建,思考人工智能时代的文学研究范式。(王兆鹏,2025;陆继广,2025)
二、具体应用方法归纳(基于知识库案例)
结合知识库中的研究实践,可以将AI在古代文学与文献学研究中的应用方法归纳为以下几个层面:
应用层面 | 具体方法 | 技术/工具举例 | 研究目标与案例 |
1. 文本处理与基础分析 | - 文本数字化与语料库建设- 实体识别 (NER)- 文本挖掘与特征提取 | OCR、正则表达式、分词工具、NLTK、Spacy | 构建专题文献数据库;自动识别作品中的人名、地名、官职、典故等,用于人物关系网络、历史地理研究。 |
2. 计量分析与宏观研究(“远读”) | - 风格/作者归属分析- 词汇共现与主题建模- 社会网络分析- 时空信息可视化 | 机器学习分类模型、LDA主题模型、Gephi、GIS地图 | 分析作家群体风格、流派特征;挖掘文本集群的潜在主题演变;分析作家交游、作品人物关系;将作家行迹、作品系地进行地图可视化。 |
3. 深度关系与影响研究 | - 文本相似度计算- 互文性检测- 次韵/用韵分析 | difflib、SequenceMatcher等字符串匹配算法、自定义韵律规则 | 如张剑(2026)研究:批量比对苏诗与陆诗,统计字句化用、立意模仿的实例;自动检测次韵唱和作品,量化文学接受与影响。 |
4. 辅助阐释与知识生成 | - 知识图谱构建- 智能问答与文献检索- 辅助生成研究综述 | 图数据库、RDF、大语言模型提示工程 | 将作家、作品、事件、概念构建成关联知识网络,揭示复杂联系;快速定位相关资料;梳理某一问题的学术史脉络。 |
核心工作流程建议(“两结合一参与”方法论,陆继广,2025):
1.问题驱动:研究者提出具体的文学研究问题。
2.AI量化发现:利用上述方法,让AI处理数据、发现模式、统计现象(如某类意象的高频出现、两位作家文本的相似度峰值)。
3.人工假设与阐释:研究者对AI发现的现象提出人文假设(如为何这个时期该意象流行?相似度高的原因是什么?)。
4.人机协同验证:再次利用AI工具(或结合传统文献考证)对假设进行验证或深化分析。
5.意义判断与升华:研究者结合专业知识,对结果进行最终的解释、评价和理论提升,完成文学批评或史论建构。
总结而言,当前学界认为,人工智能是古代文学研究的强大辅助器和催化剂,而非替代者。最有效的应用路径是将AI的客观、高效、宏观的数据处理能力,与人类研究者的主观洞察、历史感、审美判断和理论思辨能力深度结合,共同推动古代文学研究走向更精密、更开阔、更具创新性的境界。
三、我们需要什么方法?
问:如果我也想做古代文学研究(例如:研究某一诗人的语典转化、诗风接受这样的问题),请结合知识库,告诉我,我需要掌握什么具体的AI技术?你可以根据知识库中的论文,给我举一下例子吗?比如张剑老师的研究,他可能是怎么进行文本处理的?你仔细研读下,告诉我这样的研究应该怎么来完成?
答:好的,我们来仔细研读张剑老师在《论陆游对苏轼诗歌的学习及经验》一文中的研究方法,并结合知识库中其他论文的观点,为您拆解完成此类研究的具体步骤和技术实现路径。
一、张剑研究的核心方法与技术路径分析
根据论文描述,张剑老师的研究清晰地展示了一个“人机协同、定量先行、定性升华”的完整范式。其核心步骤如下:
第一步:提出核心问题
·人文问题:陆游对苏轼诗歌的学习接受具体情况如何?(是学得少,还是学得多且有得?)
·可量化的问题:陆游诗中引用、化用苏诗的数量、类型和质量究竟怎样?
第二步:利用AI进行大规模、精确的定量发现(这是传统方法难以做到的)
1.文本准备:
o获取苏轼和陆游诗歌的全集数字化文本(论文提及依据《全宋诗》)。
o进行基础的文本清洗,统一格式,可能包括去除注释、校记异文等,形成可供机器比对的纯净语料。
2.核心比对算法应用:
o使用定制开发的软件分析系统(文中提到是中国社科院友人开发的)。其关键技术是:
§字符串相似度匹配:核心是difflib.SequenceMatcher这类算法。系统对苏诗和陆诗的每一联进行比对,计算“匹配度”。
§设定阈值:论文将“一联之中匹配度在30%以上”的结果都抓取出来,共得到 1848处初步匹配。
§算法原理:该算法基于最长公共子序列(LCS),强调顺序连续性。即使两句仅共享一个字,也可能因连续顺序匹配而获得一定相似度分值。这保证了检索的全面性,但也会引入“噪声”。
3.数据清洗与人工筛查:
o**机器初筛后的“粗数据”**包含大量无效信息(如“人生百年”、“马革裹尸”等共有成语)。
o研究者进行人工甄别:这是关键的人机结合点。张剑老师需要逐一审阅这1848处匹配,依据文学素养和上下文语义,剔除偶然重合的通用语,筛选出真正具有接受、化用关系的例子。最终确认 “近千处”有效案例。
o这一步体现了AI的广度(全量扫描)与人的深度(语义判断)的结合。
第三步:基于定量发现的类型学构建与深度分析
1.分类归纳(人工完成):根据近千个案例,张剑老师从文学研究角度将其归纳为四大类型:
o字句摹拟(一字不移型、点窜变化型)
o立意摹拟(直承其意型、变化其意型)
o风格摹拟
o次韵唱和
o(注:AI可以帮助聚类,但最终的分类范畴和命名需要研究者基于文学理论来定义。)
2.质量分析(人工完成):对每一类中的具体案例进行审美和艺术价值的评判,指出哪些是“生吞活剥”,哪些是“夺胎换骨”,哪些是“神气暗合”。这完全依赖于研究者的文学批评能力。
3.次韵诗发现的特殊技术:
o除了字句匹配,研究还用到韵部比对算法。软件系统能穷尽式统计出陆游次韵苏诗的作品(提到共926首,其中严格次韵二十余首)。
o这改变了学界此前“陆游无和苏诗”的印象,展示了AI在特定形式规则(押韵)检索上的强大能力。
第四步:经验总结与理论升华(人文核心)基于前三步的扎实数据,提炼出两条文学经验,并引申到人工智能时代的文学研究思考。这部分是纯人文的思辨,是研究的最终目的。
二、如何完成一项类似的研究:您的行动路线图
假设您要研究“诗人B对诗人A的语典转化与诗风接受”,您可以遵循以下步骤:
阶段 | 具体任务 | 所需技术与方法 | 工具/资源示例 | 注意事项 |
第一阶段:准备与提出问题 | 1. 明确研究对象(A、B诗人)。2. 提出具体假设(如“B深受A影响,尤其在XX题材上”)。3. 将问题转化为可计算的问题(如“找出B诗中所有与A诗相似度高于X%的句子”)。 | 文献调研能力、问题转化能力。 | 学术数据库、文学史。 | 问题越具体,后续技术分析越有针对性。 |
第二阶段:数据获取与预处理 | 1. 获取A、B诗人的可靠数字化全集。2. 文本清洗:去除标题、作者、注释等非诗句文本,确保每行是一条诗句或一联。3. 文本规范化:统一繁体/简体、异体字,处理OCR错误。 | 文本编辑、正则表达式、编码处理。 | 文本编辑器(VS Code, Sublime)、Python (re库)、古籍数据库(如国学大师网、中华经典古籍库)。 | 数据质量决定分析质量。清洗是关键且繁琐的一步。 |
第三阶段:核心分析 - 语典转化挖掘 | 1. 全文本相似度扫描:- 编写或使用脚本,将B的每一句/联与A的全集进行相似度计算。- 核心工具:Python的 difflib.SequenceMatcher。- 保存所有超过阈值(如25%、30%)的结果,包括诗句内容和相似度分数。2. 语义相似度辅助分析(可选但更深入):- 使用预训练的中文BERT等模型,将诗句转化为向量,计算余弦相似度。- 这能捕捉到字面不同但语义相近的化用(如“明月”化用“玉盘”)。 | Python编程、字符串算法、自然语言处理基础。 | Python, difflib, transformers库(调用BERT模型),scikit-learn(计算余弦相似度)。 | 人工筛查至关重要!机器结果只是“候选名单”,必须逐条用文学眼光判断是否为有意的化用,排除成语、俗语的偶然重合。 |
第四阶段:核心分析 - 诗风接受探究 | 1. 风格计量:- 词汇层面:分别统计A、B的高频词、特色词(可通过TF-IDF提取)。- 句法层面:统计分析句式长度、虚词使用频率等。- 主题层面:对A、B的诗集分别进行LDA主题建模,比较其主题分布。2. 关系可视化:- 将筛选出的有效“化用案例”作为关系,绘制 “A诗句 -> B诗句”的影响网络图。- 可以按题材、创作年代对网络进行着色,观察影响密度的变化。 | 统计方法、主题建模、社会网络分析基础。 | Python pandas, gensim(LDA),networkx, Gephi(可视化)。 | 风格分析需要结合文学常识解读数据。例如,高频词统计后,要问“为什么是这些词?” |
第五阶段:人工阐释与论文写作 | 1. 分类与定性:像张剑一样,对机器发现的案例进行人工分类(字句、立意、意象等),并评价其艺术高低。2. 脉络梳理:结合诗人的生平、时代背景,解释影响发生的时机、方式和原因。3. 结论升华:总结B学A的特点、得失,及其在文学史上的意义。 | 文学批评能力、史学功底、理论思辨能力。 | Word/LaTeX。 | 这是研究的灵魂。AI告诉你“有什么”和“有多少”,你负责回答“为什么”和“意味着什么”。 |
三、给您的研究建议
1.从小处着手:不要一开始就比对两位诗人的全部作品。可以先选择一个公认的影响明显的领域(例如,B的山水诗对A的继承),或者选取特定的形式(如七律、用典)进行试点研究。
2.善用现有工具:不一定需要从头开发算法。可以探索现有的数字人文平台或开源代码。例如,寻找是否有现成的“古诗相似度比对”工具或脚本。
3.接受“不完美”的输出:AI的初步结果必然包含大量垃圾信息。人工筛查和鉴别是本研究方法中不可省略、且最能体现您学术功底的核心环节。这个过程本身就是发现和思考的过程。
4.技术学习路线:如果您是新手,优先学习Python基础和difflib库的使用,这是复现张剑研究核心步骤的门槛最低的技术。然后再逐步接触文本向量化、LDA等更高级的方法。
总而言之,张剑的研究范例表明,成功的AI赋能的古代文学研究,是研究者以清晰的人文问题为导向,巧妙地利用AI作为超级放大镜和计数器,获取前所未有的实证规模,最终回归深厚的文学阐释与理论建构的过程。您既是研究的设计师,也是数据的炼金术士,更是意义的赋予者。
追问:核心比对算法应用这一步,我不知道该怎么入手学习
追答:根据知识库中张剑(2026)等论文的实践,您在“核心比对算法应用”这一步遇到困难,是完全正常的。这是技术入门的关键一步,但门槛并不像想象中那么高。下面我为您拆解一个清晰、可操作的学习路径和入门方案。
一、核心思想:您需要掌握什么?
您不需要成为算法专家,而是要学会“使用现成的工具/代码来完成比对”。核心是理解“字符串相似度计算” 的基本原理,并能在Python环境中运行它。
二、具体学习路径与操作指南
第一步:搭建基础环境
1.安装Python:前往官网(python.org)下载安装最新稳定版(如3.11+)。
2.安装代码编辑器:推荐使用VSCode,界面友好,插件丰富。
3.学习基础操作:了解如何在命令行(终端/CMD)中运行Python脚本,以及如何使用VSCode打开和运行 .py 文件。
第二步:理解核心算法与工具
张剑研究中使用的核心是difflib.SequenceMatcher。您可以直接使用它,无需自己编写复杂算法。
·这是什么? 它是Python标准库 difflib 中的一个类,专门用于比较序列(字符串就是字符序列)的相似性。
·它做什么? 给定两个字符串(比如两句诗),它能计算出一个介于0.0到1.0之间的 相似度比值(ratio)。比值越高,越相似。
·怎么用? 只需几行代码。
一个极简的示例代码,您可以直接运行试试:
import difflib
# 示例诗句
su_shi_line = "人生看得几清明"# 苏轼句
lu_you_line = "苦无多日是清明"# 陆游句
# 创建SequenceMatcher对象
matcher = difflib.SequenceMatcher(None, su_shi_line, lu_you_line)
# 计算相似度比率
similarity_ratio = matcher.ratio()print(f"诗句A: {su_shi_line}")print(f"诗句B: {lu_you_line}")print(f"相似度比率: {similarity_ratio:.2%}") # 格式化为百分比
# 还可以获取最长的匹配块
match_block = matcher.find_longest_match(0, len(su_shi_line), 0, len(lu_you_line))
longest_match = su_shi_line[match_block.a: match_block.a + match_block.size]print(f"最长公共子串: '{longest_match}'")
第三步:从单句比到批量比——构建您的研究脚本
单句比对只是演示。您需要的是将一位诗人(B)的所有句子,与另一位诗人(A)的所有句子进行批量比对。这需要一个嵌套循环。
一个基础框架思路:
1.加载数据:将诗人A和诗人B的诗集分别读入两个列表(list_a, list_b)。
2.双重循环比对:
results = [] # 用来存储所有比对结果for line_b in list_b: # 遍历B的每一句
for line_a in list_a: # 遍历A的每一句
matcher = difflib.SequenceMatcher(None, line_a, line_b)
ratio = matcher.ratio()
if ratio > 0.3: # 设定一个阈值,比如0.3(30%)
results.append({
'source_line': line_a,
'target_line': line_b,
'similarity': ratio
})
3.保存结果:将results 列表保存为CSV或Excel文件,方便您用Excel打开并进行人工筛查。
import pandas as pd
df = pd.DataFrame(results)
df.to_csv('comparison_results.csv', index=False, encoding='utf-8-sig')
第四步:优化与深入学习
当基础脚本跑通后,您可以考虑以下优化,这些在知识库论文中均有提及:
1.预处理:比对前去除标点、统一繁体简体,可以提高匹配准确性。
2.设定更科学的阈值:张剑研究用了“30%以上”,您可以通过试验确定适合您语料的阈值。
3.引入语义相似度(进阶):difflib 是字面匹配。若要捕捉“春风”与“东风”这类语义相似,需使用 词向量模型(如BERT)。但这需要更多NLP知识。建议先从difflib熟练掌握开始。
4.使用现成平台/代码:在GitHub等网站搜索“Chinese text similarity”、“古诗相似度”等关键词,可能会有开源项目直接可用。
三、立即动手的建议清单
1.找两首小诗做实验:不要一开始就用《全唐诗》。找两位诗人各10-20首代表作,手动整理到一个txt文件里(每行一句)。
2.运行上面的极简示例,感受算法输出。
3.尝试改编批量比对的框架,在您的小数据集上运行。
4.打开生成的CSV文件,人工检查哪些是真正的化用,哪些是噪声(如“人生”、“千里”等常见词)。这正是张剑论文中“人工筛查”的关键环节,也是您文学素养发挥作用的地方。
四、学习资源推荐
·官方文档:Python difflib 库官方文档是最准确的参考。
·免费教程:在B站、慕课网搜索“Python文本处理”、“difflib相似度”等关键词,有大量视频教程。
·关键概念:了解“最长公共子序列(LCS)”这个概念,有助于理解 SequenceMatcher 的原理。
总结: 您的突破口就在于 “动手运行那几行代码”。技术是为问题服务的,difflib 这个工具已经足够强大,能让您跨出至关重要的第一步。一旦完成了第一次批量比对和人工筛查,您就真正走上了AI赋能文学研究的实践道路。后续的风格分析(LDA)、网络可视化(Gephi)都可以在此基础上逐步叠加学习。
四、我对示例代码的尝试和学习
在python程序中,import语句用于导入其他Python文件(模块),以便使用这些模块中定义的类、方法或变量,从而实现代码复用。
difflib是Python标准库中的一个模块,它提供了一系列用于比较序列,特别是文本序列的工具。这些工具可以用来发现两个文本文件或字符串列表之间的差异,并以多种格式展示这些差异,包括HTML格式。为了了解“difflib”这一模块,我查询了difflib的官方文档以及一些教程。坦诚说,阅读是困难的,不过我大体理解了这一过程。
下面是我对示例代码的尝试:
我尝试把最近正在研读的《吴船录》中引述的诗句和同时期的范成大创作诗句进行输入:
效果不错。
在未来的学习中,应该重视人工智能工具,让它在古代文学学习与研究中发挥更多作用。ima已接入了中国古籍数据库,这应该是清洗好的数据,也许能够给我们的工作很多帮助。