点击蓝字 关注我们


【书本简介】
书名:AI for STEM Edu Research
中文书名:《AI 助力 STEM 教育研究》
作者:Xiaoming Zhai, Gyeonggeon Lee
出版年份:2026年
文章干货满满,建议收藏慢慢看~
一、自动评估生成(AAG)的范式演进
自动评估生成(AAG)的发展轨迹反映了教育技术的动态演进,从上世纪早期的基于规则的系统,已经跨越到了当今复杂的生成式人工智能(GenAI)模型时代。特别是大型语言模型(LLMs)的出现,在跨学科领域的评估项目生成中展现出了令人瞩目的能力。
研究表明 ChatGPT 在提供完整背景段落时,其生成问题的质量可媲美最先进的 Transformer 模型。然而大多数基于 GenAI 的 AAG 系统的准确性和相关性,在很大程度上取决于微妙的方法论策略,尤其是提示词工程(Prompt Engineering)和模型配置。
本章指出了当前领域的一个核心痛点:缺乏具有凝聚力的理论基础或统一框架,导致技术进步呈现出孤岛化的碎片状态,未能形成系统性的协同发展。
为了应对这一挑战,作者深入审查了 AAG 的历史与现状,并提出了一个包含五个关键维度的分析框架,随后通过两个互补的实证案例,深刻揭示了 GenAI 在实际教育场景中的潜力与局限性。
二、AAG 的历史溯源与当代应用挑战
AAG 并非新生事物,其概念可追溯至 20 世纪 20 年代由 Sidney Pressey 推出的机械教学机(提供选择题并记录回答)中初具雏形。2006 年 Drasgow 等人提出的“以证据为中心的设计”等框架,至今仍深刻影响着教育评估。
近年来,深度学习和 Transformer 模型(如 GPT 和 BERT)的崛起彻底改变了 AAG,极大降低了高质量测试材料的开发成本。当前 GenAI 在两种主要题型中展现出不同的应用特征:
(1)多项选择题(MCQs):作为最广泛使用的评估形式,MCQs 是目前 AAG 研究的重点。然而,生成具备上下文适宜性的选择题依然充满挑战。
例如,Chan 等人的研究发现,在 ChatGPT 生成的 60 个医学案例选择题中,仅有 32% 被认为无需大幅修改即可使用准确。Vu 等人通过迭代方法在公司金融领域取得了 80% 的题库标准对齐率,证明了迭代优化的必要性。
(2)基于表现的任务:这类任务主要用于培养学生的批判性思维和深度学习能力,通常缺乏单一的正确答案,且属于非结构化问题。
在此领域,GenAI 系统必须超越简单的模板驱动,采用自适应和情境感知策略。目前的 GenAI 系统更擅长生成边界清晰、答案明确的分立题目,但在处理需要开放解释、整体评估的多维度任务时仍显薄弱。
三、GenAI 驱动的 AAG 分析框架

四、深度案例分析

五、总结
💡 做科研,既要抬头看论文、追前沿,也要低头读好书、打基础。
END
往期推荐
1.【理论基础】学习的本质——Posner 概念转变论:解读同化、顺应与防御性心理
2.【理论基础】diSessa 知识碎片化理论及现象学基元 p-prims
3.【读书笔记】AI4STEM2026 | Chapter2 STEM 教育中的 AI 自动评分——从理论框架到前沿实战
