当前位置：首页>学习笔记>【读书笔记】AI4STEM | Chapter2 STEM评估新时代,教育测量大牛带你走进教育评估动荡的20年

【读书笔记】AI4STEM | Chapter2 STEM评估新时代,教育测量大牛带你走进教育评估动荡的20年

2026-02-19 18:38:05

点击蓝字关注我们

【书本简介】

书名：Uses of Artificial Intelligence in STEM Education

中文书名：《人工智能在 STEM 教育中的应用》

作者：翟小铭 & Joseph Krajcik

出版年份：2024年

本期重点<<<<

此章节为“AI 在 STEM 评估中的应用”的开篇章，由著名教育测量专家 James W. Pellegrino （伊利诺伊大学）撰写。章节立足 STEM 教育评估的发展脉络，直面当下评估领域的三大核心挑战，从评估连续体定位、证据推理过程、技术与 AI 赋能价值、效度公平性四大维度展开深度分析，指出 STEM 评估的革新需要智力、财政、政治资本的协同支撑，为 AI 融入 STEM 评估划定了科学的实践边界与发展方向。

文章干货满满，建议收藏慢慢看~

一、STEM 评估的发展脉络：标准建立到深度学习

过去20年的教育评估可谓是发生了翻天覆地的变化，其中“知识本位转变为素养本位”这句话相信大家都耳熟能详了，但教育评估是如何一步步发展到如今的“素养本位”的呢？本章则以“学科标准迭代”与“深度学习、21 世纪核心素养培育”两大主线梳理了STEM 评估的发展历程。

21 世纪初，《人是如何学习的》《知道学生知道什么》等里程碑式著作奠定了 STEM 教与评的理论基础，随后美国国家研究委员会（NRC）等机构相继推出数学、科学教育的全国性标准，打破了传统 STEM 教育重事实记忆的模式。而 2012 年 NRC《K-12 科学教育框架》与 2013 年《下一代科学标准（NGSS，本公众号后续解读的重点）》的发布，成为 STEM 评估转型的关键节点 —— 其核心是确立了 STEM 素养的三维框架：学科核心概念DCI、跨学科概念CCC、科学与工程实践SEP，要求学生实现知识与实践的深度融合。

与此同时，全球教育领域的「深度学习」与「21 世纪技能」浪潮，进一步重塑了 STEM 评估的核心目标：从评估学生的知识记忆，转向评估其知识迁移、批判性思维、问题解决、证据论证等高阶思维能力。这也让传统纸笔测试难以满足评估需求，成为技术与 AI 介入 STEM 评估的核心动因。

二、STEM 评估的三大核心挑战

早在 2013 年，Pellegrino 就提出了 STEM 科学素养评估的三大核心挑战，而这些挑战在当下依然是制约 STEM 评估发展的关键，也是 AI 赋能 STEM 评估需要聚焦的核心问题：

1. 设计可靠的评估工具：NGSS 提出的学科核心概念、跨学科概念、实践能力的融合要求，让评估设计难度大幅提升，需要开发能充分捕捉学生综合素养的评估任务，这也是传统评估的短板。
2. 验证 K-12 阶段 STEM 素养的发展进阶：目前对学生 STEM 素养的发展规律仍缺乏实证验证，需要能跨年级、跨学段使用的评估工具，追踪学生素养的发展轨迹，为课程与教学设计提供依据。
3. 开发教师可落地的课堂评估工具：教师在开展形成性评估时，面临着任务设计、结果分析、教学衔接的多重操作难题，需要智能化工具减轻评估负担，提供可落地的教学指导建议。

三、STEM 评估的多重维度：空间、时间与目的

很多人认为课堂测验就是形成性评估，大规模考试就是总结性评估。但这种二分法过于简化。为解决这种粗糙的分类法， Pellegrino 引入了一个精妙的框架：评估连续体。

这五条连续体的意义在于：不同位置的评估聚焦不同的能力，因此有不同的敏感性和功能。理解这一点至关重要，否则一个低年级单位测验的分数会被误用作政策决策的依据。如PISA、TIMSS、NAEP这种大规模测试就属于远距（Remote）评估，服务于国际教育政策决策；而湖北省元月调考这种区域性考试就属于远端（Distal）评估，服务于省升学考试的题目制定及升学政策决策。

四、评估的本质：从证据推理

Pellegrino 认为所有评估的本质都是从证据到推理的过程，这一过程由「评估三角」构成，且三大要素必须相互协调、高度契合，才能保证评估的有效性：

1. 认知：对学生学科素养发展规律的理论假设，明确学生应该知道什么、能做什么；
2. 观察：设计能引发学生表现的评估任务，捕捉可作为证据的学生行为（如回答、作品、操作）；
3. 解释：对学生表现进行分析解读，推断其素养水平的方法（如教师主观判断、统计模型）。

这一核心观点为 AI 评估工具的设计划定了基本原则：技术与 AI 的应用必须围绕证据推理展开，而非单纯的技术堆砌。

五、技术赋能的 STEM 评估

技术与 AI 并非 STEM 评估的万能解，但其核心价值在于对评估三角中「观察」和「解释」环节的升级与拓展，同时能破解课堂形成性评估的操作难题：

1. 优化观察环节：技术能呈现动态、互动的评估刺激（如仿真实验、3D 模型），捕捉学生多模态的表现（如绘图、写作、操作），还能记录学生的操作过程数据（如思考路径、操作选择），让评估证据更丰富、更贴近真实问题解决场景；
2. 升级解释环节：AI 与机器学习能实现复杂表现的自动化评分（如书面论证、手绘模型），对海量过程进行大数据分析，挖掘学生的思维规律，解决传统评估中人工解读效率低、主观性强的问题；
3. 支撑课堂评估：技术能自动化完成评估任务发放、结果收集、初步分析的流程，为教师提供可操作的教学建议，大幅减轻教师的评估负担，让形成性评估真正落地课堂。

同时也要强调，技术应用必须遵循证据中心设计原则：先明确评估要验证的学生素养，再确定所需的证据类型，最后设计评估任务与技术应用方案，避免为了技术而技术。

六、有效性与公平性

评估的科学性核心在于效度，而效度并非评估工具的固有属性，而是基于评估目的的「证据论证」—— 即评估结果能否支撑其预期的解读与使用（如课堂诊断、大规模测评）。当代评估效度要求构建完整的「解释论证」，明确评估的素养主张、证据类型、解读方法。

而公平是效度论证的核心组成部分，尤其在技术赋能的创新评估中，需重点关注：不同背景（语言、文化、经济）的学生在数字化评估中的表现差异，避免因技术接触、文化偏见导致的评估不公；同时要保证不同评估形式、任务类型的结果具有可比性，让评估真正成为促进教育公平的工具，而非加剧差距的手段。

💡 做科研，既要抬头看论文、追前沿，也要低头读好书、打基础。

END

往期推荐

1.【新专栏开启】每周2-3篇科研读书笔记，持续连载！

2.【读书笔记】AI4STEM | Chapter1 基于人工智能的STEM教育

公众号 | 前沿分享 Ed.frontier

一键关注，点亮星标 ⭐️

第一时间接收每日前沿分享

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

【读书笔记】AI4STEM | Chapter2 STEM评估新时代,教育测量大牛带你走进教育评估动荡的20年

最新文章

热门文章

随机文章

【读书笔记】AI4STEM | Chapter2 STEM评估新时代,教育测量大牛带你走进教育评估动荡的20年

覃荣的Step D4 学习笔记|BVI公司竟是香港税务居民?CRS认定逻辑大揭秘

学习笔记第1856期 | 爱是日常

最新文章

热门文章

随机文章