书名:Uses of Artificial Intelligence in STEM Education
中文书名:《人工智能在 STEM 教育中的应用》
作者:翟小铭 & Joseph Krajcik
出版年份:2024年
此章节为“AI 在 STEM 评估中的应用”的开篇章,由著名教育测量专家 James W. Pellegrino (伊利诺伊大学)撰写。章节立足 STEM 教育评估的发展脉络,直面当下评估领域的三大核心挑战,从评估连续体定位、证据推理过程、技术与 AI 赋能价值、效度公平性四大维度展开深度分析,指出 STEM 评估的革新需要智力、财政、政治资本的协同支撑,为 AI 融入 STEM 评估划定了科学的实践边界与发展方向。
文章干货满满,建议收藏慢慢看~
过去20年的教育评估可谓是发生了翻天覆地的变化,其中“知识本位转变为素养本位”这句话相信大家都耳熟能详了,但教育评估是如何一步步发展到如今的“素养本位”的呢?本章则以“学科标准迭代”与“深度学习、21 世纪核心素养培育”两大主线梳理了STEM 评估的发展历程。
21 世纪初,《人是如何学习的》《知道学生知道什么》等里程碑式著作奠定了 STEM 教与评的理论基础,随后美国国家研究委员会(NRC)等机构相继推出数学、科学教育的全国性标准,打破了传统 STEM 教育重事实记忆的模式。而 2012 年 NRC《K-12 科学教育框架》与 2013 年《下一代科学标准(NGSS,本公众号后续解读的重点)》的发布,成为 STEM 评估转型的关键节点 —— 其核心是确立了 STEM 素养的三维框架:学科核心概念DCI、跨学科概念CCC、科学与工程实践SEP,要求学生实现知识与实践的深度融合。
与此同时,全球教育领域的「深度学习」与「21 世纪技能」浪潮,进一步重塑了 STEM 评估的核心目标:从评估学生的知识记忆,转向评估其知识迁移、批判性思维、问题解决、证据论证等高阶思维能力。这也让传统纸笔测试难以满足评估需求,成为技术与 AI 介入 STEM 评估的核心动因。早在 2013 年,Pellegrino 就提出了 STEM 科学素养评估的三大核心挑战,而这些挑战在当下依然是制约 STEM 评估发展的关键,也是 AI 赋能 STEM 评估需要聚焦的核心问题:
- 1. 设计可靠的评估工具:NGSS 提出的学科核心概念、跨学科概念、实践能力的融合要求,让评估设计难度大幅提升,需要开发能充分捕捉学生综合素养的评估任务,这也是传统评估的短板。
- 2. 验证 K-12 阶段 STEM 素养的发展进阶:目前对学生 STEM 素养的发展规律仍缺乏实证验证,需要能跨年级、跨学段使用的评估工具,追踪学生素养的发展轨迹,为课程与教学设计提供依据。
- 3. 开发教师可落地的课堂评估工具:教师在开展形成性评估时,面临着任务设计、结果分析、教学衔接的多重操作难题,需要智能化工具减轻评估负担,提供可落地的教学指导建议。
很多人认为课堂测验就是形成性评估,大规模考试就是总结性评估。但这种二分法过于简化。为解决这种粗糙的分类法, Pellegrino 引入了一个精妙的框架:评估连续体。
这五条连续体的意义在于:不同位置的评估聚焦不同的能力,因此有不同的敏感性和功能。理解这一点至关重要,否则一个低年级单位测验的分数会被误用作政策决策的依据。如PISA、TIMSS、NAEP这种大规模测试就属于远距(Remote)评估,服务于国际教育政策决策;而湖北省元月调考这种区域性考试就属于远端(Distal)评估,服务于省升学考试的题目制定及升学政策决策。
Pellegrino 认为所有评估的本质都是从证据到推理的过程,这一过程由「评估三角」构成,且三大要素必须相互协调、高度契合,才能保证评估的有效性:
- 1. 认知:对学生学科素养发展规律的理论假设,明确学生应该知道什么、能做什么;
- 2. 观察:设计能引发学生表现的评估任务,捕捉可作为证据的学生行为(如回答、作品、操作);
- 3. 解释:对学生表现进行分析解读,推断其素养水平的方法(如教师主观判断、统计模型)。
这一核心观点为 AI 评估工具的设计划定了基本原则:技术与 AI 的应用必须围绕证据推理展开,而非单纯的技术堆砌。
技术与 AI 并非 STEM 评估的万能解,但其核心价值在于对评估三角中「观察」和「解释」环节的升级与拓展,同时能破解课堂形成性评估的操作难题:- 1. 优化观察环节:技术能呈现动态、互动的评估刺激(如仿真实验、3D 模型),捕捉学生多模态的表现(如绘图、写作、操作),还能记录学生的操作过程数据(如思考路径、操作选择),让评估证据更丰富、更贴近真实问题解决场景;
- 2. 升级解释环节:AI 与机器学习能实现复杂表现的自动化评分(如书面论证、手绘模型),对海量过程进行大数据分析,挖掘学生的思维规律,解决传统评估中人工解读效率低、主观性强的问题;
- 3. 支撑课堂评估:技术能自动化完成评估任务发放、结果收集、初步分析的流程,为教师提供可操作的教学建议,大幅减轻教师的评估负担,让形成性评估真正落地课堂。
同时也要强调,技术应用必须遵循证据中心设计原则:先明确评估要验证的学生素养,再确定所需的证据类型,最后设计评估任务与技术应用方案,避免为了技术而技术。
评估的科学性核心在于效度,而效度并非评估工具的固有属性,而是基于评估目的的「证据论证」—— 即评估结果能否支撑其预期的解读与使用(如课堂诊断、大规模测评)。当代评估效度要求构建完整的「解释论证」,明确评估的素养主张、证据类型、解读方法。而公平是效度论证的核心组成部分,尤其在技术赋能的创新评估中,需重点关注:不同背景(语言、文化、经济)的学生在数字化评估中的表现差异,避免因技术接触、文化偏见导致的评估不公;同时要保证不同评估形式、任务类型的结果具有可比性,让评估真正成为促进教育公平的工具,而非加剧差距的手段。
💡 做科研,既要抬头看论文、追前沿,也要低头读好书、打基础。
公众号 | 前沿分享 Ed.frontier
一键关注,点亮星标 ⭐️
第一时间接收每日前沿分享