AI素养量表“体检报告”:衡量 AI 素养的工具远没有想象中成熟

新闻 · 发表于 2025-5-10 02:00

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

作者：微信文章
面对 AI 技术迅速渗透社会、深度伪造、就业结构重塑等挑战，公众需要具备理解、使用、批判性评估与伦理意识等AI素养。虽然很多学者和权威机构都发布了AI素养框架或量表，但捷克的研究人员Tomáš Lintner认为：

现有工具在统计结构上看似可靠，但由于缺乏系统的内容效度与跨文化检验，我们仍无法确信它们真正衡量了“AI 素养”这一目标。未来开发者必须把“测什么”与“谁来测”对应起来，否则再漂亮的因子模型也只是空中楼阁。

他的论文A systematic review of AI literacy scales（Nature子刊）首次把 16 种量表放到同一评价尺上，并针对不同受众给出排序式推荐，为后续实证研究和课程评估提供了直接可用的决策框架。

研究发现，16 种量表中仅 3 种为表现型（performance-based），其余 13 种为自评量表；受测群体覆盖一般公众、高等教育学生、中学学生与教师。

自评量表的准确度当然会有问题。有些人“越不懂越自信”，用自评问卷容易高估，而表现型量表用实际任务直接检验，防“高估”或“低估”。

此外AI 素养不仅要自己“觉得会”，而是需要“真的会”。

我自以为对AI的发展挺了解的，前几天OpenAI研究员姚顺雨在自己的网站发表了《AI下半场The Second Half》，无论是他对AI上半场的复盘，还是对下半场的预判[AI 上半场的“赢家”几乎都是提出新训练方法或模型；到了“下半场”，方法创新的边际收益正在下降，应转向“效用问题”（utility problem）]，其深度和广度都远超我的认识。自己“觉得会”，不见得“真会”，甚至都不见得懂。

表现型量表最大的好处是“真实能力测评 + 客观可比性 + 防自我偏差”，适合关注“学生/公众实际会多少”的教育研究，而普通自评量表更适合“态度/自信/情感”类研究。

AI 素养本身是一个多维度、复杂构念，涉及技术知识、伦理态度、社会意识等，不是单一知识测试。现有量表良莠不齐，需要一套标准化、跨领域认可的框架来“公平打分”。COSMIN 通过一套测量属性体系来评价量表质量，在医学、心理学等量表评估中已是“金标准”，具有高度权威性和适用性。以下是COSMIN关注的维度：

在这篇 AI 素养量表综述中，作者用 COSMIN 帮助我们判断：哪些表值得用，哪些还需要补充验证。

最终，作者根据 COSMIN 评估结果、目标群体、使用目的，把 16 个量表归类推荐，形成了 “4 类情境 + 场景优选量表”：

✅ 如果要测“真实能力”，优先表现型量表（AI Literacy Test, AI-CI）。

✅ 如果只想测态度/自信心/主观评价，可用自评量表（AILS, SNAIL 等）。
1️⃣ 一般公众首选：AILS (AI Literacy Scale)

形式：自评问卷

维度：技术理解、社会影响、伦理态度

账号		自动登录	找回密码
密码			注册

萍聚头条

AI素养量表“体检报告”:衡量 AI 素养的工具远没有想象中成熟

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

浏览过的版块