AI眼镜作弊考进前五
作者:微信文章近日,一项由香港科技大学教授团队主导的实验引发了教育界和科技界的广泛关注与深思。在该校《计算机网络原理》的本科期末考试中,一副搭载了ChatGPT-5.2模型的AI智能眼镜,在模拟真实考场环境下,仅用30分钟便完成了整套试卷,并取得了92.5分的优异成绩,在百余名考生中排名前五,轻松超越了超过95% 的人类考生。
这场看似“离谱”的人机同场竞技,并非学生作弊,而是一次严肃的科研测试。它如同一面镜子,不仅照出了当前AI技术的强大能力,更尖锐地折射出传统教育评估体系在AI时代下面临的深刻挑战。
一、实验揭秘:一场精心设计的“作弊”测试
这项实验由香港科技大学张军教授、孟子立教授团队设计,旨在极限测试AI在高压、结构化知识考核中的表现。
硬件选择研究团队对市面上12款主流智能眼镜进行了系统评估。最终选择了乐奇(Rokid)的AI眼镜作为硬件平台。其关键原因在于,Rokid提供了更开放的SDK和更完善的生态,允许团队进行深度二次开发,实现对显示内容的直接控制,而Meta等品牌的眼镜在此方面限制较多。
软件核心AI的“大脑”则选用了当时性能领先的OpenAI ChatGPT-5.2模型,以确保在知识广度、逻辑推理和响应速度上达到最佳状态。
考试流程考试过程高度模拟真实场景。学生佩戴眼镜低头看题,眼镜内置摄像头会快速拍摄试题图像。图像通过“眼镜—手机—云端”链路传输至远程的GPT-5.2模型进行推理分析,生成的答案再原路返回,实时显示在眼镜的微型屏幕上,供学生“抄录”。
二、结果震撼:AI的稳定与人类的“尴尬”
实验结果令人震惊:
高分高效AI眼镜在30分钟内交卷,获得92.5分,位列前5%。
全面碾压在多项选择题和单页短答题中,AI获得了满分。即便在需要跨页阅读、依赖上下文逻辑推理的跨页短答题中,AI也拿到了大部分分数,展现了极强的连贯性理解能力。过程完整AI不仅给出了最终答案,其推理步骤也相当完整,即便在复杂计算中偶有偏差,其解题思路也清晰可循。
这清晰地表明,在规则明确、答案标准化的传统笔试环境中,AI已经能够稳定、高效地完成从“读题”到“理解”再到“作答”的全流程,其表现甚至超越了绝大多数经过系统学习的人类学生。
三、技术短板:理想与现实的差距
尽管成绩亮眼,实验也暴露出当前消费级AI眼镜的技术瓶颈:
功耗焦虑在持续高负荷运行(开启Wi-Fi、传输高分辨率图像)的30分钟考试中,眼镜电量从100%骤降至58%。若想实现全天候应用,功耗是必须跨越的工程难题。
“视力”限制摄像头的清晰度直接决定了AI的“视力”。一旦题目出现模糊、反光或拍摄角度偏差,AI的识别准确率和推理稳定性就会显著下降。
依赖网络整个流程严重依赖稳定的网络连接,任何延迟或中断都会影响体验。
四、深层冲击:传统教学评估的“阿喀琉斯之踵”
此次实验带来的最大震撼,远不止于技术本身,而是对现有教育评估体系的根本性质疑。
长期以来,我们的考试体系高度依赖标准化笔试,核心评估的是学生对特定知识点的记忆、复现和按标准流程解题的能力。这套体系在工业时代筛选出了大量合格人才。然而,AI的崛起恰好命中了这套体系的“靶心”——记忆、检索、模式化推理,正是当前大模型最擅长的事。
当AI能够比人类更快速、更稳定地交出“标准答案”时,我们不得不反思:考试,到底在考什么?
教育心理学家霍华德·加德纳曾提出“多元智能理论”,指出人类智能包含语言、逻辑、空间、人际、内省等多种维度。而传统笔试主要考察的仅是其中非常狭窄的“语言与逻辑-数学智能”部分。那些更重要的能力——提出新颖问题的能力、在信息不全时做出判断的能力、在不同方案间权衡取舍的能力、理解复杂现实情境和他人立场的能力——恰恰是笔试难以捕捉,而AI目前也相对薄弱的。
五、未来已来:评估重心从“答案”转向“过程”
实验像一记警钟,催促教育体系必须进行变革。全球一些前沿的教育机构已经开始探索新的评估范式:
口试与答辩纽约大学斯特恩商学院的Panos Ipeirotis教授推出了一套由AI辅助的口试系统。学生不仅要提交作业,还需在AI的追问下现场解释自己的决策逻辑和思考路径。AI先充当考官,后续再由多个大模型(如Claude、Gemini、ChatGPT)对转录内容进行独立评分和交叉审查。这迫使学生的思考过程变得“可视化”。
项目制与展示型评估《华盛顿邮报》报道,越来越多高校开始引入课程设计、研究报告展示、团队项目等评估方式,重点考察学生的研究、创新、协作与解决真实问题的能力。
人机协作的新范式未来的教育可能不再试图将AI“挡在考场门外”,而是思考如何让学生将AI作为强大的“思考伙伴”和“信息处理工具”,将人的精力从记忆和简单计算中解放出来,专注于更高级的批判性思维、创造性整合和伦理判断。
结语
香港科大的这场实验,与其说是一次AI的“作弊”演示,不如说是一次对传统教育体系的“压力测试”。它无情地揭示:当工具已经能稳定地产出标准答案,课堂与考试是否还能有效区分不同层次的思考与真正的理解?
答案显然不是简单地禁止技术。更现实的路径是,拥抱变化,重新设计我们的教学与评估,将重心从考核“记住了什么”,转向评估“如何思考”、“如何创造”以及“如何与智能工具协同解决问题”。这不仅是应对AI挑战的权宜之计,更是培养能够适应并引领未来社会的创新人才的必由之路。教育的“ChatGPT时刻”,或许已经悄然来临。
页:
[1]