
▲紐約大學教授改用 AI 口試檢驗高分學生理解程度。(圖/取自免費圖庫Pexels)
記者吳立言/綜合報導
生成式 AI 普及後,美國高等教育開始重新檢視傳統評量方式。任教於紐約大學史登商學院(Stern School of Business)的教授 Panos Ipeirotis 指出,近年學生繳交的書面作業愈來愈完整、專業,內容結構甚至接近顧問公司等級的分析簡報,但這樣的成果未必代表學生真正理解課程內容。
作業寫得像顧問簡報 高分卻說不清楚
Ipeirotis 表示,他發現不少學生作業語氣成熟、邏輯嚴謹,若只看文字品質,往往能獲得高分,但在課堂上要求學生即時說明分析理由或決策依據時,卻經常無法清楚回答,顯示書面成果與實際理解之間出現落差。
書面評量失準 高分不再等於理解
他認為,當學生無法即時解釋自己交出的內容時,書面作業即使獲得滿分,也難以作為學習成效的可靠指標。在生成式 AI 成為學習輔助工具後,單靠書面評量,已不足以判斷學生是否真正掌握課程概念。
為解決這項問題,Ipeirotis 決定重新引入口試制度,並結合 AI 技術降低執行門檻。他強調,這項設計並非為了抓作弊,而是希望透過即時問答,確認學生是否具備真正的理解與推理能力。
採用 ElevenLabs 語音 AI 打造 AI 考官
在實際操作上,Ipeirotis 與團隊採用 ElevenLabs 的語音生成與對話技術,打造可與學生即時互動的「AI 考官」。教師僅需撰寫提問提示,即可快速設定完整口試流程,使過去因人力與時間成本過高、難以規模化的口試得以實際執行。
即時追問分析邏輯、多模型交叉評分 結果一致性高
口試內容分為兩部分,第一階段由 AI 針對學生的期末專題進行追問,要求說明分析邏輯與決策理由;第二階段則隨機抽取課堂案例,要求學生即時分析並回答,以檢驗是否真正理解課程內容,而非僅完成書面作業。
在評分環節,Ipeirotis 進一步使用多個大型語言模型進行獨立評分,再交叉比對結果,以提升評量一致性。他指出,相較人工評分,AI 在標準穩定度與一致性上表現更佳,回饋內容也更具結構性。
學生回饋顯示,AI 口試形式帶來較大心理壓力,但多數人也認同,這種方式更能反映實際理解程度。Ipeirotis 指出,未來高分不再只代表作業完成度,而必須能經得起即時詢問與說明,高分學生同樣需要證明自己真正理解課程內容。
