AI能讓每一個人都變成了「無師自通」的天才?
當前位置: 首頁 » A-Journal » 消息與故事 » 【AI研究】生成式人工智能ChatGPT令補習行業消亡?
在即將迎來乙巳蛇年到臨的時候,「神秘的東方大國」為世界帶來了巨大的驚喜。中國人工智慧新創公司「深度求索」(DeepSeek)的生成式人工智能模型DeepSeek-R1在中國橫空出世,該模型打破了物理算力至上的人工智能擴展邏輯,其性能表現亦更上一層樓,優於現時的國際人工智能行業領頭羊,結果在世界引起了技術、市場和政治的共振,並再一次觸發人們激辯人工智能在各行各業的效應。過去不少參與討論的人認為,生成式人工智能模型就好像一位永不休息的大師,能夠隨時隨地為人類提供無窮無盡的知識和資訊,讓學生可以按照自己的節奏和需要進行個性化學習,於是所有傳遞知識的教師再也沒有存在價值,學校將會成為歷史,而補習社也會失去生存空間。
這種觀點似乎暗示,只要人類社會的所有成員接觸到海量的信息,就可以雞犬升天,人人都成為才高八斗的學霸。但事實是否如此?有沒有一種可能,生成式人工智能工具只是讓大家飄飄然,誤以為自己學富五車?
六位來自美國和匈牙利的學者在2024年冬季發表了一篇論文,利用OpenAI的ChatGPT-4探討生成式人工智能技術在高中數學課堂如何影響學習成果。毫無疑問,生成式人工智能技術已經令人類的工作模式出現翻天覆地的變化,並顯著提高了人類的生產力。但究竟這種技術如何影響人們學習獲取新的知識和技能,學界至今仍然是眾說紛紜。眾所周知,人類資本的發展對社會維持長遠的生產力至關重要。當科技令一項任務全面自動化,便代表人類失去了從實踐中累積經驗的機會,人們可能會因為知識和技能減少而紕漏叢生,又或在關鍵時刻遇上技術故障等突發情況時無力回天,抵銷了當初效率提升的好處。六位學者希望藉著這次研究,檢視ChatGPT-4會否阻礙人們學習。
研究採用了隨機控制試驗 (RCT) 來評估人工智能輔導工具對學生學習的影響。在2023-2024年秋季學期,研究團隊於土耳其一所大型高中進行實驗,共有約1,000個來自9、10和11年級的學生參與。實驗分為三個階段:第一,老師在課堂上回顧一個已講授的主題,並在白板上講解一條或多條例題;第二,學生解答一系列由教師設計的練習題目,以熟習課堂中學得的概念;第三,學生參與一個閉卷和沒有電腦輔助的考試,試卷問題在概念上與練習題非常相似。所有學生在第一階段和第三階段所接受的安排都是一模一樣,唯一的分別出現在第二階段的學習方法。學生會被隨機分配到三個組別:GPT Base組、GPT Tutor組和控制組,其中控制組的學生按照常規方式學習,只依靠課本和筆記解決練習問題;GPT Base組則在一個擁有簡單聊天界面輸入練習問題,要求ChatGPT-4作為輔導者來幫助他們解答;至於GPT Tutor組使用的人工智能輔導工具也是基於ChatGPT-4開發出來的,但它不會直接給出答案,只會引導學生思考。
分析指出,使用人工智能輔導工具的學生在輔助練習問題中的表現會顯著提高。相對於控制組而言,GPT Base組的表現平均提升48%,而GPT Tutor組的表現改善程度則更為驚人,竟然高達127%!這些數字反映生成式人工智能輔導工具的確可以在短期內顯著改善學生的學習表現。然而,研究團隊發現人工智能輔導工具的長期效果並不理想。一旦學生參加閉卷和關機進行的考試,無法使用生成式人工智能輔導工具,GPT Base組和GPT Tutor組的表現隨即大打節扣。結果顯示,與控制組相比,曾經使用GPT Tutor的學生在成績上再沒有顯著的優勢,而曾使用GPT Base的學生甚至會比從未使用過人工智能輔導工具的學生表現得更差,分數的下降幅度為17%。這個現象表明,生成式人工智能技術可以對學習構成長遠的負面影響,在教育環境中使用起來並非毫無風險。
六位學者認為,GPT Base組學生之所以在考試中的表現最為遜色,原因有二。首先,ChatGPT有一個重要缺陷,就是可靠性不高。在數學問題方面,它提供的答案平均正確率僅為51%,有42%和8%的時間分別出現邏輯錯誤 (計算步驟出現問題) 和算術錯誤 (計算步驟沒有出現問題的情況下產生錯誤答案)。但證據顯示學生主要是在練習而非考試中受誤導;也許更重要的是,人工智能輔導工具增加了學生的依賴性。研究團隊從人工智能輔導工具中索取對話仔細斟酌,發現使用GPT Base的學生與人工智能輔導工具的互動不足,不僅發送的信息量較少,對話亦流於表面。他們只求直接獲得答案,基本上把人工智能輔導工具當成「拐杖」。GPT Tutor禁絕了學生直接索取答案的途徑,便抹去了GPT Base的負面效應,惟在輔助學習方面的作用也不算明顥。
由此可以推論,人工智能輔導工具暫時仍不足以完全取代面授知識的老師。只要一眾補習社能夠幫助學生真正掌握關鍵概念和技能,並在各種各樣的考核中反映出來,理論上應該還有頗高的存在價值,短期內不至於會徹底消亡。
當然,就算補習社真的可以有效提升學生考試的成績,也並不一定代表示補習行業能夠一直保有龐大的客戶群。值得注意的是,在實驗中學生的自我感知與實際學習成果不甚匹配,往往對自己學習成果作出過分樂觀的評估。儘管GPT Base組的學生在考試中表現不佳,但他們似乎沒有意識到自己的學習效果下降。GPT Tutor組的學生不遑多讓,雖然他們在考試中的表現不特別亮麗,但他們居然認為自己的學習效果顯著提高。假如學生都覺得自己依靠ChatGPT便能在學業上收立竿見影之效,那又甚麼理由可以打動他們向補習社「進貢」?補習行業的真正劣勢可能在於情緒價值較低,無法讓學生享受到「自我膨脹」帶來的快感。
註:相關研究刊載於《禾頓商學院研究論文》(The Wharton School Research Paper)。