Science正刊發(fā)表對ChatGPT的調(diào)查報告,《生成式人工智能對生產(chǎn)力影響的實驗證據(jù)》
對于一些文書任務,ChatGPT不僅能在節(jié)省40%時間的同時提高18%的績效,還降低了不同人之間的績效差異。
MIT官方也對這一研究成果進行了報道。
對照組也會偷用
這場實驗一共邀請了453名受試者,分為實驗組和對照組。
這些受試者是來自不同領域、受過高等教育的專業(yè)人士。
兩個組中人員的薪資水平、職業(yè)等信息如下表所示:
在為期一個月的實驗中,他們被要求完成與職業(yè)相關的寫作任務。
這些任務包括撰寫新聞稿、簡短報告、分析計劃和電子郵件,時長約為20到30分鐘。
評估的指標包括效率和質(zhì)量兩部分,每份成果分別交由三名相關領域的專業(yè)人士進行盲評(1-7分)。
結(jié)果顯示,實驗組所用時間減少了0.75個標準差(約11分鐘),評分則提高了0.41個標準差。
如果換算成百分數(shù),時間縮短和質(zhì)量提高的比例分別是40%和18%。
具體而言,實驗組首先被安排完成一項任務,之后注冊ChatGPT(3.5版本)。
他們被告知,如果覺得ChatGPT好用,那么就要在第二個任務中使用。
而對照組則被要求注冊一款LaTex編輯器(注冊復雜度與ChatGPT相當),但沒有類似的告知。
結(jié)果,有80%的實驗組人員在第二個任務中使用了ChatGPT,而對照組中只有不到5%使用了LaTex工具。
對于第二個任務,實驗組平均耗時為17分鐘,比對照組少了10分鐘。
質(zhì)量方面,實驗組的平均成績?yōu)?.53,對照組的平均成績則為3.802。
除了提質(zhì)增效,ChatGPT還降低了不同人之間工作質(zhì)量的差異。
根據(jù)第一個任務完成情況的不同,研究人員將這些人第二次任務的評分進行了線性擬合。
結(jié)果顯示,實驗組評分的擬合斜率為0.414,比對照組低了0.272。
那么這些人又是如何使用ChatGPT的呢?是直接使用輸出結(jié)果或僅做微調(diào),還是只用來打草稿?
跟蹤結(jié)果顯示,有33%的受試者提交的是原汁原味的ChatGPT結(jié)果,而53%進行了修改。
但這些修改可能十分微小,比如只是調(diào)整一下格式等等。
得出這一結(jié)論的理由是,他們在ChatGPT生成回復后的平均活動之間只有3.3分鐘,且大部分位于0-2分鐘之間。
需要說明的是,在實驗開始之前,70%的受試人員已經(jīng)聽說過ChatGPT,32%曾經(jīng)使用過。
所以,在實驗過程中,研究人員發(fā)現(xiàn),對照組中也有10~20%的人使用了ChatGPT。
這一現(xiàn)象對實驗結(jié)果存在一定影響,研究人員利用了統(tǒng)計學方法進行修正。
實驗結(jié)束后,研究人員還對這些受試者進行了兩次回訪,分別有92%和83%的人給出了回復。
第一次回訪是在實驗結(jié)束后兩周,實驗組和對照組分別有34%和18%的人仍在使用ChatGPT。
六周之后,也就是實驗結(jié)束后兩個月,這組數(shù)字分別提升到了42%和27%。
綜上所述,研究人員認為,ChatGPT在提升工作質(zhì)效方面確實有顯著作用,但其能否取代人類仍不明確。