Science：ChatGPT縮小了打工人的差距

量子位

2023-07-17 16:46:06

Science正刊發(fā)表對ChatGPT的調查報告，《生成式人工智能對生產(chǎn)力影響的實驗證據(jù)》

對于一些文書任務，ChatGPT不僅能在節(jié)省40%時間的同時提高18%的績效，還降低了不同人之間的績效差異。

MIT官方也對這一研究成果進行了報道。

對照組也會偷用

這場實驗一共邀請了453名受試者，分為實驗組和對照組。

這些受試者是來自不同領域、受過高等教育的專業(yè)人士。

兩個組中人員的薪資水平、職業(yè)等信息如下表所示：

在為期一個月的實驗中，他們被要求完成與職業(yè)相關的寫作任務。

這些任務包括撰寫新聞稿、簡短報告、分析計劃和電子郵件，時長約為20到30分鐘。

評估的指標包括效率和質量兩部分，每份成果分別交由三名相關領域的專業(yè)人士進行盲評（1-7分）。

結果顯示，實驗組所用時間減少了0.75個標準差（約11分鐘），評分則提高了0.41個標準差。

如果換算成百分數(shù)，時間縮短和質量提高的比例分別是40%和18%。

具體而言，實驗組首先被安排完成一項任務，之后注冊ChatGPT（3.5版本）。

他們被告知，如果覺得ChatGPT好用，那么就要在第二個任務中使用。

而對照組則被要求注冊一款LaTex編輯器（注冊復雜度與ChatGPT相當），但沒有類似的告知。

結果，有80%的實驗組人員在第二個任務中使用了ChatGPT，而對照組中只有不到5%使用了LaTex工具。

對于第二個任務，實驗組平均耗時為17分鐘，比對照組少了10分鐘。

質量方面，實驗組的平均成績?yōu)?.53，對照組的平均成績則為3.802。

除了提質增效，ChatGPT還降低了不同人之間工作質量的差異。

根據(jù)第一個任務完成情況的不同，研究人員將這些人第二次任務的評分進行了線性擬合。

結果顯示，實驗組評分的擬合斜率為0.414，比對照組低了0.272。

那么這些人又是如何使用ChatGPT的呢？是直接使用輸出結果或僅做微調，還是只用來打草稿？

跟蹤結果顯示，有33%的受試者提交的是原汁原味的ChatGPT結果，而53%進行了修改。

但這些修改可能十分微小，比如只是調整一下格式等等。

得出這一結論的理由是，他們在ChatGPT生成回復后的平均活動之間只有3.3分鐘，且大部分位于0-2分鐘之間。

需要說明的是，在實驗開始之前，70%的受試人員已經(jīng)聽說過ChatGPT，32%曾經(jīng)使用過。

所以，在實驗過程中，研究人員發(fā)現(xiàn)，對照組中也有10~20%的人使用了ChatGPT。

這一現(xiàn)象對實驗結果存在一定影響，研究人員利用了統(tǒng)計學方法進行修正。

實驗結束后，研究人員還對這些受試者進行了兩次回訪，分別有92%和83%的人給出了回復。

第一次回訪是在實驗結束后兩周，實驗組和對照組分別有34%和18%的人仍在使用ChatGPT。

六周之后，也就是實驗結束后兩個月，這組數(shù)字分別提升到了42%和27%。

綜上所述，研究人員認為，ChatGPT在提升工作質效方面確實有顯著作用，但其能否取代人類仍不明確。

八戒八戒午夜视频_国产欧美一区二区三区不卡_乡村大坑的性事小说_女人脱裤子让男生桶爽在线观看