AI程序員Devin臥底工作群修bug！和CTO聊技術(shù)，網(wǎng)友：頂級(jí)碼農(nóng)水平

量子位

2024-03-17 15:07:36

首個(gè)AI程序員Devin，現(xiàn)身明星創(chuàng)業(yè)公司內(nèi)部群。

為解決一個(gè)技術(shù)問(wèn)題，Devin借用了其創(chuàng)造者的賬號(hào)，與客戶公司的CTO交流，并根據(jù)回復(fù)調(diào)整了代碼方案。

對(duì)話之專業(yè)，圍觀者看了直呼這個(gè)世界太瘋狂。

事情發(fā)生在辦公軟件Slack，截圖中的akshat是AI基礎(chǔ)設(shè)施創(chuàng)業(yè)公司Modal Labs的CTO Akshat Bubna。

Modal Labs也是Devin開(kāi)發(fā)商Cognition的首批客戶之一。

此時(shí)Devin正披著他的創(chuàng)造者之一、IOI金牌得主Steven Hao的馬甲。

對(duì)話的開(kāi)始，AI程序員Devin正在詢問(wèn)有關(guān)Modal Lab平臺(tái)的密鑰的生命周期問(wèn)題，特別是密鑰更新后傳播到正在運(yùn)行的應(yīng)用程序所需的時(shí)間。

Devin表示自己已經(jīng)查閱了文檔，包括密鑰和環(huán)境變量指南、CLI命令參考、API參考以及容器生命周期鉤子和參數(shù)，但依舊沒(méi)有找到關(guān)于密鑰傳播時(shí)間的明確信息。

Devin詢問(wèn)了更新的密鑰通常需要多長(zhǎng)時(shí)間才能被運(yùn)行中的應(yīng)用程序使用，因?yàn)檫@對(duì)于他們的運(yùn)營(yíng)至關(guān)重要，了解這一點(diǎn)將有助于管理他們的部署流程。

人類CTO解釋說(shuō)，當(dāng)密鑰更新時(shí)，他們不會(huì)使已經(jīng)運(yùn)行的Modal容器失效，但是新啟動(dòng)的容器將會(huì)讀取更新后的值。

Devin對(duì)此表示感謝，并決定暫時(shí)采用手動(dòng)方法來(lái)管理Modal中的密鑰，即在需要時(shí)調(diào)用modal deploy命令來(lái)觸發(fā)相關(guān)應(yīng)用程序容器的重啟。

看完整個(gè)過(guò)程后，同樣是AI創(chuàng)業(yè)者的Raunak Chowdhuri評(píng)價(jià)到：

發(fā)現(xiàn)問(wèn)題、創(chuàng)建工單、調(diào)整代碼，最好的人類開(kāi)發(fā)者就是這么工作的。

Devin更多實(shí)測(cè)結(jié)果

拿到Devin早期測(cè)試資格的人和公司并不多，不過(guò)還是陸陸續(xù)續(xù)有人曬出實(shí)測(cè)結(jié)果。

熱衷AI的沃頓商學(xué)院教授Ethan Molick試過(guò)后，認(rèn)為其新穎的實(shí)時(shí)交互方式是最值得關(guān)注的。

您可以隨時(shí)與它“交談”，就像與人交談一樣，它會(huì)在后臺(tái)不斷地執(zhí)行和調(diào)試您的想法。

在測(cè)試中，Ethan Mollick要求Devin開(kāi)發(fā)一個(gè)解釋“創(chuàng)業(yè)公司融資中的股權(quán)稀釋”的網(wǎng)站。

不過(guò)他透露，AI還無(wú)法在沒(méi)有任何幫助的情況下，自主且無(wú)差錯(cuò)地完成這項(xiàng)工作。

要想把一個(gè)重大項(xiàng)目交給人工智能來(lái)完成，還有很長(zhǎng)的路要走，但這仍然是一個(gè)令人著迷的開(kāi)始。

另一位曬出測(cè)試過(guò)程的創(chuàng)業(yè)者Mckay Wrigley更激動(dòng)一些。

在他曬出的27分鐘測(cè)試中，只發(fā)了一個(gè)GitHub連接，讓Devin部署來(lái)自開(kāi)源項(xiàng)目的代碼。

Devin自主把任務(wù)拆解成一系列子步驟，并一步步開(kāi)始執(zhí)行。

執(zhí)行過(guò)程中，Devin在安裝Supabase數(shù)據(jù)庫(kù)時(shí)遇到了障礙，自己打開(kāi)了對(duì)應(yīng)的Github倉(cāng)庫(kù)開(kāi)始查閱文檔……

從后續(xù)終端反饋中可以看出，Devin查到了運(yùn)行Supabase所需的各種端口和密匙都應(yīng)該填什么。

（裝過(guò)的都知道，雀食挺麻煩……）

與此同時(shí)，Devin還在根據(jù)實(shí)際情況不斷修改自己的后續(xù)計(jì)劃。

一段時(shí)間過(guò)后，一個(gè)本地的聊天機(jī)器人程序就跑起來(lái)了。

測(cè)試一段時(shí)間后Mckay Wrigley認(rèn)為，Devin已經(jīng)可以算Agent的ChatGPT時(shí)刻。

復(fù)現(xiàn)Devin計(jì)劃ing

Devin這邊大伙還在接連測(cè)試，另一邊開(kāi)源“復(fù)現(xiàn)”方案也在進(jìn)行中……

這不，GitHub三萬(wàn)Star項(xiàng)目MetaGPT就上新了“開(kāi)源版Devin”。

名為數(shù)據(jù)解釋器（Data Interpreter）：

同Devin一樣，Data Interpreter也能實(shí)現(xiàn)自主編程，能迭代式觀察數(shù)據(jù)，預(yù)測(cè)分析病情進(jìn)展、機(jī)器運(yùn)行狀態(tài)；還能構(gòu)建機(jī)器學(xué)習(xí)模型、進(jìn)行數(shù)學(xué)推理、自動(dòng)回復(fù)電子郵件、仿寫網(wǎng)站……

比如從英偉達(dá)股價(jià)數(shù)據(jù)中分析收盤價(jià)格趨勢(shì)：

分析數(shù)據(jù)預(yù)測(cè)葡萄酒質(zhì)量：

除此以外，阿里Qwen成員Binyan Hui等人開(kāi)啟了OpenDevin項(xiàng)目，剛剛起步已獲得1.2k Star。

Binyan Hui發(fā)推文表示，已有一個(gè)初步的路線圖和一群優(yōu)秀的人在努力工作，在很短的時(shí)間內(nèi)就完成了前端原型。

同時(shí)項(xiàng)目團(tuán)隊(duì)也在招新成員：

另外，還一個(gè)名為Maisa AI的團(tuán)隊(duì)推出了Maisa KPU（Knowledge Processing Unit），被網(wǎng)友認(rèn)為與Devin有一些競(jìng)爭(zhēng)。

目前Maisa KPU處于測(cè)試階段，它可以解決復(fù)雜問(wèn)題和推理，團(tuán)隊(duì)發(fā)布的基準(zhǔn)測(cè)試結(jié)果如下：

根據(jù)demo展示，KPU可以成為“智能客服”，在客戶沒(méi)有正確寫好訂單號(hào)的情況下，幫助客戶解決訂單未送達(dá)的問(wèn)題：

Devin基準(zhǔn)測(cè)試技術(shù)報(bào)告發(fā)布

最近，Devin創(chuàng)始團(tuán)隊(duì)Cognition還發(fā)布關(guān)于SWE-bench測(cè)試的技術(shù)報(bào)告。

除了之前已公布的測(cè)試結(jié)果之外，團(tuán)隊(duì)還透露了一些新消息。

比如，Cognition的目標(biāo)之一是讓Devin這個(gè)專門從事軟件開(kāi)發(fā)的AI智能體能夠成功地為大型、復(fù)雜的代碼庫(kù)貢獻(xiàn)代碼。

選擇在SWE-bench上端到端運(yùn)行智能體，也是考慮了它更接近現(xiàn)實(shí)世界的軟件開(kāi)發(fā)。

此外，研發(fā)團(tuán)隊(duì)還透露，為了防止Devin在測(cè)試中作弊，比如查找外部的pull requests信息，測(cè)試已做相關(guān)設(shè)置，確保Devin無(wú)法訪問(wèn)相關(guān)信息，并且在此過(guò)程中也已人工手動(dòng)檢查了Devin運(yùn)行情況。