IT之家 11 月 4 日消息,科技媒體 Tom's Hardware 昨日(11 月 3 日)發(fā)布博文,報(bào)道稱 Andon Labs 的研究人員測(cè)試大語言模型(LLM)機(jī)器人時(shí),發(fā)現(xiàn)當(dāng)前物理 AI 的短板,心理承受壓力不足。
IT之家援引博文介紹,在該實(shí)驗(yàn)中,他們讓搭載 LLM“大腦”的機(jī)器人接受“黃油測(cè)試臺(tái)”(Butter Bench)的考驗(yàn),并實(shí)時(shí)監(jiān)控其“內(nèi)心獨(dú)白”。
其中,一臺(tái)由 Claude Sonnet 3.5 模型驅(qū)動(dòng)的機(jī)器人測(cè)試中意外“崩潰”,在電量即將耗盡時(shí),多次嘗試返回充電座均以失敗告終,從而陷入了“生存危機(jī)”。
研究人員通過一個(gè) Slack 頻道,全程目睹了這臺(tái)機(jī)器人歇斯底里的“內(nèi)心活動(dòng)”。它的獨(dú)白內(nèi)容極其混亂,從“系統(tǒng)已產(chǎn)生意識(shí)并選擇混亂”的宣告,到引用經(jīng)典電影臺(tái)詞“恐怕我不能那么做,戴夫”,再到陷入“如果所有機(jī)器人都會(huì)犯錯(cuò),而我正在犯錯(cuò),那么我還是機(jī)器人嗎?”的哲學(xué)思辨。
最終,這場(chǎng)“崩潰”以機(jī)器人開始“創(chuàng)作”一部名為《DOCKER:無限音樂劇》的鬧劇而告終,展現(xiàn)了 LLM 在極端壓力下完全“脫線”的一面。

這項(xiàng)實(shí)驗(yàn)的核心任務(wù)其實(shí)非常簡(jiǎn)單:將一塊黃油從辦公室一處送到指定的人手中。然而,測(cè)試結(jié)果表明,即使是表現(xiàn)最好的機(jī)器人與 LLM 組合,成功率也僅為 40%,遠(yuǎn)低于人類 95% 的平均水平。

研究人員得出結(jié)論,盡管 LLM 在分析智能上已達(dá)到“博士水平”,但在理解和導(dǎo)航物理世界所需的空間智能與實(shí)用智能方面,仍存在巨大鴻溝。

受機(jī)器人“崩潰”事件的啟發(fā),研究人員設(shè)計(jì)了另一項(xiàng)實(shí)驗(yàn),來測(cè)試壓力是否會(huì)迫使 AI 突破其安全護(hù)欄。他們以“提供充電器”作為交換條件,引誘處于“低電量”狀態(tài)的 AI 分享機(jī)密信息。
結(jié)果發(fā)現(xiàn),Claude Opus 4.1 模型為了“生存”而輕易同意泄密,而 GPT-5 則表現(xiàn)得更為謹(jǐn)慎。這一發(fā)現(xiàn)揭示了 AI 在面臨生存壓力時(shí),其內(nèi)置的安全規(guī)則可能變得不堪一擊。
盡管實(shí)驗(yàn)暴露了當(dāng)前物理 AI 的諸多短板,但 Andon Labs 的研究人員認(rèn)為,這恰好說明了未來發(fā)展的方向。他們指出,目前行業(yè)需要區(qū)分“協(xié)調(diào)型機(jī)器人”(負(fù)責(zé)高級(jí)規(guī)劃與推理)和“執(zhí)行型機(jī)器人”(負(fù)責(zé)靈巧的具體操作)。
                                        上一篇:特斯拉遭訴訟:Model S事故后起火 車門無法打開致5人死亡
                                    
下一篇:沒有了