近日,被譽(yù)為"首個(gè) AI 軟件工程師"的工具 Devin 在測試中表現(xiàn)不佳。該工具于 2024 年 3 月推出,聲稱能自主編寫和部署應(yīng)用程序,但實(shí)際測試結(jié)果顯示,在 20 個(gè)任務(wù)中僅完成 3 個(gè)。測試人員指出,Devin 在處理復(fù)雜任務(wù)時(shí)往往陷入技術(shù)死胡同,產(chǎn)生無法使用的解決方案,甚至嘗試執(zhí)行不可能完成的任務(wù)。
Anthropic在這次更新中不僅提升了模型的整體性能,還在專業(yè)領(lǐng)域如編程、視覺理解等方面取得了顯著進(jìn)步。特別是新增的計(jì)算機(jī)使用能力,雖然仍處于早期階段,但展現(xiàn)出了AI與計(jì)算機(jī)交互的新可能性。