Nejsem v žádném případě zkušený kodér, ale díky bezplatnému programu nazvanému SWE-agent jsem byl schopen odladit a opravit nepříjemný problém zahrnující nesprávně pojmenovaný soubor v různých úložištích kódu na webu GitHub pro hostování softwaru.
Ukázal jsem agentovi SWE na problém na GitHubu a sledoval jsem, jak prochází kódem a zvažuje, co by mohlo být špatně. Správně určil, že hlavní příčinou chyby byl řádek, který ukazoval na nesprávné umístění souboru, pak prošel projektem, našel soubor a upravil kód tak, aby vše běželo správně. Je to věc, kterou nezkušený vývojář (jako jsem já) může strávit hodiny laděním.
Mnoho kodérů již používá umělou inteligenci k rychlejšímu psaní softwaru. GitHub Copilot bylo prvním integrovaným vývojářským prostředím, které využívalo AI, ale mnoho IDE nyní automaticky dokončí kusy kódu, když vývojář začne psát. Můžete také pokládat otázky AI o kódu nebo si nechat nabídnout návrhy, jak zlepšit to, na čem pracujete.
Minulé léto začali John Yang a Carlos Jimenez, dva doktorandi z Princetonu, diskutovat o tom, co by bylo zapotřebí, aby se umělá inteligence stala skutečným softwarovým inženýrem. To je a další v Princetonu vedlo k tomu, že přišli s SWE-bench, souborem benchmarků pro testování nástrojů AI v celé řadě úloh kódování. Po vydání benchmarku v říjnu tým vyvinul svůj vlastní nástroj — SWE-agent — pro zvládnutí těchto úkolů.
SWE-agent („SWE“ je zkratka pro „softwarové inženýrství“) je jedním z řady podstatně výkonnějších programů pro kódování umělé inteligence, které přesahují pouhé psaní řádků kódu a fungují jako takzvaní softwaroví agenti, využívající nástroje potřebné k hádkám. , ladit a organizovat software. Startup Devin obletěl v březnu video demo jednoho takového nástroje.
Ofir Press, člen týmu z Princetonu, říká, že SWE-bench by mohl pomoci OpenAI testovat výkon a spolehlivost softwarových agentů. „Je to jen můj názor, ale myslím, že velmi brzy uvolní softwarového agenta,“ říká Press.
OpenAI odmítlo komentovat, ale jiný zdroj se znalostí aktivit společnosti, který si nepřál být jmenován, řekl WIRED, že „OpenAI rozhodně pracuje na kódovacích agentech.“
Stejně jako GitHub Copilot ukázal, že velké jazykové modely dokážou psát kód a zvýšit produktivitu programátorů, mohou nástroje jako SWE-agent dokázat, že agenti umělé inteligence mohou pracovat spolehlivě, počínaje vytvářením a údržbou kódu.
Řada společností testuje agenty pro vývoj softwaru. Na vrcholu žebříčku SWE-bench, který měří skóre různých kódovacích agentů v různých úkolech, je jeden z Factory AI, startup, následovaný AutoCodeRover, open source záznam od týmu National University of Singapore. .
Do hry vstupují i velcí hráči. Dalším špičkovým nástrojem na SWE-bench je softwarový nástroj pro psaní nazvaný Amazon Q. „Vývoj softwaru je mnohem víc než pouhé psaní,“ říká Deepak Singh, viceprezident vývoje softwaru ve společnosti Amazon Web Services.
Dodává, že AWS používá agenta k překladu celých softwarových balíků z jednoho programovacího jazyka do druhého. „Je to, jako když vedle vás sedí opravdu chytrý inženýr, který s vámi píše a vytváří aplikaci,“ říká Singh. „Myslím, že je to docela transformační.“
Tým z OpenAI nedávno pomohl posádce z Princetonu zlepšit měřítko pro měření spolehlivosti a účinnosti nástrojů, jako je SWE-agent, což naznačuje, že společnost může také zdokonalovat agenty pro psaní kódu nebo provádění jiných úkolů na počítači.
Singh říká, že řada zákazníků již vytváří komplexní backendové aplikace pomocí Q. Moje vlastní experimenty s SWE-bench naznačují, že každý, kdo kóduje, bude brzy chtít používat agenty ke zlepšení své programátorské zdatnosti, jinak bude riskovat, že zůstane pozadu.
Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com