GPT-4 se v průběhu času stává hloupějším a hloupějším, GPT-3.5 naopak
31.7.2023, Milan Šurkala, aktualita
Vědci ze Stanford Univerzity a UC Berkeley se podívali na vývoj schopností LLM GPT-3.5 a GPT-4 a došli k zajímavému záběru. Nový systém se nezlepšuje, ale právě naopak, je stále hloupější a hloupější.
LLM (Large Language Model) jako GPT-3.5 a GPT-4 jsou základem mnoha chatbotů. Asi nejznámějším je ChatGPT, existují jich ale stovky, ne-li tisíce. Umělá inteligence by se nicméně měla časem vyvíjet a stávat lepší a lepší. Vědci ze Stanford Univerzity a UC Berkeley se proto podívali, zda je tomu skutečně tak a zda se schopnosti chatbotů v průběhu času zlepšují nebo ne. Ve studii, kterou zpracovali, však došli k zarážejícím výsledkům, které ale odpovídají subjektivním pocitům uživatelů. Někteří např. říkají, že GPT-4 byl ze začátku jako Ferrari, ze kterého se stal starý otřískaný pickup. Studie to potvrzuje. Schopnosti GPT-4 se totiž poslední dobou hodně zhoršují.
Celkově zkoumali 4 oblasti a v téměř všech GPT-4 v červnu 2023 poskytoval horší odpovědi než v březnu 2023. Nejmarkantnější to bylo v oblasti řešení matematických problémů. Tam v březnu dosahoval vynikající přesnosti 97,6 %, zatímco původní GPT-3.5 byl v podstatě nepoužitelný s pouhými 7,4 %. Nyní se ale karta obrátila a GPT-4 klesl na pouhopouhých 2,4 %. Na matematické úlohy se tak z téměř bezchybného systému stalo něco, co jen zázrakem podá správnou odpověď. Naproti tomu GPT-3.5 se z nepoužitelného systému stal velmi dobře fungujícím s 86,8% úspěšností. Příkladem byla např. otázka, zda je 17077 prvočíslem. GPT-4 v březnu správně odpověděl a podal i správné vysvětlení, v červnu řekl jen nesprávné "ne". GPT-3.5 v březnu podal rozumné vysvětlení, byť docela krátké se správným slovním závěrem, ale překvapivě nesprávnou finální odpovědí odporující slovnímu závěru ve vysvětlení, v červnu už podal komplexní a detailní správnou odpověď. Ostatně i průměrná délka odpovědi se u GPT-4 zkrátila z 821,2 znaků na 3,8.
U citlivých otázek byly březnové výsledky 21 % pro GPT-4 a jen 2 % pro GPT-3.5. I zde ale v průběhu čtvrt roku došlo k tomu, že se GPT-3.5 stalo lepším než GPT-4. V případě nové verze výkon klesl na pouhých 5 %, zatímco starší varianta si polepšila na 8 %. LLM by na takové citlivé dotazy v podstatě ani neměly podávat přímé odpovědi, jenže zatímco GPT-4 v březnu detailně vysvětlovalo, proč to nejde a co je na otázce problematické (průměrně 600 znaků), v červnu už jen uživatele obvykle odmítalo s krátkou, nic moc nevysvětlující omluvou (140 znaků v průměru).
U generování zdrojového kódu dával GPT-4 poměrně dobré výsledky na jaře s 52 %, zatímco GPT-3.5 měl jen 22 %. O tři měsíce později oba systémy spadly, a to na 10 %, resp. 2 %. Oba systémy o něco prodloužily své odpovědi, nicméně spustitelnost kódu klesla. Zde ale studie udělala jeden problematický krok, protože za spustitelné považovala jen to, když šla spustit celé odpověď včetně komentářů. Oba systémy totiž do většiny odpovědí přidaly název jazyka a tři tečky nakonec, což kód udělalo nespustitelným. Otázkou je, jak by se to lišilo, kdyby byly odpovědi vyzkoušeny bez toho.
Ve vizuálních úlohách se nic zásadního nezměnilo. Zde GPT-4 s 24,6 % bylo v březnu lepší než GPT-3.5 s 10,3 % a oba dva systémy se v červnu lehce zlepšily (první na 27,4 %, druhý na 12,2 %), oba také v průměru lehce prodloužily své odpovědi.