OpenAI uvedlo multimodální ChatGPT-4o, který lépe rozumí textu, zvuku i obrazu

15.5.2024, Milan Šurkala, aktualita

Oblíbený chatbot OpenAI ChatGPT se dostává do nové verze nazvané ChatGPT-4o nebo ChatGPT-4 Omni. Ta je multimodální, rozumí tedy více druhům vstupů a podstatně rychleji je zpracovává. Podporuje text, obraz i zvuk.

OpenAI uvedlo novou verzi svého chatbota ChatGPT-4o (ChatGPT-4 Omni) na modelu GPT-4o. Tato nová verze vylepšuje zejména odezvy a to, že jde o multimodální systém schopný lépe a rychleji zpracovávat různé typy vstupů. Poradí si s textem, zvukem i obrazem a všechny tyto složky vzájemně kombinovat dohromady. Na zvukové vstupy dokáže zareagovat už za 232 ms (průměrně 320 ms), což je srovnatelné s lidmi. Dobré je, že tento model je dostupný i zdarma a přijde na iOS, Android i do desktopových aplikací (nejprve bude dostupná verze pro macOS, později se objeví i verze pro Windows). Na webu je už dostupný pro platící uživatele, nicméně dostupný může být také vybraným lidem v bezplatném režimu.

Umožněno je tak např. uploadovat obrázky a nechat chatbota na ně reagovat. Funguje to překvapivě dobře, i když stále ne dokonale. Vyzkoušel jsem to např. na základě vloženého grafu, kde správně identifikoval průsečíky s osami, poskytl i správné vysvětlení složených funkcí v souvislosti s oním grafem, nicméně poslední výsledek už byl bohužel chybně, ačkoli vysvětlení postupu bylo správně. S matematikou měl i dále trochu problémy. Pro vysvětlení konceptu funguje velmi dobře, dobře i rozpoznává text a obrázky na snímcích, ale občas z toho kouzlí nesmysly.

Pokrok je vidět i v tom, jak chatbot reaguje a intonuje, toto vše je mnohem bližší lidské mluvě. Chichotá se, dělá pauzy a další v lidské řeči obvyklé prvky včetně toho, že přestane odpovídat, pokud je přerušen. OpenAI zveřejnilo i několik videí, kde jde vidět, jak chatbot pracuje. V prvním ho moderátor vyzve k popisu scény z kamery, načež ji dobře popíše a odhadne, o co se jedná.

Ve druhém videu muž nechá dva chatboty mluvit mezi sebou, a dokonce i zpívat, i když tady to chvíli trvalo, než přinutil oba chatboty spolupracovat mezi sebou a vykouzlit alespoň trochu synchronizovaný zpěv na vymyšlenou píseň (ale i tak to ještě nebylo dokonalé). Třetí video pak ukazuje překlad z angličtiny do italštiny a zpět v reálném čase.

Zdroj: gizmochina.com, techspot.com, techradar.com