reklama
Aktuality  |  Články  |  Recenze
Doporučení  |  Diskuze
Grafické karty a hry  |  Procesory
Storage a RAM
Monitory  |  Ostatní
Akumulátory, EV
Robotika, AI
Průzkum vesmíru
Digimanie  |  TV Freak  |  Svět mobilně

Meta ImageBind: generativní AI, která dokáže spojit 6 různých typů dat

18.5.2023, Milan Šurkala, aktualita
Meta ImageBind: generativní AI, která dokáže spojit 6 různých typů dat
Společnost Meta představila zajímavý systém generativní AI, který je nazvaný ImageBind. Nejzajímavější je na něm to, že dokáže dávat dohromady až 6 různých typů dat, spojovat audio s obrazem, textem a dalšími.
Generativní AI je v posledních měsících velkým tématem. Společnost Meta je jednou z těch, které se snaží o vývoj nových systémů a open-source projekt ImageBind je jedním, který si jistě zaslouží pozornost. Zatímco většina systémů kombinuje jeden nebo dva typy dat (z textu vytváří text - ChatGPT, z textu vytváří obraz - DALL-E,...), ImageBind dokáže spojovat až 6 různých domén dohromady. Více se tak má přibližovat tomu, jak funguje člověk. Ten třeba z obrázku auta dokáže odhadnout, jaký bude vydávat zvuk, na základě obrázku si představí, jaká je v daném prostředí zima nebo teplo, podle popisu si představí obrazovou scénu a podobně.
 
Meta ImageBind
 
V případě ImageBindu tu máme spojení dat poskytnutých nejen formou textu, obrazu/videa a audia, ale také daty ze senzorů hloubky (různých forem 3D kamer), teplotních senzorů (infračervené záření) a dokonce i z dat zrychlení a pohybu (IMU). Díky tomu dokáže odhadnout to, jak budou objekty znít, vypadat ve 2D i 3D, jak teplé nebo studené jsou, a také to, jak se pohybují. Tento multimodální systém je open-source a vyzývá další vývojáře k vývoji nových systémů schopných vytvářet "pohlcující virtuální světy".
 
Meta ImageBind
 
Díky systému by mělo být možné rozpoznávat vlastnosti objektů i v dalších doménách, nicméně to nemusí být vždy snadné. Zatímco např. hloubková a teplotní data mnohdy spolu často různým způsobem korelují, nevizuální typy jsou na tom hůře (např. audio a pohyb mají tuto korelaci o něco slabší).
 


Autor: Milan Šurkala
Vystudoval doktorský program v oboru informatiky a programování se zaměřením na počítačovou grafiku. Nepřehlédněte jeho seriál Fotíme s Koalou o základech fotografování.
reklama