Umělá inteligence se nyní snaží tvořit z fotografií videa
12.9.2016, Jan Vítek, aktualita
Pokud předložíte fotografii člověku, pak ten, pokud není zcela bez představivosti, dokáže předpovědět, co dalšího se v zachycené scéně může stát, například že čekající vlak na peróně se rozjede. Nyní se o to snaží i počítače.
Za těmito snahami napodobit lidskou představivost se počítače snaží díky hlubokému učení a rovnou ukazují, jaké jejich představy jsou. Pokud rozpoznají někoho sedícího na bicyklu, tak vědí, že ten nejspíše pojede směrem, kterým se dívá. Pes a letící frisbee na jedné fotografii by zase mělo vyústit ve scénu psa chytajícího talíř do tlamy a tak podobně.
Za touto lidskou schopností přitom stojí především léta zkušeností a nabírání znalostí, takže i počítač potřebuje vědět, že třeba vlak je dopravní prostředek, který se dokáže pomalu rozjet po kolejích, co dělají vlny u pobřeží, takže potřebuje celou studnici vědomostí, které si dokáže spojit s rozpoznaným obrazem. První výsledky ukázané ve formě kratinkých gifů jsou spíše rozpačité a vypadají jako nepovedený morfing, však jde také o rané pokusy. Rozhodně je ale na nich vidět, že počítač zjistil, co na fotografiích je a co to umí.
A jak byl počítač trénován? Jako obvykle "tunami" materiálu, a to konkrétně dvěma miliony videí z Flickeru, které byly tematicky vybrány, aby zapadaly do jedné za čtyř kategorií: lidé/zvířata pohybující se na trávě, pláže, nádraží a porodnice plné dětí. Aby to počítač neměl příliš těžké, tak videa byla dodatečně stabilizována, aby se obraz neklepal. Počítač se tak z nich učil a pak dokázal jednak z opravdových fotografií tvořit videa, nebo spíše krátké animace (viz nahoře) a pak dokázal i tvořit zcela vlastní rozpohybované scény, na nichž už je vidět, že ani jejich základ moc neodpovídá realitě (viz dole). Rozpohybované je můžete vidět zde.
Prvotní výsledky jsou tak celkem slibné a výsledný systém se může stát předchůdcem toho, co je známo jako prediktivní počítače, které budou schopny předpovídat budoucí události. Nelze si tak nevzpomenout na Asimovu psychohistorii nebo nověji na film Minority Report.
Zdroj: The Verge
Za touto lidskou schopností přitom stojí především léta zkušeností a nabírání znalostí, takže i počítač potřebuje vědět, že třeba vlak je dopravní prostředek, který se dokáže pomalu rozjet po kolejích, co dělají vlny u pobřeží, takže potřebuje celou studnici vědomostí, které si dokáže spojit s rozpoznaným obrazem. První výsledky ukázané ve formě kratinkých gifů jsou spíše rozpačité a vypadají jako nepovedený morfing, však jde také o rané pokusy. Rozhodně je ale na nich vidět, že počítač zjistil, co na fotografiích je a co to umí.
A jak byl počítač trénován? Jako obvykle "tunami" materiálu, a to konkrétně dvěma miliony videí z Flickeru, které byly tematicky vybrány, aby zapadaly do jedné za čtyř kategorií: lidé/zvířata pohybující se na trávě, pláže, nádraží a porodnice plné dětí. Aby to počítač neměl příliš těžké, tak videa byla dodatečně stabilizována, aby se obraz neklepal. Počítač se tak z nich učil a pak dokázal jednak z opravdových fotografií tvořit videa, nebo spíše krátké animace (viz nahoře) a pak dokázal i tvořit zcela vlastní rozpohybované scény, na nichž už je vidět, že ani jejich základ moc neodpovídá realitě (viz dole). Rozpohybované je můžete vidět zde.
Prvotní výsledky jsou tak celkem slibné a výsledný systém se může stát předchůdcem toho, co je známo jako prediktivní počítače, které budou schopny předpovídat budoucí události. Nelze si tak nevzpomenout na Asimovu psychohistorii nebo nověji na film Minority Report.
Zdroj: The Verge