reklama
Aktuality  |  Články  |  Recenze
Doporučení  |  Diskuze
Grafické karty a hry  |  Procesory
Storage a RAM
Monitory  |  Ostatní
Akumulátory, EV
Robotika, AI
Průzkum vesmíru
Digimanie  |  TV Freak  |  Svět mobilně

Na Stanfordu se pracuje na využití optiky pro rozpoznávání obrazu v AI systémech

21.8.2018, Jan Vítek, aktualita
Na Stanfordu se pracuje na využití optiky pro rozpoznávání obrazu v AI systémech
Opticko-digitální hybridní kamera ze Stanfordu existuje zatím jako neohrabaný prototyp, ale důležité je to, co umí. Jde o přepracování samotného způsobu snímání obrazu tak, aby vytvořil první vrstvu systému rozpoznávajícího objekty.
Dnešní systémy určené k rozpoznávání obrazu, které slouží třeba na palubách autonomních vozů, využívají běžnou optiku na běžných kamerách a zachycený obraz si až pak vezmou do prádla neuronové sítě vytrénované strojovým učením, které v něm rozpoznávají jednotlivé objekty. Výzkumníky ze Stanfordu přitom napadlo, že by se danému účelu mohly přizpůsobit už samotné kamery, aby pak už nebylo zapotřebí mít k dispozici tolik výkonu a vymysleli opticko-digitální hybridní kamery. 
 
 
Pustil se do toho odborný asistent Gordon Wetzstein a postgraduální studentka Julie Chang. Společně přišli s prototypem systému, který první vrstvu pro rozpoznávání objektu integruje přímo do hybridní optiky kamery, což znamená, že k tomu nebude potřeba žádný strojový čas navíc. Jde o spojení moderních poznatků spojených s umělou inteligencí, optikou a zpracováním obrazu a nejde zrovna o jednoduše popsatelný projekt. 
 
Aktuální systémy pro rozpoznávání objektů v obraze využívají vícevrstevné neurální sítě, jichž mohou být desítky, ale v jednodušších systémech třeba jen dva (Google QuickDraw). První vrstvy bývají obvykle konvoluční, což představuje proces, kdy se matice (kernel) využije pro zvýraznění oblastí, které jsou podobné jejímu vzoru. Typický systém má více matic, které hledají jisté vzory v obraze a tyto matice jsou postupně tvořeny trénováním neuronových sítí. Právě konvolučních sítí, které jsou náročné na strojový čas, se týká opticko-digitální kamera ze Stanfordu, která se snaží dělat to samé, ale optickou cestou, což autoři nazývají opticko-konvoluční vrstva (opt-conv layer). Pomocí tradiční optiky však nelze něco takového provést, a tak je obraz nejdříve pomocí Fourierovy transformace převeden na frekvenční vyjádření, což už umožní s ním pracovat v rámci konvoluční vrstvy, a to pomocí násobení frekvencí.
 
Ve výsledku jde o spojení třech technik. První je již zmíněná Fourierova transformace převádějící obraz na frekvence, z nichž zase můžeme zpětně dostat obraz. To se navíc děje pomocí optického systému s několika čočkami, který spadá to oblasti Fourierovy optiky a konkrétně se označuje jako 4f optical system.
 
4f optical system
 
V druhém kroku použijeme výsledek transformace a necháme jej projít skrz částečně neprůhledný povrch, což má mít stejný efekt jako konvoluční vrstva, přičemž můžeme spojit více kernelů do jednoho filtru, což napodobuje systém, který by normálně vytvořil vícekanálový výstup, akorát zde ekvivalent obsahuje výstupy v dlaždicích vedle sebe. 
 
 
Vytvořením kernelů tradičními technikami strojového učení se tak může vytvořit speciální filtr, který se využije právě ve 4f systému. Z toho vyplývá, že daný systém nemůže být dobře využit pro trénování sama sebe a je nutné k tomu využít simulaci, jejíž výsledek se použije pro vytvoření samotného "hardwaru". Tímto hardwarem je fázová maska, čili filtr s různou tloušťkou, který mění fázi světla, jež jím prochází. 
 

Účel je tedy zřejmý, a sice vytvořit optický systém, který značně usnadní a urychlí celkové zpracování obrazu pro rozpoznávání objektů. Aktuálně umí prototyp pracovat pouze s černobílým obrazem a je příliš velký, ale už nyní se pracuje na jeho rozšíření, aby mohl pracovat s barevným obrazem a také budou veškeré podklady a zdrojové kódy plně a volně k dispozici. 
 


reklama