Nvidia Tegra 2: budoucnost smartphonů a tabletů

12.1.2011, Petr Štefek, technologie

Nvidia Tegra 2 je novinkou pro zbrusu nové smartphony a tablety, kde má ambice přinést dosud nevídaný výkon. Můžeme se těšit dual-core telefony nebo tablety umožňující přehrávání full HD videa nebo hraní her.

Kapitoly článku:

Nvidia Tegra 2: budoucnost smartphonů a tabletů
ARM Cortex A9 - nová architektura
GeForce ULV, Video a akcelerace Flash
Tegra Zone - optimalizované aplikace komerčně
Závěr

The GeForce ULV GPU

Tegra 2 je pokročilá SoC platforma, takže zde nemůže chybět integrované GPU, které zastupuje GeForce ULV. Nehledejme zde ale nějakou unifikovanou architekturu známou z desktopových grafických karet. GeForce ULV integruje 8 výpočetních ALU, kde je polovina z nich (4) vyhrazena pro vertex shadery a druhá polovina pro pixel shadery. Jelikož jsme již tak trochu předpověděli vývoj GPU pro segment malým mobilních zařízení, tak jen připomene, že jejich architektura a výkony se budou v čase sbližovat se svými desktopovými protějšky.

4 vertex shaderové procesory (ALU) mohou za jeden takt vykonat 4 MADD operace a to samé platí i u čtveřice pixel shaderových procesorů, kde také každá z nich zvládne MADD operaci za takt, takže výsledku zde máme opět 4. Celkově zvládne GPU zpracovat v rámci WARP (seskupení určitého počtu vláken v shaderu) 4 vlákna, kde každé reprezentuje jeden pixel.

Neznamená to ovšem, že by GeForce ULV bylo nějak podstatně zastaralé, protože některé technologie najdeme v současných generacích desktopových GPU. GeForce ULV např. disponuje pixel cache, kterou najdeme u současné desktopové architektury Fermi. Tato pixel cache má za úkol zefektivnit práci s daty, zmenšit potřebu GPU komunikovat s hlavní pamětí. Na úsporu energie v mobilním sektoru slyší všichni integrátoři. Pokud data, s kterými se pracuje, udržíme pouze jádru akcelerátoru co možná nejdéle, pak se vyhneme nutnosti využívat externí rozhraní, které jsou podstatně náročnější na spotřebu energie než „on-die“ zdroje.

Ve svém návrhu GeForce ULV zohlednila Nvidia i vzdálenost matematických jednotek a register file, což dále přispívá k energetické úspornosti. Obecně platí, že čím blíže jsou spolupracující jednotky k sobě, tím je vliv na spotřebu energie větší (to samozřejmě naráží na problematiku designu samotných grafických jader). GeForce ULV je také vybavena funkcí, kdy lze dynamicky měnit frekvenci, na které zrovna pracuje v závislosti na potřebě výkonu. V minulých kapitolách jsme si řekli, že procesory ARM Cortex A9 disponují výrazně kratší pipeline, která by měla mít vliv na spotřebu. S délkou pipeline jde ruku v ruce i výsledná spotřeba. GeForce ULV je v tomto ohledu také „trendy“, neboť oproti svým desktopovým protějškům má méně než poloviční pipeline, což má opět pomoci k výrazné úspoře energie GPU.

Další velmi pokročilou technologii, kterou GeForce ULV disponuje, je Early Z Culling, což Nvidia implementovala v architektuře G80. Oproti desktopovému protějšku v podobě GeForce 8 dokáže zahodit šestnáctkrát více pixelů než GeForce ULV, ale v mobilním segmentu při nižších rozlišeních displejů a podstatně méně náročnějším aplikacím to bude dostačující. Early Z Culling najde uplatnění v různých případech, ale z těch nejznámějším mě napadá např. tvorba „blurred light maps“, kdy je na modelu vytvořen podstatně reálnější (měkčí) stín.

Pokud se ptáte, kde jsou tzv. ROPs alias renderovací jednotky, které známe z desktopových a notebookových grafických jader, tak u GeForce ULV jsou tyto jednotky integrovány do pixel shaderů. To znamená, že pro tyto operace využívá stejné výpočetních jednotky (ALU). Tento krok šetří velikost jádra, ale na druhou stranu zvyšuje nároky na řízení těchto jednotek. Výsledkem je tedy jedna textura nebo jedna ROP operace za takt.

Mimo jiné podporuje GeForce ULV i kompresi textur, ale už ne kompresi frame bufferu. GeForce ULV podporuje i vyhlazování a anizotropní filtrování. Najdeme zde algoritmy pro coverage sample anti-aliasing (podobné algoritmy pro vyhlazování najdeme u Radeonů HD nebo GeForce GTX). Anizotropní filtrování zde má více možných úrovní s obligátním maximem na 16.

Nvidia se svou GeForce ULV ale na trhu není samotná, a tak zde najdeme třeba PowerVR SGX 540 nebo Adreno 205 od Qualcommu. Na světě zatím nejsou žádné nezávislé benchmarky, které by nám pomohly udělat si obrázek o výkonech jednotlivých řešení, ale o menší přiblížení se mohou postarat materiály Nvidie, které hovoří o jasné výkonnostní výhodě GeForce ULV. Podle prvních zkušeností testerů, kteří měli zařízení k dispozici, je GeForce ULV o chlup výkonnější. Do konečného vyladění ovladačů a platforem ovšem zbývá ještě nějaký čas, a tak může vše dopadnout i jinak.

Tegra 2 využívá jednoho 32bitového LPDDR2 řadiče podporujícího paměti na frekvenci 600 MHz. Konkurenční produkt Texas Instruments OMAP 4 je vybaven dvojicí řadičů LPDDR2 32bit. Nvidia nám tento fakt vysvětluje tak, že důvod pro nasazení jediného řadiče je zřejmý, mobilní zařízení nepotřebuje více a také to přispěje k energetické úspornosti. Dual-channel rozhraní ale jistě přijde na řadu v některé z příštích generací mobilních GPU i u Nvidie.

Dekódování videa

Tegra 2 je moderní SoC zaměřený i na akceleraci HD videa a jeho možné přehrávání na externích zobrazovačích. Video dekodér dokáže akcelerovat formát H.264 o bitrate až 20 Mbps, což postačí pro všechny běžné záznamy. Při tomto bitrate je spotřeba Tegry okolo 400 mW, což je poměrně nízké a nemá to zatím jak doložit, jedná se totiž pouze o čísla z Nvidie. První zařízení s Tegrou 2 můžeme očekávat na našem trhu někdy v polovině tohoto roku, takže se budeme moci přesvědčit na vlastní kůži.

Integrovaný obrazový signální procesor

Integrovaný obrazový signální procesor nám v případě SoC Tegra 2 slouží ke zpracování dat přicházejících z externího obrazového snímače. Nvidia v tomto ohledu u Tegry 2 neponechala nic náhodě a ISP zde dokáže zpracovat až 12MP (mega pixel) při snímkové frekvenci 11 FPS. Běžné nahrávání Full HD videa je tedy naprosto bezproblémovou záležitostí při snímkové frekvenci okolo 25.

Akcelerace Flash

Důležitost akcelerace flashových aplikací je na pořadu dne nejen v segmentu klasických počítačů, ale také u smartphonů, které se svým využitím přibližují ke klasickým počítačům. Některé flashové aplikace jako přehrávače videa, hry a obsah webu obecně jsou poměrně náročné na výkon. Pokud chceme provozovat tyto aplikace bez omezení, pak tuto část nemůžeme nechat na procesorech pro běžné úkoly, jelikož nemají pro tyto účely dostatek výkonu.