Apple vyvíjí nové přístupy k AI, aby komplexní LLM běžely i na iPhonu

27.12.2023, Milan Šurkala, aktualita

Apple hodlá dohnat své trestuhodné zaostávání v oblasti umělé inteligence a vyvíjí nové modely, např. Ajax. Současně s tím ale přichází i se dvěma novými přístupy, které mají umožnit běh těchto obřích LLM na zařízeních, jako je iPhone.

Umělá inteligence si razí cestu do našich životů a v jednoduchých formách ji známe už i z telefonů. Společnost Apple sice byla u zrodu prvních digitálních asistentů, které sice ještě vyloženě umělou inteligencí nebyly, ale její Siri byla přesto ve své době průlomem. Nicméně od té doby uplynulo už hodně času a konkurenční metody nyní využívají pokročilejších algoritmů AI, což významně posouvá schopnosti takových asistentů. Siri je tak dnes spíše ostudou. Víme však, že Apple vyvíjí nové pokročilé modely (LLM), přičemž zákulisní informace hovoří o modelu Ajax, který je také přezdíván Apple GPT. Velkou otázkou však je, jak dostat pokročilou a co nejschopnější variantu modelu na zařízení, jakým je např. MacBook nebo iPhone. Vědecký článek "LLM in a flash: Efficient Large Language Model Inference with Limited Memory" napovídá, jak by toho bylo možné dosáhnout.

Zásadním problémem je to, že pokročilé LLM zabírají spoustu místa a nevejdou se do paměti RAM. Třeba jen LLM s pouhými 7 miliardami parametrů si vezme 14 GB paměti, což dalece přesahuje kapacitu RAM iPhonů i většiny MacBooků. Apple však přišel na to, jak rozběhat na zařízeních LLM, které jsou kapacitně 2krát větší než velikost paměti RAM daného zařízení.

První optimalizací je tzv. "windowing", kdy načítá do paměti jen část parametrů (okno) a snaží se využívat (recyklovat) aktivace z předešlých tokenů. Toto klouzavé okno snižuje počet I/O přístupů, neboť LLM se i při běhu primárně ukládá ve Flash paměti (úložišti) a ne RAM. Druhou pomocnou metodou je "row-column bundling", přičemž v tomto případě se optimalizuje načítání dat tím, že se díky jiné struktuře dat načítají potřebné řádky a sloupce dané oblasti ve větších jednorázových přesunech. Podle Applu tak může běžet 2krát tak větší LLM, než je kapacita paměti RAM zařízení, a to 4-5krát rychleji v případě vyhodnocování (inferenci) na CPU, a dokonce 20-25krát rychleji na GPU. Toto bylo testováno na různých noteboocích Apple MacBook.

Nyní je otázkou, nakolik to umožní běh LLM i na iPhonech, nicméně ty mají s MacBooky stejnou architekturu, takže by to technicky neměl být problém. Nyní je na místě se ptát, zda se pokročilé LLM nezasadí o to, že se zařízením Applu navzdory těmto paměťovým optimalizacím konečně zvětší paměť RAM (to by potřebovaly zejména základní MacBooky, nicméně iPhony nemají o nic větší paměť, tam to alespoň není taková ostuda) a také úložiště, aby bylo vůbec kam nahrávat příslušné LLM (to by potřebovaly především iPhony, tam by se už opravdu chtělo zbavit 128GB modelů a jestli na zařízení mají být LLM s 10GB+, bude něco takového potřeba). Další nezodpovězenou otázkou je, jak se časté přenosy dat Flash-RAM projeví na životnosti úložišť v těchto mobilních zařízeních.

Zdroj: macrumors.com, arstechnica.com