Rozeznávání řeči "na čipu" do 3 let

16.9.2004, Petr Hájek, článek

US National Science Foundation přidělila milionový grant výzkumníkům, kteří plánují přenést proces rozeznávání mluvené řeči na čip, což má dle zastánců projektu zrevolucionizovat některé způsoby naší, lidské komunikace. Prvního nasazení se máme dočkat ve "vážných" oblastech, další komercializace úspěšných výsledků se ale dá předpokládat.

Projekt povede Rob Rutenbar profesor elektrické a počítačové techniky na Carnegie Mellon University. Výzkum to bude natolik rozsáhlý, že druhá jeho část bude souběžně probíhat na University of California v Berkeley.

V dnešní době je rozeznávání mluveného slova pouze na softwarové úrovni a jeho přesnost značně kolísá podle toho, co od systému rozeznáváním řeči vybaveného chcete. Porovnání zachyceného příkazu s dříve nahrátými rozkay je záležitost řádově triviálnější, než pokus vytvořit systém, který dokáže odříznout a pochopit konverzaci v místnosti, kde mluví několik hlasů. Profesor Rutenbar to shrnuje: "Mohu říci svému mobilnímu telefonu "zavolej matce," ale už mu nemůžu nadiktovat třeba emailovou stížnost pro cestovní kancelář." Ke zpracování libovolné řeči je třeba velice výkonného a tím pádem i hladového procesoru, ale, jak profesor doplňuje: "Nacpat Pentium do mobilního přístroje nebo například do nějaké helmy, baterie by vydržely tak 10 minut."

A to se již dostáváme k místu, odkud projekt vytvoření čipu rozeznávajícího řeč začíná. Pro začítek výzkumníci vychází z předpokladu, že abychom udělali v rozeznávání řeči skutečný průlom, bude nejrozumnější obrátit se na jednoúčelový procesor, cílem týmu tedy bude vytvořit procesorovou architekturu, která bude speciálně vyladěna pouze na tento problém a mohla by dosáhnout oproti běžnému procesoru až 100 - 1000 větší efektivity při zpracování.

Vědci samozřejmě nedostali milionový grant proto, aby si lidé mohli doma ve vaně diktovat emaily, místa a způsoby nasazení jsou mnohem vážnějšího charakteru a míří směrem k pohotovostním složkám a bezpečnostním organizacím.

Vědci předpokládají, že architektura bude kompletní během příštích 2 - 3 let.

Zdroj: The Register

V dnešní době je rozeznávání mluveného slova pouze na softwarové úrovni a jeho přesnost značně kolísá podle toho, co od systému rozeznáváním řeči vybaveného chcete. Porovnání zachyceného příkazu s dříve nahrátými rozkay je záležitost řádově triviálnější, než pokus vytvořit systém, který dokáže odříznout a pochopit konverzaci v místnosti, kde mluví několik hlasů. Profesor Rutenbar to shrnuje: "Mohu říci svému mobilnímu telefonu "zavolej matce," ale už mu nemůžu nadiktovat třeba emailovou stížnost pro cestovní kancelář." Ke zpracování libovolné řeči je třeba velice výkonného a tím pádem i hladového procesoru, ale, jak profesor doplňuje: "Nacpat Pentium do mobilního přístroje nebo například do nějaké helmy, baterie by vydržely tak 10 minut."

A to se již dostáváme k místu, odkud projekt vytvoření čipu rozeznávajícího řeč začíná. Pro začítek výzkumníci vychází z předpokladu, že abychom udělali v rozeznávání řeči skutečný průlom, bude nejrozumnější obrátit se na jednoúčelový procesor, cílem týmu tedy bude vytvořit procesorovou architekturu, která bude speciálně vyladěna pouze na tento problém a mohla by dosáhnout oproti běžnému procesoru až 100 - 1000 větší efektivity při zpracování.

Vědci samozřejmě nedostali milionový grant proto, aby si lidé mohli doma ve vaně diktovat emaily, místa a způsoby nasazení jsou mnohem vážnějšího charakteru a míří směrem k pohotovostním složkám a bezpečnostním organizacím.

Vědci předpokládají, že architektura bude kompletní během příštích 2 - 3 let.

Zdroj: The Register