Počítač vyráta, čo hovoríme

Slovenská akadémia vied vyvíja program, ktorý dokáže v reálnom čase pretaviť reč do písma.

Vedúcim projektu, ktorý vyvíja rozpoznávač reči, je Milan Rusko.(Zdroj: SME - Tomáš Benedikovič)

Ján Ľupták, Ján Slota, Augustín Marián Húska či Katarína Tóthová. Aj títo známi bývalí i súčasní poslanci poslúžili vede. Zvukové nahrávky ich prejavov v pléne parlamentu a ich textové prepisy použili vedci zo Slovenskej akadémie vied a Technickej univerzity v Košiciach na vývoj rozpoznávača plynulej reči v slovenčine. Jeho úlohou je automaticky prepisovať hovorené slovo do textu súčasne s tým, ako je vyslovené.

Rozpoznávače reči sa používajú vo veľkých jazykoch ako angličtina, nemčina, japončina či čínština už roky. Slovenský rozpoznávač zatiaľ existuje iba ako experiment vedcov, no už o rok by z neho mala vzniknúť aj prvá verzia nasadená do praxe. Od SAV si ju objednalo ministerstvo spravodlivosti, ktoré chce cez rozpoznávač urýchliť prácu súdov.

Kým dnes sudcovia rozhodnutia diktujú do diktafónov a nahrávky neskôr prepisujú úradníci, po novom by mal mať každý sudca diktovaný text ihneď k dispozícii na obrazovke počítača. Podobné využitie je možné napríklad v medicíne, aby lekári nezabíjali čas písaním správ.

Zložitá slovenčina

Vymoženosť by iste ocenili aj novinári, ktorí musia často pri písaní článku spracovávať desiatky minút zvukových záznamov. Vedúci projektu Milan Rusko z Ústavu informatiky SAV však upozorňuje, že rozpoznávače sú zatiaľ vhodnejšie skôr pre odbory s užšou slovnou zásobou. „Čím väčšia slovná zásoba, tým zložitejšie výpočty a väčšie riziko omylu,“ vysvetľuje.

Všeobecné rozpoznávače sa zatiaľ využívajú najmä v angličtine. Vytvoriť spoľahlivú slovenskú verziu je oveľa náročnejšie, keďže slovenčina je ohybný jazyk a za samostatné slovo sa považuje každý jeho slovný tvar. Namiesto jedného anglického slova school tak v slovenčine existuje škola, školy, škole, školu, školou. Podobne v množnom čísle.

Pri bežnom používaní slovenčiny by tak rozpoznávač potreboval ovládať až 440-tisíc slov. Softvér, ktorý vedci nakŕmili zvukovými záznamami a ich prepismi z parlamentu, používa polovicu z toho.

Málo politikov

Parlament si vedci pri vývoji softvéru zvolili úmyselne. Všetky vystúpenia poslancov od roku 1994 sú totiž bezplatne k dispozícii v zvukovej i textovej forme. Pre vývoj softvéru je pritom najdôležitejšie práve vytvorenie rozsiahlych zvukových a textových databáz. Tie napĺňa zhruba tridsiatka vyškolených brigádnikov, súčasťou tímu sú aj dvaja jazykovedci.

Ani tisíce hodín rečnenia politikov však na vytvorenie kvalitného všeobecného rozpoznávača nestačia. „Všetky prejavy z parlamentu dokopy dávajú asi 80 megabajtov textov. My by sme potrebovali 80 gigabajtov, teda tisíckrát viac,“ hovorí Rusko.

Vedci preto softvér dopĺňajú aj rôznymi inými dostupnými dielami, na ktoré nie je copyright, alebo textami z internetu. Použiteľné však nie je čokoľvek. „Knihy v bernolákovskej slovenčine alebo Hviezdoslavova Hájnikova žena nie sú na zahrnutie do jazykového modelu vhodné, lebo dnes je ich reč už neaktuálna, mnohé slová a ich postupnosti sa už nepoužívajú,“ vraví Rusko.

Učenlivý program

Dôležité totiž nie sú len samotné slová, ale aj ich použitie v kontexte. Ako program funguje? Rozpoznávač môže pracovať online i offline. To znamená, že človek môže text cez mikrofón priamo diktovať alebo do počítača nahrať zvukový záznam. V prvom kroku softvér analyzuje zvuk, ktorý dostal. Ak zistí, že ide o reč, konkrétne slovenčinu, rozloží zvuk na malé časti o veľkosti desatiny hlásky. Tie porovnáva so zvukmi vo svojej akustickej databáze. Navrhne najpravdepodobnejší prepis zvukov a ten zas porovná so svojou textovou databázou. Výsledkom sú jednotlivé slovenské slová.

Tým sa však proces nekončí. Nastupuje analýza pravdepodobnosti výskytu dvoch slov vedľa seba, potom troch vedľa seba. Slová nesediace v kontexte rozpoznávač opraví. To všetko sa musí diať súčasne, ako človek hovorí.

Pri využívaní obrovských akustických a jazykových databáz môže byť preto softvér mimoriadne náročný na výkon počítača.

Ani tým sa však ešte práca rozpoznávača nekončí. Ak má po skončení rozpoznávania k dispozícii zvukovú nahrávku i človekom opravený prepis, stav zdanlivej nečinnosti využíva na učenie a vyhodnocuje chyby, ktoré spravil.

Ak program pravidelne používa rovnaký človek, prispôsobuje sa aj jeho prejavu. Naučiť sa dokáže napríklad aj to, ako jednotlivé slová vyslovuje ráčkujúci rečník či človek so sykavkami.

Do siení sa nehodí

Program, ktorý by mali o rok začať využívať sudcovia, zatiaľ nezrýchli samotné pojednávania. Vyvinúť ho tak, aby dokázal kvalitne rozpoznávať slová viacerých rečníkov, ktorí sú v rôznych vzdialenostiach od mikrofónu a občas hovoria aj súčasne, je ešte vyšší vývojový stupeň. „Rôzne vzdialenosti by dokázali vyriešiť náhlavové alebo klopové mikrofóny pre všetkých rečníkov, čo by však pri množstve súdov bolo veľmi finančne náročné,“ hovorí Rusko.

Ďalším problémom je bezpečnosť, keďže v súdnych sieňach sa pracuje aj s nebezpečnými kriminálnikmi, ktorí by mohli káble použiť na škrtenie. Sudcovia by zas mikrofón upevnený na hlave mohli vnímať ako znižovanie vážnosti súdneho tribunálu.

„Najväčším problémom však ostáva rozpoznávanie paralelnej reči, tým sa v súčasnosti zaoberá množstvo skupín po celom svete,“ vraví Rusko.

Za prepisovaním banovať nebudem

Ako dnes vznikajú súdne dokumenty, hovorí asistentka senátu na občianskoprávnom úseku Krajského súdu v Trenčíne SILVIA ŠIŠOVSKÁ (36).

Ako sa píšu súdne rozhodnutia?
Sudcovia väčšinou rozhodnutia diktujú do diktafónu. Nám potom dajú kazetu, ktorú vložíme do prehrávača a nahrávku prepíšeme.

Kazetu?
Technológie sú už trochu morálne zastarané. Rozhodnutia sa stále nahrávajú na tú istú stopu a koľkokrát sa stáva, že počujem aj to, čo mala sudkyňa na kazete predtým.

Vyžaduje si táto práca špeciálne zručnosti?
Treba vedieť rýchlo písať všetkými desiatimi. Najmä na pojednávaniach nemôže sudca čakať, kým napíšem do zápisnice, čo diktuje. Mám štátnu skúšku zo strojopisu. Vyžaduje sa aj znalosť slovenského jazyka a gramatiky.

Koľkí to robíte?
Na súde máme štyri oddelenia - civilné, obchodné, správne a trestné, na ktorých pracuje šestnásť asistentiek.

Ako dlho trvá prepísať stranu?
Záleží, aká je to vec. Ak sú tam samé čísla parciel a metre štvorcové, je to dosť prácne. Včera som napríklad osemstranové rozhodnutie písala dve hodiny. V priemere však jedna strana trvá okolo desať minúť.

Čo hovoríte na to, že by túto prácu mal za vás robiť počítač?
Bolo by to úžasné, veľmi by nám to pomohlo.

Neprišli by ste o prácu?
Okrem prepisovania robíme aj dosť iných vecí, i keď prepisovanie nám zaberie najviac času. Takto by sme mali viac času venovať sa ostatnému a nemuseli by sme pracovať v strese a často na hrane termínov. Takže skôr by to urýchlilo konania.

Čo robíte okrem prepisov?
Celú administratívu. Na pojednávaniach zapisujeme ich priebeh, pripravujeme všetky rozhodnutia, uznesenia či predvolania. Od úradov či zamestnávateľov žiadame rôzne prípisy, máme na starosti celú spisovú agendu. Každé rozhodnutie treba skontrolovať, vytlačiť, rozmnožiť, opatriť pečiatkou, dať podpísať sudcovi, rozposlať a založiť.

Pri prepisoch aj vnímate, čo píšete?
Určite, text musí mať hlavu a pätu, treba dbať na správne skloňovanie, pravopis. Musíme si to preštudovať, aby sme vedeli, čo a od koho treba vyžiadať.

Ako dlho to robíte?
Štyri roky.

Nebude vám prepisovanie chýbať?
Isto nie, je to stereotyp. Človek celý deň sedí pri počítači, potom má problémy s chrbticou a bolia ho oči. Už sa na ten program teším.

Michal Piško

Najčítanejšie na SME Tech


Inzercia - Tlačové správy


  1. Naše Finančné Družstvo - projekt s vlastným riešením dôchodkov
  2. BonoPay - platobné služby a vernostný program v jednom
  3. Meškanie výstavby diaľnic brzdí ekonomiku aj stavebný sektor
  4. Legendárna Transsibírska magistrála
  5. Volkswagen a jeho štedrá nádielka modelov
  6. Venujte na Vianoce darček plný informácií!
  7. Týchto 18 rád ako ušetriť som mal počuť ešte pred osemnástkou
  8. Päť faktorov, prečo môže skolabovať slovenský dôchodkový systém
  9. Ceny elektriny rastú. Firmy ale môžu ušetriť
  10. Kam chodí Gordulič na vtipy? Ako sa rodí Grape? Zisti to sám
  1. BonoPay - platobné služby a vernostný program v jednom
  2. Naše Finančné Družstvo - projekt s vlastným riešením dôchodkov
  3. Meškanie výstavby diaľnic brzdí ekonomiku aj stavebný sektor
  4. Používate make-up? Potom spozornite
  5. Legendárna Transsibírska magistrála
  6. Auto ako vianočný darček, rastie záujem o zánovné vozidlá
  7. Vianočný bázar chalaňov
  8. Vianočné mecheche 2017
  9. Volkswagen a jeho štedrá nádielka modelov
  10. Študentskou osobnosťou Slovenska Ing. Martina Majorošová
  1. Legendárna Transsibírska magistrála 37 251
  2. Týchto 18 rád ako ušetriť som mal počuť ešte pred osemnástkou 5 233
  3. Päť faktorov, prečo môže skolabovať slovenský dôchodkový systém 3 003
  4. Volkswagen a jeho štedrá nádielka modelov 2 158
  5. Hyundai Kona prekvapí výbavou aj dizajnom 1 212
  6. Top First moment dovolenky na leto 2018 1 210
  7. Naše mobilné bankovníctvo si prišli vyskúšať novinári z Rakúska 1 144
  8. Kam chodí Gordulič na vtipy? Ako sa rodí Grape? Zisti to sám 1 115
  9. Venujte na Vianoce darček plný informácií! 974
  10. Týchto 8 kritérií by mal kvalitný kolagén spĺňať 890

Hlavné správy zo Sme.sk

DOMOV

Poórovi a jeho ľuďom sa za posledný rok v trnavskej nemocnici darilo

Firmy s väzbami na trnavského podnikateľa dodávajú nemocnici palivo, servisujú počítače a riadia tendre.

KOMENTÁRE

Fico to zabalil, s horúcou kávou si nebude páliť prsty

Aká neopätovaná je náklonnosť kaviarne k Smeru – tam ju predsa nik nemiluje!

Denník SME s knihou Róberta Bezáka

Denník SME pripravil pre vás v utorok 19. decembra špeciálne vydanie.

KULTÚRA

Najškaredšia modelka na svete sa dočkala vlastného filmu

Madame slúžka je netypická francúzska komédia.

Neprehliadnite tiež

Rozlúštili metánový paradox oceánov

Produkciu silného skleníkového plynu zvyšujú rozšírené baktérie žijúce pri hladine.

Sojuz s tromi astronautmi na palube vyštartoval k ISS

Kozmická loď štartovala z Kazachstanu, s Medzinárodnou vesmírnou stanicou by sa mala spojiť v utorok.

OBJEKTÍV

Spojené štáty odtajnili ďalšie desiatky videí z testov jadrových bômb

Niektoré kamery zachytili výbuch v rýchlosti 2400 snímkov za sekundu.

Ako sa nepohádať cez Vianoce a presvedčiť popieračov vedy

Skúste sa zdržať okamžitého menovania a faktov a radšej porozumejte, prečo sa tak ľudia cítia.

TECH_FM

Mimozemská loď? Pri čudnom objekte pochybujú aj vedci

Cez našu slnečnú sústavu preletelo teleso, ktoré prišlo z veľkej diaľky.