SME
Pondelok, 25. január, 2021 | Meniny má GejzaKrížovkyKrížovky

Google sa naučil odčítať z pier, rozozná reč aj v hlučnom prostredí

Rozoznať prekrývajúce sa hlasy v rušnom prostredí bolo doteraz pre počítače problémom.

Google. Google. (Zdroj: SITA/AP)

BRATISLAVA. Výskumníkom zo spoločnosti Google sa podarilo vytvoriť systém, vďaka ktorému vedia počítače rozoznať hlasy v hlučnom prostredí. Jav známy ako kokteilový efekt, keď sa človek dokáže v hlučnom prostredí sústrediť na jednotlivé hlasy, je pre ľudí bežný.

Počítače, ktoré napríklad prepisovali hlasy zo zvukového záznamu do textu, však so sústredením sa na jeden hlas mali problém.

Výskumníci preto systém navrhli tak, aby pracoval na základe audiovizuálneho modelu. V štúdii predstavili technológiu, ktorá dokázala v bežných videách na sieti YouTube zvýrazniť rečový prejav konkrétnych ľudí, zatiaľ čo všetky ostatné zvuky sa stlmia. Prácu predstavili na Google Research Blog.

Skryť Vypnúť reklamu

Od používateľa sa len vyžaduje, aby vo videu zvýraznil tvár človeka, ktorého chce počuť, alebo nechá systém, aby hlasy zvýrazňoval podľa toho, kto práve rozpráva.

Podľa Googlu je vizuálny podklad kľúčový, pretože technológia sleduje, čie ústa sa práve pohybujú a na základe toho vie, na koho sa má sústrediť a zvýrazniť rečový prejav. Spojenie zvuku a videa zaistí, že oddelenie reči je omnoho kvalitnejšie aj v prípade, keď sa prekrýva rečový prejav viacerých ľudí.

Výskumníci zozbierali najprv stotisíc vysokokvalitných videí prednášok a prejavov na YouTube. Z nich oddelili zvukové stopy čistej reči, bez zvukov v pozadí. Neurálna sieť tak mohla zistiť, kedy človek hovorí a ako vyzerá spektrogram, teda vizuálny záznam zvuku jeho reči.

Načítavam video...

Nakoniec "namiešali" dohromady rečový prejav a rôzne zábery pôvodných videí a pridali do pozadia šum.

Skryť Vypnúť reklamu

Neurálnu sieť potom naučili rozpoznať v záberoch tváre jednotlivých ľudí a prečítať už celý spektrogram všetkých zvukov vo videu. Počítač tak dokázal oddeliť rečový prejav jednotlivých ľudí, vytvoriť individuálnu zvukovú stopu pre ich reč a zvýrazniť ju.

Google verí, že ich technológia sa uplatní pri strojovom prepisovaní záznamov, zlepší automatické titulkovanie vo videách, či pomôže aj pri videokonferenciách.

Načítavam video...

Skryť Vypnúť reklamu

Najčítanejšie na SME Tech

Skryť Vypnúť reklamu
Skryť Vypnúť reklamu

Téma: Google

Prečítajte si aj ďalšie články k téme
Článok je zaradený aj do ďalších tém
Umelá inteligencia
Skryť Vypnúť reklamu
Skryť Vypnúť reklamu

Hlavné správy zo Sme.sk

Peter Kovařík.

Hamrana odporučilo len šesť poslancov výboru.

1 h
Vakcínou proti covidu by sa malo na Slovensku očkovať od 27. decembra.

Protilátky nezneutralizovali vírus dostatočne.

3 h
Zuzana Kepplová.

Fico sa snaží, aby jeho sympatizanti udalostiam rozumeli čo najmenej.

1 h
Prehliadku Scandi v pondelok 25. januára otvorí dokument o aktivistke Grete Thunbergovej – Greta.

Dokument uvádza prehliadka Scandi.

1 h

Neprehliadnite tiež

Digitálna rekonštrukcia Psittacosaura ilustruje, ako zviera využívalo kloaku na signalizáciu počas dvorenia.

Vedci našli zachovanú kloaku.

3 h
Desiatky robotických postavičiek Robi, ktoré si mohli zostrojiť čitatelia japonského časopisu DIY. 34-centimetrov vysoký a jeden kilogram vážiaci robot Robi rozpoznáva vyše 200 japonských fráz, dokáže chodiť, tancovať, behať a hrať futbal.

Roboty sa na ľudí začali podobať.

6 h
Demänovská jaskyňa Slobody

V tomto roku uplynie 100 rokov od objavenia Demänovskej jaskyne slobody.

8 h
Na fotografii je možné vidieť úkaz slnečnej korony na oblohe.

Ide o piatu zverejnenú fotografiu Tomáša Slovinského.

8 h