SME

Google sa naučil odčítať z pier, rozozná reč aj v hlučnom prostredí

Rozoznať prekrývajúce sa hlasy v rušnom prostredí bolo doteraz pre počítače problémom.

Google. Google. (Zdroj: SITA/AP)

BRATISLAVA. Výskumníkom zo spoločnosti Google sa podarilo vytvoriť systém, vďaka ktorému vedia počítače rozoznať hlasy v hlučnom prostredí. Jav známy ako kokteilový efekt, keď sa človek dokáže v hlučnom prostredí sústrediť na jednotlivé hlasy, je pre ľudí bežný.

Počítače, ktoré napríklad prepisovali hlasy zo zvukového záznamu do textu, však so sústredením sa na jeden hlas mali problém.

Výskumníci preto systém navrhli tak, aby pracoval na základe audiovizuálneho modelu. V štúdii predstavili technológiu, ktorá dokázala v bežných videách na sieti YouTube zvýrazniť rečový prejav konkrétnych ľudí, zatiaľ čo všetky ostatné zvuky sa stlmia. Prácu predstavili na Google Research Blog.

SkryťVypnúť reklamu
SkryťVypnúť reklamu
SkryťVypnúť reklamu
Článok pokračuje pod video reklamou
SkryťVypnúť reklamu
Článok pokračuje pod video reklamou

Od používateľa sa len vyžaduje, aby vo videu zvýraznil tvár človeka, ktorého chce počuť, alebo nechá systém, aby hlasy zvýrazňoval podľa toho, kto práve rozpráva.

Podľa Googlu je vizuálny podklad kľúčový, pretože technológia sleduje, čie ústa sa práve pohybujú a na základe toho vie, na koho sa má sústrediť a zvýrazniť rečový prejav. Spojenie zvuku a videa zaistí, že oddelenie reči je omnoho kvalitnejšie aj v prípade, keď sa prekrýva rečový prejav viacerých ľudí.

Výskumníci zozbierali najprv stotisíc vysokokvalitných videí prednášok a prejavov na YouTube. Z nich oddelili zvukové stopy čistej reči, bez zvukov v pozadí. Neurálna sieť tak mohla zistiť, kedy človek hovorí a ako vyzerá spektrogram, teda vizuálny záznam zvuku jeho reči.

Načítavam video...

Nakoniec "namiešali" dohromady rečový prejav a rôzne zábery pôvodných videí a pridali do pozadia šum.

SkryťVypnúť reklamu

Neurálnu sieť potom naučili rozpoznať v záberoch tváre jednotlivých ľudí a prečítať už celý spektrogram všetkých zvukov vo videu. Počítač tak dokázal oddeliť rečový prejav jednotlivých ľudí, vytvoriť individuálnu zvukovú stopu pre ich reč a zvýrazniť ju.

Google verí, že ich technológia sa uplatní pri strojovom prepisovaní záznamov, zlepší automatické titulkovanie vo videách, či pomôže aj pri videokonferenciách.

Načítavam video...

Google

Súvisiace témy: Umelá inteligencia
SkryťVypnúť reklamu

Najčítanejšie na SME Tech

SkryťVypnúť reklamu
SkryťVypnúť reklamu
SkryťVypnúť reklamu
SkryťVypnúť reklamu

Hlavné správy zo Sme.sk

Severokórejská fregata na satelitnom zábere firmy Maxar.

Bez Rusov by ju zrejme nepostavili.


9
Lokalita, v ktorej má vyrásť nový projekt.

Bratislava West Gate získala už druhé kladné stanovisko.


1
Demonštranti žiadali, aby Hamas odišiel z Pásma Gazy.

Hamas demonštrantov zastrašuje a vraždí.


a 4 ďalší 5
Dobré ráno Sobota so Zuzanou Kovačič Hanzelovou a Jakubom Filom.

Prezident Peter Pellegrini bol na svoje pomery neobvykle kritický voči svojim bývalým koaličným partnerom.


a 2 ďalší
SkryťZatvoriť reklamu