SME
Utorok, 27. október, 2020 | Meniny má SabínaKrížovkyKrížovky

Google sa naučil odčítať z pier, rozozná reč aj v hlučnom prostredí

Rozoznať prekrývajúce sa hlasy v rušnom prostredí bolo doteraz pre počítače problémom.

Google. Google. (Zdroj: SITA/AP)

BRATISLAVA. Výskumníkom zo spoločnosti Google sa podarilo vytvoriť systém, vďaka ktorému vedia počítače rozoznať hlasy v hlučnom prostredí. Jav známy ako kokteilový efekt, keď sa človek dokáže v hlučnom prostredí sústrediť na jednotlivé hlasy, je pre ľudí bežný.

Počítače, ktoré napríklad prepisovali hlasy zo zvukového záznamu do textu, však so sústredením sa na jeden hlas mali problém.

Výskumníci preto systém navrhli tak, aby pracoval na základe audiovizuálneho modelu. V štúdii predstavili technológiu, ktorá dokázala v bežných videách na sieti YouTube zvýrazniť rečový prejav konkrétnych ľudí, zatiaľ čo všetky ostatné zvuky sa stlmia. Prácu predstavili na Google Research Blog.

Skryť Vypnúť reklamu

Od používateľa sa len vyžaduje, aby vo videu zvýraznil tvár človeka, ktorého chce počuť, alebo nechá systém, aby hlasy zvýrazňoval podľa toho, kto práve rozpráva.

Podľa Googlu je vizuálny podklad kľúčový, pretože technológia sleduje, čie ústa sa práve pohybujú a na základe toho vie, na koho sa má sústrediť a zvýrazniť rečový prejav. Spojenie zvuku a videa zaistí, že oddelenie reči je omnoho kvalitnejšie aj v prípade, keď sa prekrýva rečový prejav viacerých ľudí.

Výskumníci zozbierali najprv stotisíc vysokokvalitných videí prednášok a prejavov na YouTube. Z nich oddelili zvukové stopy čistej reči, bez zvukov v pozadí. Neurálna sieť tak mohla zistiť, kedy človek hovorí a ako vyzerá spektrogram, teda vizuálny záznam zvuku jeho reči.

Načítavam video...

Nakoniec "namiešali" dohromady rečový prejav a rôzne zábery pôvodných videí a pridali do pozadia šum.

Skryť Vypnúť reklamu

Neurálnu sieť potom naučili rozpoznať v záberoch tváre jednotlivých ľudí a prečítať už celý spektrogram všetkých zvukov vo videu. Počítač tak dokázal oddeliť rečový prejav jednotlivých ľudí, vytvoriť individuálnu zvukovú stopu pre ich reč a zvýrazniť ju.

Google verí, že ich technológia sa uplatní pri strojovom prepisovaní záznamov, zlepší automatické titulkovanie vo videách, či pomôže aj pri videokonferenciách.

Načítavam video...

Skryť Vypnúť reklamu

Najčítanejšie na SME Tech

Skryť Vypnúť reklamu
Skryť Vypnúť reklamu

Téma: Google

Prečítajte si aj ďalšie články k téme
Článok je zaradený aj do ďalších tém
Umelá inteligencia
Skryť Vypnúť reklamu
Skryť Vypnúť reklamu

Hlavné správy zo Sme.sk

Vláda si tlieska. Testy však mnohých neodhalili, varujú experti

Falošne zdravých považuje za problém aj minister Krajčí.

Premiér Igor Matovič a minister zdravotníctva Marek Krajčí.
Podcast Dobré Ráno.
KOMENTÁR PETRA TKAČENKA

Čo vám zabudli povedať o testovaní

Zatlieskali sme si a teraz k faktom.

Peter Tkačenko

Navrhli odvolať rektora STU Fikara, na rokovaní bola polícia

Akademici si odhlasovali koniec Miroslava Fikara.

Rektor Slovenskej technickej univerzity (STU) Miroslav Fikar.

Neprehliadnite tiež

Južný pól Mesiaca. V tejto oblasti má v roku 2024 pristáť misia Artemis III.

NASA predstavila nový objav, na povrchu Mesiaca je voda

Zistenie môže mať význam pre misie ľudí.

Mesiac z Medzinárodnej vesmírnej stanice.

Najlepší lacný mobil do dvesto eur (jeseň 2020)

Je lepšie Lenovo, Huawei alebo Xiaomi?