SME

Google sa naučil odčítať z pier, rozozná reč aj v hlučnom prostredí

Rozoznať prekrývajúce sa hlasy v rušnom prostredí bolo doteraz pre počítače problémom.

Google. Google. (Zdroj: SITA/AP)

BRATISLAVA. Výskumníkom zo spoločnosti Google sa podarilo vytvoriť systém, vďaka ktorému vedia počítače rozoznať hlasy v hlučnom prostredí. Jav známy ako kokteilový efekt, keď sa človek dokáže v hlučnom prostredí sústrediť na jednotlivé hlasy, je pre ľudí bežný.

Počítače, ktoré napríklad prepisovali hlasy zo zvukového záznamu do textu, však so sústredením sa na jeden hlas mali problém.

Výskumníci preto systém navrhli tak, aby pracoval na základe audiovizuálneho modelu. V štúdii predstavili technológiu, ktorá dokázala v bežných videách na sieti YouTube zvýrazniť rečový prejav konkrétnych ľudí, zatiaľ čo všetky ostatné zvuky sa stlmia. Prácu predstavili na Google Research Blog.

SkryťVypnúť reklamu
SkryťVypnúť reklamu
SkryťVypnúť reklamu
Článok pokračuje pod video reklamou
SkryťVypnúť reklamu
Článok pokračuje pod video reklamou

Od používateľa sa len vyžaduje, aby vo videu zvýraznil tvár človeka, ktorého chce počuť, alebo nechá systém, aby hlasy zvýrazňoval podľa toho, kto práve rozpráva.

Podľa Googlu je vizuálny podklad kľúčový, pretože technológia sleduje, čie ústa sa práve pohybujú a na základe toho vie, na koho sa má sústrediť a zvýrazniť rečový prejav. Spojenie zvuku a videa zaistí, že oddelenie reči je omnoho kvalitnejšie aj v prípade, keď sa prekrýva rečový prejav viacerých ľudí.

Výskumníci zozbierali najprv stotisíc vysokokvalitných videí prednášok a prejavov na YouTube. Z nich oddelili zvukové stopy čistej reči, bez zvukov v pozadí. Neurálna sieť tak mohla zistiť, kedy človek hovorí a ako vyzerá spektrogram, teda vizuálny záznam zvuku jeho reči.

Načítavam video...

Nakoniec "namiešali" dohromady rečový prejav a rôzne zábery pôvodných videí a pridali do pozadia šum.

SkryťVypnúť reklamu

Neurálnu sieť potom naučili rozpoznať v záberoch tváre jednotlivých ľudí a prečítať už celý spektrogram všetkých zvukov vo videu. Počítač tak dokázal oddeliť rečový prejav jednotlivých ľudí, vytvoriť individuálnu zvukovú stopu pre ich reč a zvýrazniť ju.

Google verí, že ich technológia sa uplatní pri strojovom prepisovaní záznamov, zlepší automatické titulkovanie vo videách, či pomôže aj pri videokonferenciách.

Načítavam video...

Google

Súvisiace témy: Umelá inteligencia
SkryťVypnúť reklamu

Najčítanejšie na SME Tech

SkryťVypnúť reklamu
SkryťVypnúť reklamu
SkryťVypnúť reklamu
SkryťVypnúť reklamu

Hlavné správy zo Sme.sk

Martin Madej stvárňuje Jozefa Tisa v inscenácii Hitlerov prezident a hrá ho spôsobom, kedy je aj divák na pochybách, či v Tisovi nebolo trochu ľudskosti.

V divadle hrá Jozefa Tisa.


3
Premiér Fico s kolegami zo Smeru počas parlamentnej schôdze.

Prečo naši politici nerozumejú, keď im Rusi hovoria, že nás napadnú?


52
17. november v Bratislave.

To, že zo všetkých sviatkov zmizne práve 17. november, dokazuje, že sme neustrážili demokraciu.


Veronika Šikulová 29
Coco Gauffová vo finále Roland Garros 2025.

Gauffová zdolala Sabalenkovú v druhom grandslamovom finále.


a 1 ďalší 3

Neprehliadnite tiež

Mesiac.

Japonská ispace stratila kontakt so sondou stratila necelé dve minúty pred pristátím na Mesiaci.


TASR
Ľudia so závažnými a dlhotrvajúcimi ochoreniami, by mali mať zapísané informácie o svojom zdravotnom stave. Pomôcť im môže aj predinštalovaná funkcia v smartfóne.

Záchranári cez zamknutú obrazovku zistia zdravotné údaje.


Vizualizácia zrážky Mliečnej cesty s galaxiou Andromeda.

Milkomeda nie je samozrejmosť.


10
Logá spoločností Instragram, Facebook, WhatsApp a Meta.

Spoločnosť nahradí štátne dotácie, ktoré udržiavali prevádzku elektrárne Clinton Clean Energy Center.


SITA
SkryťZatvoriť reklamu