Turinys
„Live Caption“ yra viena iš kol kas nuostabiausių „Android“ funkcijų, naudojant mašinų mokymąsi vietinių vaizdo įrašų ir žiniatinklio įrašų antraštėms generuoti.
„Google“ paskelbė tinklaraščio įrašą, kuriame tiksliai aprašyta, kaip ši madinga funkcija veikia, ir ją iš tikrųjų sudaro trys pradedančiųjų kompiuterio mokymosi modeliai įrenginyje.
Yra pasikartojantis neuroninio tinklo sekos perdavimo (RNN-T) modelis, skirtas pačiam kalbos atpažinimui, tačiau „Google“ taip pat naudoja pasikartojantį nervų tinklą skyrybos numatymui.
Trečiasis mašininio mokymosi įrenginyje modelis yra konvoliucinis nervų tinklas (CNN), skirtas garso įvykiams, tokiems kaip paukščių čiulbėjimas, žmonių plojimai ir muzika. „Google“ sako, kad šis trečiasis kompiuterio mokymosi modelis yra išvestas iš jo darbo su pritaikymo pritaikymo neįgaliesiems programoje „Live Transcribe“, galinčia perrašyti kalbos ir garso įvykius.
Sumažinti tiesioginių antraščių poveikį
Bendrovė teigia, kad ji ėmėsi daugybės priemonių, kad sumažintų „Live Caption“ baterijų sunaudojimą ir našumo reikalavimus.Pirma, visiško automatinio kalbos atpažinimo (ASR) variklis veikia tik tada, kai iš tikrųjų aptinkama kalba, o ne nuolatos veikiant fone.
Pavyzdžiui, kai aptinkama muzika ir garso sraute nėra kalbos, etiketė pasirodys ekrane, o ASR modelis bus iškeltas. ASR modelis vėl įkeliamas į atmintį tik tada, kai garso sraute vėl yra kalba “, - savo tinklaraščio įraše aiškina„ Google “.
„Google“ taip pat naudojo tokius metodus kaip neuroninių jungčių genėjimas (sumažino kalbos modelio dydį), sumažino energijos suvartojimą 50% ir leido „Live Caption“ veikti nuolat.
„Google“ aiškina, kad kalbos atpažinimo rezultatai atnaujinami keletą kartų per sekundę, kai formuojama antraštė, tačiau skyrybos numatymas skiriasi. Paieškos milžinas teigia, kad, siekiant sumažinti išteklių poreikį, skyrybos numatymas pateikiamas „ant paskutiniojo pripažinto sakinio teksto uodegos“.
„Live Caption“ dabar pasiekiama „Google Pixel 4“ serijoje, o „Google“ sako, kad „netrukus“ bus pasiekiama „Pixel 3“ serijoje ir kituose įrenginiuose. Bendrovė teigia, kad ji taip pat dirba palaikydama kitas kalbas ir geriau palaikydama daugiakalbį turinį.