Reklaam

Saame praegu rääkida peaaegu kõigi oma vidinatega, kuid kuidas see täpselt töötab? Kui küsite “Mis laul see on?” või öelge: "Helista emale", toimub moodsa tehnika ime. Ja kuigi tundub, et see on tipptasemel, ulatub see seadetega rääkimise idee aastakümnete taha - peaaegu niipalju kui ulmefilmid!

Tänapäeval on suurem osa hääljuhitavale andmetöötlusest tähelepanu suunatud nutitelefonidele. Apple, Amazon, Microsoft ja Google on keti tipus, igaüks pakub oma viisi elektroonikaga rääkimiseks. Teadsite, kes nad on: Siri, Alexa, Cortana ja nimetu olek „Ok, Google“. Mis tõstatab suure küsimuse ...

Kuidas võtab seade kõnesõnu ja muudab need käskudest, millest see aru saab? Sisuliselt taandub mustrite sobitamine ja nende mustrite põhjal ennustamine. Täpsemalt, hääletuvastus on keeruline ülesanne Akustiline modelleerimine ja Keele modelleerimine.

Akustiline modelleerimine: lainekujud ja telefonid

lainekuju

Akustiline modelleerimine on kõne lainekuju võtmine ja selle statistiliste mudelite abil analüüsimine. Kõige tavalisem meetod selleks on

Varjatud Markovi modelleerimine, mida kasutatakse nn häälduse modelleerimine jagada kõne osadeks, mida nimetatakse telefonideks (mitte segi ajada tegelike telefoniseadmetega). Microsoft on olnud selle valdkonna juhtiv teadlane juba mitu aastat.

Varjatud Markovi modelleerimine: tõenäosuse seisundid

Varjatud Markovi modelleerimine on ennustav matemaatiline mudel, kus väljundi analüüsimisel määratakse hetkeseis. Vikipeedias on a suurepärane näide, kasutades kahte sõpra.

Kujutage ette kahte sõpra - kohalik sõber ja kauge sõber -, kes elavad erinevates linnades. Kohalik sõber soovib teada saada, milline on ilm, kus elav sõber elab, kuid kaugsõber tahab rääkida ainult sellest, mida ta sel päeval tegi: jalutada, poodi minna või puhata. Iga tegevuse tõenäosus sõltuvalt päeva ilmast.

Varjatud Markovi modelleerimine

Teeskle, et see on ainus kättesaadav teave. Selle abil saab kohalik sõber leida suundumusi selle kohta, kuidas ilm päevast päeva muutus, ja kasutab neid suundumusi võib tema sõbra eilse tegevuse põhjal hakata tegema haritud arvamisi selle kohta, millised on ilmastikuolud tänase ilma kohta. (Ülaltoodud süsteemi diagrammi näete.)

Kui soovite keerukamat näidet, siis vaadake see näide Matlabil. Häältuvastuses võrdleb see mudel lainekuju iga osa eelneva ja järgnevaga ning lainekujude sõnastikuga, et aru saada, mida öeldakse.

Põhimõtteliselt, kui teete “th” heli, kontrollib see heli kõige tõenäolisemate helide suhtes, mis tavaliselt tulevad enne ja pärast seda. Võib-olla tähendab see, et kontrollitakse heli e, heli „at” ja nii edasi. Kui muster sobib õigesti, on sellel siis kogu teie sõna. See on liigne lihtsustamine, kuid näete Microsofti täielik selgitus siin.

Keele modelleerimine: rohkem kui heli

Akustiline modelleerimine aitab arvutil sinust palju paremini aru saada, aga kuidas on lood homonüümide ja häälduse piirkondlike erinevustega? Seal tuleb mängu keele modelleerimine. Google on selles valdkonnas ajendanud palju uuringuid, peamiselt veebisaidi kasutamise kaudu N-grammine modelleerimine.

Kui Google proovib teie kõnest aru saada, põhineb ta mudelitel, mis on tuletatud oma ulatuslikust häälotsingu pangast ja YouTube'i transkriptsioonidest. Kõik need lõbusalt valed videopealdised on tegelikult aidanud Google'il nende sõnaraamatuid edasi arendada. Samuti kasutasid nad lahkunuid GOOG-411 koguda teavet selle kohta, kuidas inimesed räägivad.

shutterstock_70757203

Kogu selle keelekogu loonud hulgaliselt hääldusi ja murreteid, mis moodustasid kindla sõnade sõnastiku ja nende kõla. See võimaldab vasteid, mille veamäär on tunduvalt madalam kui töötlemata tõenäosuste põhjal teostatud jõhkra jõu sobitamine. Võite lugeda lühikest paberit kirjeldades siin nende meetodeid.

Kuigi Google on selles valdkonnas liider, on väljatöötamisel ka teisi matemaatilisi mudeleid, sealhulgas pidev ruum mudelid ja positsioonilised keelemudelid, mis on tehisintellekti uuringutest sündinud arenenumad tehnikad. Need meetodid põhinevad mõtteviisi, mida inimesed üksteist kuulates teevad, korrata. Need on palju arenenumad nii tehnika taga kui ka nende mudelite kaardistamiseks vajalik matemaatika ja programmeerimine.

N-grammiline modelleerimine: tõenäosus vastab mälule

N-grammine modelleerimine põhineb tõenäosustel, kuid see kasutab olemasolevat sõnade sõnastikku hargnevate võimaluste puu loomiseks, mis seejärel tõhususe huvides silutakse. Mõnes mõttes tähendab see, et N-grammine modelleerimine kaob palju ebakindlust eelnimetatud varjatud Markovi modelleerimisel.

Nagu eespool märgitud, tuleneb selle meetodi tugevus suure sõnaraamatu olemasolust sõnad ja kasutamine, mitte ainult primitiivne helid. See annab saatele võimaluse öelda erinevust homofoonide vahel, näiteks „peksid” ja „peet”. See on kontekstuaalne, mis tähendab, et kui rääkida eileõhtustest hinnetest, ei tõmba programm borši kohta sõnu.

Kuid need mudelid ei ole keele jaoks kõige paremad, peamiselt seetõttu, et on probleeme sõnade tõenäosusega pikemates fraasides. Kui lisate mõnele lausele rohkem sõnu, läheb see mudel pisut lahti, kuna tõenäoliselt pole teie varased sõnad laadinud kõike, mis on teie täielikuks mõtteks vajalik.

Kuid see on lihtne ja hõlpsasti rakendatav, muutes selle suurepäraseks mänguks sellisele ettevõttele nagu Google, kes naudib serverite viskamist arvutusprobleemide korral. N-grammi Modeliengi kohta saate täiendavat lugemist teha saidil Washingtoni ülikoolvõi võite vaadata a loeng Courseras.

Pilvede taga karjumine: rakendused ja seadmed

Kõik, kes on Siri kasutanud, teavad aeglase võrguühenduse pettumust. Selle põhjuseks on asjaolu, et teie käsud Sirile saadetakse võrgu kaudu Apple'i poolt dekodeeritavaks. Cortana Windowsi telefoni jaoks vajab ka korralikult võrguühendust. Vastupidiselt on Amazonase Echo aga lihtsalt Bluetooth-kõlar, millel pole ühtegi internetti.

Miks erinevus? Kuna Siri ja Cortana vajavad teie kõne dekodeerimiseks raskeveokite servereid. Kas seda saab teha oma telefonis või tahvelarvutis? Muidugi, kuid selle käigus hävitaksite jõudluse ja aku tööaja. On lihtsalt mõistlikum töötlemine spetsiaalsetele masinatele maha laadida.

SIGCHI_Conference_Paper_Format _-_ KumarSpeechRecognitionForMobileApps_pdf

Mõelge sellele nii: teie käsk on muda kinni jäänud auto. Tõenäoliselt võiksite selle piisavalt aja ja vaevaga endast välja lükata, kuid see võtab tunde ja jätab teid kurnatuks. Selle asemel helistate maanteeabile ja nad tõmbavad teie auto vaid mõne minutiga välja. Negatiivne külg on see, et peate helistama ja neid ootama, kuid see on ikkagi kiirem ja maksustab vähem.

Lauaarvuti mudelid, nagu Nuance, kasutavad võimsama riistvara tõttu kohalikke ressursse. Lõppude lõpuks, Steve Jobs'i sõnul, teie töölaud on veoauto. (Mis teeb OS Xi kasutatavast pisut tobedaks serverid selle töötlemiseks.) Nii et kui teil on vaja keelt ja häält töödelda, on see juba piisavalt varustatud, et sellega iseseisvalt hakkama saada.

Teisest küljest lubab Android arendajatel oma rakendustesse lisada ka võrguühenduseta kõnetuvastuse. Google'ile meeldib tehnoloogiaga edasi minna ja võite kihla vedada, et teised platvormid saavad selle võimaluse, kuna nende riistvara muutub võimsamaks. Kellelegi ei meeldi, kui halb leviala või halb vastuvõtt nende seadet loboteerivad.

Alusta häälkäskluste kasutamist kohe

Nüüd, kui teate põhimõisteid, peaksite mängima oma erinevate seadmetega. Proovige uut häältekstimine teenuses Google Docs Kuidas häältekst on Google'i dokumentide uus parim funktsioonHäältuvastus on viimastel aastatel hüppeliselt paranenud. Selle nädala alguses viis Google lõpuks Google Docsisse sisse häältekstimise. Aga kas sellest on midagi head? Uurime välja! Loe rohkem . Justkui poleks veebikontori komplekt juba piisavalt võimas, võimaldab hääljuhtimine teil oma dokumente täielikult dikteerida ja vormindada. See laieneb võimsale tehnoloogiale, mille nad on juba Chrome'i ja Androidi jaoks kavandanud.

Muude ideede hulka kuulub ka teie loomine Mac häälkäskluste kasutamiseks Kuidas kasutada kõnekäsklusi oma Macis Loe rohkem ja oma seadistamine Amazon Echo koos automatiseeritud väljamaksega Kuidas saab Amazon Echo muuta teie kodu nutikaks koduksNutikad kodutehnikad on alles algusaegadel, kuid Amazoni uus toode nimega "Echo" võib aidata selle peavoolu tuua. Loe rohkem . Ela tulevikus ja võta oma vidinatega rääkimine omaks - isegi kui sa lihtsalt rohkem paberrätikuid tellid. Kui olete nutitelefonisõltlane, oleme saanud ka õppematerjale Siri 8 asja, mida te ilmselt ei mõistnud, mida Siri võiks tehaSiri on muutunud üheks iPhone'i määratlevaks funktsiooniks, kuid paljude inimeste jaoks pole see alati kõige kasulikum. Kuigi osa sellest on tingitud hääletuvastuse piirangutest, on selle kasutamise kummalisus ... Loe rohkem , Cortana 6 lahedamat asja, mida saate Cortana abil Windows 10-s juhtidaCortana aitab teil Windows 10-s käed vabad süsteemis liikuda. Võite lasta tal otsida oma failidest ja veebist, teha arvutusi või koostada ilmateade. Siin käsitleme tema lahedamaid oskusi. Loe rohkem ja Android OK, Google: 20 kasulikku asja, mida saate oma Android-telefonile öeldaGoogle Assistent aitab teil oma telefonis palju ära teha. Siin on terve hunnik põhilisi, kuid kasulikke OK Google'i käske, mida proovida. Loe rohkem .

Milline on teie hääljuhtimise lemmikkasutus? Andke meile kommentaarides teada.

Pildikrediidid: T-flex Shutterstocki kaudu, Terencehonles Wikimedia Foundationi kaudu, Arizona osariik, Cienpies Design Shutterstocki kaudu

Michael ei kasutanud Mac-i, kui nad olid hukule määratud, kuid ta saab Applescriptis kodeerida. Tal on kraadi arvutiteaduses ja inglise keeles; ta on juba mõnda aega kirjutanud Macist, iOS-ist ja videomängudest; ja ta on olnud üle kümne aasta päevas IT-ahv, kes on spetsialiseerunud skriptimisele ja virtualiseerimisele.