Fraaside tuvastamine on vaid osa protsessist.

Toast "Ok Google" karjumine, et muuta muusikat või lülitada ruumis tuled välja, tundub kindlasti uskumatu, kuid seda näiliselt lihtsat protsessi juhib keeruline tehnoloogiate võrgustik, mis töötab selle taga stseenid.

Peaaegu igal turul oleval suuremal virtuaalsel assistendil on kutsufraas, mida kasutate assistendi äratamiseks ja vestluseks. Aga kuidas hääleassistendid teavad, kui te nendega räägite?

Kuidas fraaside tuvastamine töötab?

Nagu eespool mainitud, on igal hääleassistendil "käivitusfraas" või äratussõna, mida kasutate assistendi äratamiseks ja edasiste käskude andmiseks. Selle fraasi tuvastamise protsess on iga assistendi puhul enam-vähem sama, välja arvatud väikesed nüansid. Sellegipoolest võivad need nüansid tähendada erinevust äratuskäsu juhusliku ütlemise ja selle mitmekordse karjumise vahel kordi ainult selleks, et assistent saaks magada, mis võib mõnikord olla väga tüütu, eriti kui sa oled kasutades oma hääleassistenti rahustamiseks.

Pildi krediit: graphicsstudio/Vecteezy

Üldiselt on enamikul "nutikatel" kõlaritel väike vooluahel, mille ainus ülesanne on äratuskäsk tuvastada ja seejärel ülejäänud riistvara tööle panna. Suurem osa töötlemisest toimub pilves, kuid fraaside tuvastamine toimub ilmselgetel privaatsuskaalutlustel seadmes. Fraaside tuvastamine töötab telefonides enam-vähem samamoodi.

Spetsiifilisus on enamasti varjatud, kuid need tuvastussüsteemid kasutavad masinõpet ja sügavaid närvivõrke (DNN), et treenida tehisintellekti mudeleid teie hääle tuvastamiseks ja võtme moodustamiseks. Seda võtit kasutatakse seejärel kontrollimiseks, millal olete konkreetse fraasi öelnud, ja kõik muu saadetakse edasiseks töötlemiseks pilve.

Google'i assistent

Telefonidel, mis toetavad "OK Google" tuvastamist, on tavaliselt märksõna tuvastamise (KWS) süsteem, mis tuvastab fraasi ja paigab ülejäänud päringu pilve. Kuna mobiilseadmete arvutusvõimsus ja aku kasutusaega on piiratud, ei ole need süsteemid tavaliselt nii head kui need, mida leiate Google Nesti kõlaritest.

See seadmesisene KWS-süsteem kogub pidevalt heli seadme mikrofonidest ja käivitab käivitusfraasi tuvastamisel ühenduse serveriga. Google kasutab oma KWS-süsteemi üldise täpsuse parandamiseks ka serveripoolset kontekstuaalset automaatset kõnetuvastust (ASR). Täpsemalt saate selle kohta lugeda Google'i uurimistöö [PDF].

Siri

Siri töötab "Hei Siri" tuvastamisel samamoodi nagu Google'i assistent. Apple on olnud üllatavalt avatud süsteemi toimimise kohta, mis hõlmab "väga väikest" kõnetuvastajat, mis töötab taustal ja kuulab ainult neid kahte sõna. See detektor kasutab DNN-i, et teisendada teie igal esinemisjuhul salvestatud hääle akustiline muster kõnehelide tõenäosusjaotuseks, genereerides sisuliselt usaldusskoori.

Teie iPhone või Apple Watch teeb seda, muutes teie hääle lainekuju näidiste vooks kiirusega 16 000 sekundis. Seejärel lõigatakse see kaadrite jadaks, mis katab helispektri umbes 0,01 sekundit. Seejärel suunatakse tuvastusmudelisse kokku 20 kaadrit, mis teisendab need mustrid tõenäosuseks.

Pildi krediit: Apple

Kui süsteem tuvastab piisavalt kindlalt, et ütlesite "Hei Siri", ärkab Siri üles ja saadab ülejäänud päringust pilve, kus toimub edasine analüüs ja mis tahes soovitud toiming sooritatud.

Mälu ja aku tõhususe tagamiseks on loomulikult lisatud täiendavaid meetmeid. Teie iPhone'i alati sisselülitatud protsessoril (AOP) on just sel põhjusel juurdepääs seadme mikrofonidele (iPhone 6S ja uuemates versioonides) ning väike osa selle töötlemisvõimsusest on reserveeritud DNN-i käitamiseks. Apple sukeldub oma masinõppe veebisaidil kogu süsteemi põhjalikult, masinõpe.õun.

Alexa

Sarnaselt Google Assistantile ja Sirile ei paiguta Alexa suuremat osa oma töötlemisvõimsusest ühelegi Echo kõlarile, mida saate osta. Selle asemel kasutavad kõnelejad seda, mida Amazon nimetab automaatseks kõnetuvastuseks (ASR), mis sisuliselt teisendab räägitud sõnad tekstiks, võimaldades aluseks oleval süsteemil neid tõlgendada ja vastavalt tegutseda.

ASR moodustab Alexa töö põhialuse. Taas on pardal olev süsteem, mis kuulab äratussõnu, antud juhul "Alexa", "Amazon", "Kaja" või "Arvuti" ja käivitab ülejäänud süsteemi, kui kasutaja määratud äratussõna on tuvastatud. Saate isegi äratage oma Alexa seade "Hei Disney" abil kui sa tahad.

Sarnaselt Google'i assistendiga saate treenida Alexa aluseks olevat AI mudelit, et teie häält paremini tuvastada. See protsess hõlmab algtaseme "võtme" loomist, millega räägitud äratussõna võrreldakse, ja kui vaste leitakse, reageerib seade vastavalt.

Kas häälassistendid kuulavad alati?

Nagu ilmselt juba aimata, on jah. Nad ei suudaks muidu äratussõnu tuvastada. Siiski ei pea te privaatsusprobleemide tõttu veel kõiki nutikõlareid välja viskama.

Kuulake kõike, mida kasutajad ütlevad, saatke see tagasi kaugserverisse ja analüüsige (või salvestage) nõuab tohutut riistvara ja rahalisi ressursse nii kaugele, et sellel pole praktilisest küljest mõtet perspektiivi. Kui lisada sellele tohutud privaatsusprobleemid, millega sellised ettevõtted nagu Google, Apple ja Amazon juba tegelevad, pole sellel ideel mõtet.

See mõjutab oluliselt ka telefonide jõudlust ja aku kasutusaega äratussõnade tuvastamise funktsioonidega, eelkõige Google Pixels ja iPhones. Kui teie telefon kuulab pidevalt teie öeldut ja saadab selle heli tagasi kaugserverisse, tühjendab see teie akut ja vähendab seadme jõudlust.

Kellel on kõige tõhusam fraaside tuvastamine ja miks?

Pole lihtne objektiivselt võrrelda, millisel virtuaalsel assistendil on objektiivselt parim fraaside tuvastamine, kuna nad kõik kasutavad sama üldise kontseptsiooni veidi erinevaid teostusi. Siiski tundub, et Google'il on Siri ja Alexaga võrreldes järjekindlam fraaside tuvastamine tänu edumaa Google'i assistendile.

Hoolimata sellest, et suuri keelemudeleid (LLM-e) kasutavad rakendused, nagu ChatGPT ja Bing Chat, on muutumas peavooluks, säilitab Google Assistant oma positsiooni ühe populaarsed virtuaalsed assistendid lihtsalt sellepärast, et see on ühe puudutuse kaugusel igas Android-seadmes, alates nutiteleritest kuni autostereosüsteemide ja loomulikult nutitelefonideni.

Siril ja Alexal on selles osakonnas veidi järele jõuda, kuid fraaside tuvastamise osas pole nad nii kaugel. Sellegipoolest on teil parem võimalus äratada oma Pixelis olev Google'i assistent toast teisest küljest kui Siri oma iPhone'is, kuigi saate suurendage Siri võimalusi Super Siri režiimiga. Kuna Alexat kasutatakse enamasti Amazoni Echo kõlarite sarjas, on sellel siin väike eelis, arvestades, et need kõlarid on loodud kasutaja häält vastu võtma.

AI on nii õudne kui mugav

AI-assistendi kutsumine ainult oma häälega võib olla kasulik. Meie ellu sujuvalt integreeruva funktsiooni puhul toimub kulisside taga palju, millele enamik meist sageli ei mõtle.

Sellegipoolest toob see mugavus kaasa ka selle, et teie seade kuulab alati teie öeldut. Siiani seisavad seadmes olevad kõnetuvastajad ja äratussõnad selle vahel, mida teie virtuaalne assistent kuuleb ja mida teie ütlete.