Kolme klõpsuga kasutamiseks, kuid ülitäpse transkriptsioonirakenduse loomine kõlab raskelt, kuid see pole nii. Tutvustame Whisperit AutoHotkeyle.
OpenAI Whisper on üks võimsamaid lahendusi teie hääle tekstiks muutmiseks. Whisperi kasutamine võib aga olla ka tüütu, kuna helifaili tekstiks transkribeerimiseks peate sisestama käsud. Aga miks seda teha, kui meil on AutoHotkey?
AutoHotkey abil saame hõlpsalt luua põhilise GUI käsurearakendustele nagu Whisper. Niisiis, teeme seda ja vaatame, kuidas saate luua oma transkriptsioonirakenduse, ühendades AutoHotkey GUI loomise supervõimed OpenAI Whisperiga kui nuppude taga oleva "aju".
Whisperi ja AutoHotkey aluse panemine
AutoHotkey abil saate teha lahedaid skripte, kuid see pole veel kõik, mida see teha saab. Selle projekti jaoks kasutame Whisperi GUI loomiseks klahvi AutoHotkey. See võimaldab meil kasutada OpenAI häältuvastuse AI tööriista, klõpsates nuppe ja kohandades selle funktsioone menüüde abil, mitte käskude tippimise asemel.
See aga tähendab, et jätkamiseks peavad teil olema installitud nii AutoHotkey kui ka Whisper.
Võrrandi esimese osa puhul saate seda teha laadige alla AutoHotkey selle ametlikult saidilt, seejärel käivitage selle installiprogramm ja järgige esitatud samme.
Pange tähele, et kasutame skriptikeele vanemat versiooni "v1", mitte uut v2. See on oluline, kuna need kaks versiooni kasutavad mõnevõrra erinevat süntaksit. See, mida siin näeme, ei pruugi uue versiooni 2 kasutamisel töötada.
Teine osa on keerulisem, kuid saate teada, kuidas seda teha, vaadates meie artiklit kuidas muuta oma hääl tekstiks OpenAI Whisper for Windows abil.
Kui mõlemad on paigaldatud, on meie tegevusplaan järgmine:
- Looge Whisperi muutujate ja väärtuste elementidega GUI.
- Looge funktsioone liidesest väärtuste haaramiseks, failide ja kaustade valimiseks ning kogu kasutatavaks Whisperi käsuks.
- Käivitage tulemuste saamiseks käsk Whisper.
Muidugi võite alati kasutada Windowsi sisseehitatud häälsisestuse tuge, nagu nägime meie artiklis kuidas käivitada häälsisestus Windows 11-s. Siiski, nagu näete selle kasutamise ajal, on Whisper palju täpsem (aga ka aeglasem).
Isiklikumalt peaksin selgitama, et ma ei ole programmeerija ja see projekt on isiklikuks kasutamiseks loodud lahenduse "remix".
Kuidas teha uut AutoHotkey skripti
Esimene samm on uue tühja skriptifaili loomine. Hoidke seda oma kaustas, juhuks kui otsustate seda kohandada või edasi arendada, luues rohkem faile.
- Käivitage oma lemmikfailihaldur (või vajutage Windowsi võti + E Windows Exploreri käivitamiseks) ja looge oma transkriptsioonirakenduse jaoks kaust kõikjal, kus soovite.
- Paremklõpsake akna tühjal kohal ja valige Uus > AutoHotkey skript tühja skriptifaili loomiseks.
- Tõstuklahv + Paremklõpsake failil, et avada täielik kontekstimenüü ja valige see oma lemmikkoodi või tekstiredaktoriga avamiseks. Windowsi oma Märkmik teeb.
- Hoolimata sellest, et see on "tühi skript", on teie AHK-fail juba eelnevalt täidetud mõne "kraamiga". Need on kasulikud AutoHotkey muutujad ja lipud, mis määravad, kuidas see teie töölaual peaks töötama. Ignoreerige neid, jätke need nii, nagu nad on, ja tehke kõik oma tulevased tekstid nende alla.
Whispersi lippudega tutvumine
Kuna loome käsurearakendusele GUI-d, on mugav viidata selle peamistele muutujatele ja lippudele, mida oma projektis kasutame. Saate neid kontrollida, lugedes Whisperi dokumentatsiooni, külastades selle ametlik Githubi lehtja käivitage see oma terminalis.
Loetleme need, mida selles projektis mugavuse huvides kasutame. Soovitame lisada need oma skripti kommentaaridena (eraldi ridadena, millest igaüks algab märgiga ";", millele järgneb tühik).
; Sosina lipud:; --initial_prompt PROMPT_TEXT; --väljundi_vorming txt; -o OUTPUT_FOLDER; --mudel MODEL_TO_USE; --ülesanne TRANSCRIBE/TRANSLATE; --keel EN/EL
GUI loomine AutoHotkey abil
Soovitame teil jagada oma skript osadeks, kasutades kommentaare, nagu meie tegime selle korrashoidmiseks. Alustame mõne muutuja määratlemisega, jätkame tegeliku GUI-ga ja lõpetame selle funktsioonide määratlemisega.
Alustame jaotisega, kus defineerime muutujad, mida soovime tulevikus muuta, kuid mitte nii sageli, et sooviksime neid GUI kaudu paljastada, muutes selle liiga keeruliseks. Saate sisestada "Muutuja_nimi = Muutuja sisu või väärtus" ühe muutuja ja väärtuste paariga rea kohta.
Selle projekti jaoks oleme määratlenud a Väljundvorming muutuja, mille seadsime väärtusele "txt" väärtus ja a WhisperExecutable muutuv avaldus Whisperi käivitatava faili nimi. Sel viisil, kui soovime tulevikus kasutada sama lahendust TXT-dokumentide või versiooniuuenduse asemel SRT-subtiitrifailide loomiseks Sosistades/lülituda alternatiivsele rakendusele, saame nende muutujate väärtusi reguleerida selles ühes kohas, mitte kogu stsenaarium.
OutputFormat = txtWhisperExecutable = sosin
Kasutaja valikute seadistamine
Kui kasutate Whisperit käsureal, võimaldavad kolm selle lippu määrata:
- Kui teete tõlge või transkriptsioon
- Helifaili oma keel
- Keel mudel mida soovite kasutada (saadaval on erinevad suurused, millest igaüks mõjutab jõudlust või tulemuste kvaliteeti).
Lihtsaim viis sama funktsiooni pakkumiseks GUI kaudu on läbi proovitud ja testitud rippmenüüde. AutoHotkey GUI-le ripploendi lisamise süntaks on järgmine:
Gui, Add, DropDownList, xPosition yPosition laius hKõrgus vMuutuja_see_hoiavad_valitud_väärtus, optionA|optionB|default_optionC||optionD|
Selle põhjal lisame oma skriptile kolm rippmenüüd Whisperi keele valimiseks (vahel inglise/et ja kreeka/el), mudel (pisike, põhi, väike, keskmine, suur) ja ülesande tüüp (transkribeerimine või tõlkida).
Gui, Add, DropDownList, x5 y5 w165 h50 vSelectedLanguage, et||el
Gui, Add, DropDownList, x175 y5 w165 h100 vSelectedModel, tilluke|alus|väike||keskmine|suur|
Gui, Lisa, DropDownList, x345 y5 w165 h100 vTaskType, transkribeeri||tõlgi|
Suvandi vaikevalikuks määramiseks kasutage selle järel topelttoru sümbolit ("|"). Näete, et meie näites oleme oma keele seadistanud et, SelectedModel to väikeja TaskType transkribeerida.
Kuidas juhtida sosinat
Kuna Whisper on AI-põhine, ei saa Whisper heli transkribeerimise üle absoluutset kontrolli. See võib vabalt valida, mida ta peab optimaalseks.
Sarnaselt teistele tehisintellekti lahendustele suudab Whisper siiski kasutajate viipasid vastu võtta. Viipa koostades saate suunata, kuidas see teie heli transkribeerib.
Kas meie pakutav lahendus ei suutnud midagi õigesti transkribeerida? Võite proovida "selgitada", et sosistada "millest kõnefail räägib", sealhulgas sõnade, akronüümide ja fraaside süntaks oma viipale nii, nagu soovite, et need transkriptsioonis ilmuksid. Selleks lisame välja AutoHotkey teksti redigeerimise.
Süntaks ei erine liiga sellest, mida kasutasime ülaltoodud ripploendite lisamiseks:
Gui, lisamine, muutmine, x5 w505 h400 vPromptText, %PromptText%
"%PromptText%" lõpus "käsutab" AHK-d näidata PromptText muutuja sisu (kui sellele on juba väärtus määratud) tekstiväljal. See ei näita meie loodavas skriptis midagi, kuid pidage seda kohahoidjaks, kui tulevikus skripti lõpuks kohandate ka viipade salvestamiseks ja laadimiseks!
Kas eelistaksite määrata eelmääratletud väärtuse PromptText muutuv? Lisage sellele midagi sellist nagu järgmine Muutujad skripti osa. Ärge unustage asendada "Sinu nimi" oma tegeliku nimega.
PromptText = Teie nime märkmete transkriptsioon
Toimingunuppude seadistamine
Failide, kaustade valimiseks ja Whisperi käivitamiseks pärast seda, kui oleme kõik seadistanud, on parem kasutada nuppe. AHK loodud liidesele saate nuppe lisada, kasutades järgmist.
Gui, Lisa, nupp, xPosition yPosition laius hKõrgus gFunction_To_Perform, nupu tekst
Pange tähele, et erinevalt GUI elementide muutujatest, mis algavad tähega "v", algavad funktsioonide nimed tähega "g", kui "Mine (skripti sellesse kohta)".
AHK liidese ühte nuppu võib pidada ka "vaikimisi nupuks", mis aktiveeritakse, kui te ei klõpsa GUI-l kuskil ja ei vajuta Sisenema. See on määratletud lisades "vaikimisi" koordinaatide ja funktsioonide jaotises, nagu näete meie nupul "OK":
Gui, Lisa, nupp, x5 w505 h50 gSelectFile, Laadige FileGui, Lisama, nupp, x5 w505 h50 gSelectFolder, ValiVäljund Kaust
Gui, lisamine, nupp, Vaikimisi x5 w505 h50 gButtonSubmit, OK
Ülaltooduga määratleme kolm nuppu:
- Üks sildiga "Laadi fail", millel klõpsamisel käivitatakse Valige Fail funktsiooni.
- Üks sildiga "Valige Väljundkaust", mis käivitab Valige kaust funktsiooni.
- Üks sildiga "Okei", vaikimisi valitud, "helistades". NuppEsita funktsiooni.
Kuidas näidata oma GUI-d
Meie graafiline kasutajaliides on valmis, kuid seda ei kuvata meie ekraanil, kuna me pole AutoHotkeyl "käskinud" seda näidata või mida iga nupp tegema peaks.
Selleks lisage GUI määratlevate ridade alla järgmised kaks rida:
Gui, ShowReturn
Esimene rida käsib AHK-l näidata GUI akent, teine aga tähistab jaotise lõppu.
Meie rakenduse funktsioonid ja funktsionaalsus
Kuigi oleme GUI jaotise lõpetanud, jookseb see skripti käivitamisel kokku. Seda seetõttu, et me viitame selles olematutele funktsioonidele. Niisiis, meie järgmine samm on nende funktsioonide loomine.
Kolm funktsiooni, mida me tahame, on:
- Valige sisendfail.
- Valige väljundkaust, kuhu transkribeeritud fail salvestatakse.
- Koostage käsk, mis "kogub" kõik muutujad kasutatavaks Whisperi käsuks, mis sarnaneb sellega, mida me ise terminali tippiksime, ja seejärel käivitage see.
Sisendfaili valik
Esimene funktsioon, mille oleme juba nimetanud "Valige FailKui lisasime selle nupu GUI-le, on:
Valige Fail:FileSelectFile, SelectedFileReturn
FileSelectFile on AutoHotkey funktsioon, mis kuvab tüüpilise failipäringu, võimaldades kasutajal faili valida. Valitud fail on meie skripti muutuja, mis hoiab kasutaja valitud faili teed.
Kuid nagu näete meie ekraanipiltidel, oleme lisanud ka järgmise rea funktsioonilõpu "tagasi" kohale:
MsgBox, %SelectedFile%
Sellel on AHK show a Sõnumikast valitud failiga pärast selle valimist, mis on kasulik skripti tõrkeotsingul. Kui see teatekast näitab teie valitud faili teed ja nime, ei nõua parandamist faili valimise nupp või funktsioon.
Väljundkausta valik
Kausta valimise funktsioon on peaaegu identne, muutub ainult käsu nimi ja muutuja, mis näitab, et tegemist on failide asemel kaustadega:
Kausta valimine: FileSelectFolder, SelectedFolderMsgBox, %SelectedFolder%Tagasi
Lõplik funktsioon
Lõplik funktsioon on kõige keerulisem. Nupuga OK vastendatuna kogub see GUI-st kõik muutujate väärtused, muudab need kasutatavaks käsuks ja käivitab selle.
Alustuseks ütleme funktsiooni alguse ja lõpu:
ButtonSubmit:Tagasi
Kõigi GUI väärtuste "haaramiseks" lisage alljärgnev NuppEsita rida:
Gui Submit, nohide
Järgmine rida loob uue muutuja nimega "WhisperFlags". Seejärel lisab see kõik GUI muutujad käsu Whisper lippudena.
WhisperFlags = --initial_prompt "%PromptText%" --ülesanne %TaskType% --mudel %SelectedModel% --keel %SelectedLanguage% --output_format % OutputFormat% -o "%SelectedFolder%""%SelectedFile%"
Järgmisena "ütleme" AHK-le, et ta kasutaks Whisperi käivitatava faili käivitamiseks vaiketerminali (CMD.exe), mille me määrasime WhisperExecutable muutuja) GUI muutujatega (mis on nüüd singlisse "kokku pandud". WhisperFlags muutuja).
Käivita, cmd.exe /c %WhisperExecutable% %WhisperFlags%
Veelgi lihtsamaks tõrkeotsinguks oleme nagu varem lisanud ka sõnumikasti, kuid lisanud ka järgmise rea:
Lõikelaud = % WhisperExecutable% % WhisperFlags%
See kopeeritakse faili Lõikelaud CMD-le antud täielik käsk. Seega, kui midagi ebaõnnestub, siis selle asemel, et näha käsku ainult ühes AHK sõnumikastis, on see saadaval ka oma lõikepuhvril.
Avage terminal, kleepige käsk lõikelaualt ja kontrollige võimalike probleemide leidmiseks kuvatavaid vigu.
Näiteks unustasin skripti kallal töötades algselt viipa jutumärkidesse panna. Seega käsk nurjus, kuna Whisper üritas viipa lippudena sõeluda.
Testimine ja viimased näpunäited
See oli kõik – oleme just loonud transkriptsioonirakenduse, kasutades AutoHotkey GUI loomise võimalusi ja kasutusvalmis AI transkriptsioonilahendust.
Proovige oma skripti käivitada (topeltklõpsake selle failil) ja peaksite nägema ekraanil oma GUI-d.
- Muutke Whisperi seadeid ülaosas olevate ripploendite abil.
- Sisestage oma transkriptsiooni (ja mõnede terminite) lühike kirjeldus Viip valdkonnas.
- Klõpsake nuppu Laadi fail nuppu ja valige helifail, mida soovite transkribeerida.
- Klõpsake nuppu Valige Väljundkaust nuppu ja valige, kuhu toodetud tekstifail salvestada.
- Kliki Okei et vallandada Whisper, nagu on konfigureeritud teie GUI-ga, valitud helifailis ja salvestada selle transkriptsioon tekstifailina valitud kausta.
Kui kõik toimis, minge tagasi oma skripti juurde ja kas kustutage või kommenteerige (lisage nende algusesse ";") kõik tõrkeotsingu funktsioonid (teatekastid ja lõikelauale kopeerimise read).
Sosistamise jätkamine AutoHotkey abil
Kui määrate õigesti oma GUI vaikeväärtused ja lisate võib-olla üldise viipa, saate Whisperi muuta kolme klõpsuga transkribeerimise lahendus: kommertslahenduste, kolmandate osapoolte teenuste eest ei tasu maksta, keeruliste liidestega askeldamine või terminali tippides.