Teiesugused lugejad aitavad MUO-d toetada. Kui teete ostu meie saidil olevate linkide abil, võime teenida sidusettevõtte komisjonitasu. Loe rohkem.

OpenAI Whisper on uus tehisintellektil põhinev lahendus, mis muudab teie hääle tekstiks. Mis kõige parem, see on nullkuluga.

Siiski on üks konks: selle installimine ja kasutamine on keerulisem kui teie keskmine Windowsi utiliit. Eriti kui soovite kasutada oma Nvidia GPU Tensor Cores, et anda sellele kena tõuge.

Ärge siiski muretsege. Sellepärast me siin oleme! Lugege edasi, et teada saada, kuidas seda installida ja kasutada, aga ka, kui teil on see, et lasta Whisperil teie Nvidia GPU eeliseid kasutada.

Mis on OpenAI Whisper?

ChatGPT on tänapäeval moes ja me oleme seda juba näinud kuidas saate kasutada OpenAI ChatGPT-d. Ja siiski, see pole ainus huvitav OpenAI projekt.

Whisper on süvaõppe ja närvivõrkude toel loomulik keeletöötlussüsteem, mis suudab kõnest "aru saada" ja selle tekstiks ümber kirjutada. Kuid see on ka omaette asi, mis asub täpselt kõigi sarnaste lahenduste seas:

instagram viewer
  • Whisper on loomulikul keelel "koolitatud" AI-lahendus. Seega mõistab see paremini "tavalist" inimkõnet kui vanemaid lahendusi.
  • Whisperil pole liidest ega saa heli salvestada. See võib võtta ainult olemasolevaid helifaile ja väljastada tekstifaile.
  • Kuna Whisper on hea "keele mõtestamises", on Whisperil ka automaattõlke ülivõime ühe sammuga.
  • Whisper ei ole võrguteenus ja võib töötada täiesti võrguühenduseta.
  • Kui teil on suhteliselt kaasaegne Nvidia GPU (GTX970 või uuem), saab Whisper kiiruse suurendamiseks töötada "riistvarakiirendatud režiimis".
  • Registreerumine, litsentsi ostmine või tellimuse ostmine pole kohustuslik.

Miks AMD GPU-sid ei toetata?

Selleks, et GPU-d oleksid kasulikud rohkem kui graafika jaoks, peavad need toimima täielikult programmeeritavate protsessoritena. Seetõttu lõi Nvidia CUDA, mida ametlikult peeti "paralleelseks arvutusplatvormiks ja programmeerimismudeliks". CUDA ja sellega seotud riistvara ("CUDA tuumad") kohta lisateabe saamiseks lugege meie artiklit mis on CUDA tuumad ja kuidas need arvutimänge parandavad.

CUDA on patenteeritud Nvidia tehnoloogia, mis ühildub ainult Nvidia GPU-dega. Lähimad alternatiivid AMD riistvarale on OpenCL ja Radeon Compute Platform. Lisateabe saamiseks selle kohta, kuidas iga ettevõtte lahendusi võrrelda, lugege meie artiklit AMD arvutusüksused vs. Nvidia CUDA tuumad.

Võrreldes alternatiividega peetakse CUDA-d küpsemaks, tulemuslikumaks ja hõlpsamini kasutatavaks. Seega sihib enamik arendajaid ainult CUDA-d, mis omakorda tähendab, et nende tarkvara kasutab ära ainult Nvidia GPU-de riistvarafunktsioone. Ja see hõlmab ka Whisperit.

Kuidas Whisperit alla laadida ja installida

Kahjuks ei ole Whisper eraldiseisev rakendus, mida saate alla laadida, installida ja käivitada. See tugineb muule tarkvarale, mis tuleb samuti installida.

Windowsi puhul, et see juhend oleks lihtne, kasutame Chocolateyt laialdaselt enamiku vajalike tarkvaraosade installimiseks. Vaadake meie juhendit kiireim viis Windowsi tarkvara installimiseks Chocolatey kohta lisateabe saamiseks.

Linuxi ja Maci puhul peaks installiprotsess (välja arvatud Windowsi tee muutuja ja hõlpsasti kasutatavad pakifailid, mille loome) olema sarnane.

  1. Whisperi installimiseks ja kasutamiseks peab teil olema Python ja selle PIP tööriist installitud ja lisatud Windowsi muutujale "Path". Selle kohta teabe saamiseks vaadake meie artiklit kuidas installida Python PIP Windowsi, Maci ja Linuxi jaoks.
  2. Installige FFMPEG Chocolatey kaudu selle käsuga:
    šokolaad installida ffmpeg
    Samuti installige selle Pythoni versioon:
    pip3 installida python-ffmpeg
  3. Lõpuks installige Whisper oma Githubi lehelt koos:
    pip3 install git+https://github.com/openai/whisper.git

Whisperi CUDA-toega versiooni hankimine

Kuigi Whisper ei kasuta Nvidia GPU-sid, tõrvik pakett, millele see tugineb, pakub CUDA-kiirendatud versiooni. Selle kasutamine "tavalise" versiooni asemel võib aidata Whisperil teie Nvidia GPU abil oma transkriptsioonid palju kiiremini lõpule viia.

Whisperi kasutamiseks kasutage oma Nvidia GPU CUDA südamikke.

  1. Kui teil on juba paigaldatud taskulambi "vanilje" versioon, desinstallige ja puhastage selle jäänused:
    pip3 desinstallida tõrvik
    Kui see on tehtud, järgige seda järgmiselt:
    pip vahemälupuhastamine
  2. Installige taskulambi CUDA-toega versioon koos:
    pip3 installida tõrvik tõrvik tõrvikaudio --extra-index-url https://download.pytorch.org/whl/cu117
  3. Kontrollimaks, kas Whisper saab teie Nvidia GPU-d kasutada, kasutage:
    sosistama --abi | findstr -i pytorch
    Sa peaksid nägema (vaikimisi: cuda) selle asemel (vaikimisi: protsessor).

Mida teha, kui taskulampi installimine ebaõnnestub

Kui teil tekib taskulampi installimisel tõrge "versiooni ei leitud", peate võib-olla installima Pythoni vanema versiooni paralleelselt praegusega.

Selleks kasutage seda käsku:

šokolaad installida püüton --versioon OLDER_VERSION --kõrvuti

Asendage "OLDER_VERSION" versiooniga, näiteks 3.10.

Seejärel kasutage kõigi "üldiste" Whisperi käskude jaoks sekundaarse versiooni teed (nt "c:\Python310\Scripts\pip.exe", mitte lihtsalt "pip").

Kuidas oma häält salvestada

Saate kasutada mis tahes helisalvestusrakendust, et muuta oma hääl WAV- või MP3-failiks. Windows sisaldab sellist rakendust – selle kohta lisateabe saamiseks vaadake kuidas kasutada Windows 10 helisalvesti rakendust.

Täielikuma valiku saamiseks proovige Julgusus. Meie juhendist saate teada, kuidas seda teha kuidas kasutada Audacityt heli salvestamiseks Windowsis ja Macis.

Kuidas alustada sosistamisega transkribeerimist

Kuigi Whisperil ei ole kaasas kasutajasõbralikku GUI-d, on selle kasutamine ülilihtne.

Oletame, et meil on fail LatestNote.mp3 mis sisaldab kreekakeelset kõnet kaustas c:\MyAudioFilesja soovite selle inglise keelde tõlkida ja tekstifaili transkribeerida.

  1. Alustame jooksmisega Käsurida või PowerShell.
  2. Selle käsuga "muutame kataloogi", kuhu helifail on salvestatud:
    cd C:\MyAudioFiles
  3. Vabastame Whisperi failil koos:
    sosistama--mudelalus--keelgr--ülesannetõlkidaViimane märkus.mp3

Pärast töötlemist ilmub tekstifail (nimega "LatestNote.mp3.txt") samasse kausta. Avage see tekstiredaktoris nagu Märkmik tõlgitud teksti vaatamiseks.

Kasutasime tõlkenäidet, kuna ingliskeelne transkriptsioon on veelgi arusaadavam: peate "kaotama" ainult lipud "--language" ja "-task". Seega oleks tavalise transkriptsiooni jaoks ülaltoodud käsk:

sosistama--mudelalusViimane märkus.mp3

Lipp "mudel" on vajalik, kuna Whisper kasutab ühte erinevatest valikutest. Laiendame neid, et aidata teil valida oma vajadustele parima.

Millist mudelit valida?

Whisper pakub erinevaid keelemudeleid. Mida suurem on mudel, seda parem on selle täpsus, aga ka riistvaranõuded. Nemad on:

  1. Pisikene.
  2. Alus.
  3. Väike.
  4. Keskmine.
  5. Suur.

Enamikule inglise keelt emakeelena kõnelevatele inimestele peaks see sobima tilluke või alus mudelid. Inglise keelt muukeelsed inimesed võivad näha paremaid tulemusi suuremate mudelite puhul (nt väike ja keskmine.

Pange tähele, et keskmised ja suured mudelid nõuavad üle 8 GB VRAM-i (see tähendab "teie GPU mälu").

Neist ühe valimiseks määrake mudel pärast käsu "--model" lülitit:

sosistama --mudel väike/väike/keskmine/suur [fail]

Näiteks:

sosistama--mudelväikeMinu_hääl_märkus.mp3

Kuidas oma transkriptsiooni sujuvamaks muuta

Kogu Whisperi käsu tippimine iga kord, kui soovite mõnda heli transkribeerida, võib kiiresti igavaks muutuda. Teeme protsessi sujuvamaks muutmiseks globaalselt juurdepääsetava pakkfaili.

  1. Jookse Windows Explorer ja külastage oma C: draivi.
  2. Looge oma skriptide jaoks kaust ja kopeerige selle tee lõikelauale.
  3. Otsige Windowsi Start-menüüst "tee" ja valige Muutke süsteemikeskkonna muutujaid.
  4. Otsige üles Tee muutuja all Kasutaja YOUR_USERNAME kasutaja muutujad. Selle redigeerimiseks topeltklõpsake sellel. Kliki Uusja kleepige tee oma skriptide kausta. Kliki Okei muudatustega nõustuma.
  5. Naaske Windows Exploreris oma skriptide kausta. Looge seal uus partiifail nimega "wht.bat". Sisestage see käsk:
    sosistama --model tiny --language et %1
  6. Looge veel kaks pakkfaili, "whs" ja "whm".
  7. Asetage see esimesse skripti:
    sosistama --model small --language et %1
  8. Asetage see teise sisse:
    sosistama --mudel meedium --keel et %1

Õnnitleme, teil on nüüd kolm skripti Whisperi pisikeste, väikeste ja keskmiste mudelite hõlpsaks kasutamiseks oma helifailidega! Helifaili tekstiks transkribeerimiseks tehke järgmist.

  1. Leidke fail klahviga Windows File Explorer.
  2. Paremklõps tühjale kohale ja vali Avage terminalis.
  3. Tippige see käsk, asendades "wht" sõnaga "whs" või "whm", et kasutada väikese või keskmise keelega mudeleid:
    midaTEIE_AUDIO_FILE.mp3

Tippimine helikiirusel sosinal

Isegi kõige kiiremad puutetundlikud masinakirjutajad ei suuda meie kõnekiirust võrrelda. Kuid kuni viimase ajani ei olnud trükkimise asemel rääkimine dokumentide loomiseks optimaalne.

Enamik häälest tekstiks muutmise lahendusi andis keskpäraseid tulemusi. Võite leida mõned proovimist väärt lahendused, kuid need olid keerulised kasutada või kulukad. Õnneks muutis Whisper seda kõike.

Pärast ülaltoodud toiminguid peaksite olema valmis oma häält suure täpsusega transkribeerima või tõlkima, kasutades ainult ühte käsku.