Nvidia GPU-d on jõudnud kaugele mitte ainult mängude jõudluse, vaid ka muude rakenduste, eriti tehisintellekti ja masinõppe osas. Nvidia GPU jõudluse kaks peamist tegurit on CUDA ja Tensori tuumad, mis on olemas peaaegu igas kaasaegses Nvidia GPU-s, mida saate osta.

Aga mida need tuumad täpselt teevad ja kui neid mõlemaid kasutatakse tehisintellekti ja masinõppe rakendustes, siis kuidas need erinevad?

Mis on CUDA südamikud ja milleks neid kasutatakse?

CUDA tähistab Compute Unified Device Architecture'i, mis ei selgita nende olemasolu GPU-s kuigi palju. Need tuumad lisati Nvidia GPU-sarja 2014. aasta Maxwelli arhitektuuris ja on spetsialiseerunud paralleeltöötlusele.

Need on oma toimimise poolest üsna sarnased protsessori tuumadega, kuid saavad teatud osadega paremini hakkama ülesanded, sealhulgas krüptograafilised räsid, füüsikamootorid, andmeteadusega seotud projektid ja isegi mäng arengut.

Pildi krediit: Nvidia

Kuigi oleme juba käsitlenud kuidas CUDA tuumad teie arvuti mängujõudlust mõjutavad

, on need sama kasulikud numbrite krõmpsumisel. Kuigi isegi kõige võimsamatel protsessoritel on kahekohalised tuumad, on Nvidia GPU-del mitu tuhat CUDA südamikku, mis muudab need arvulise töökoormuse korral palju kiiremaks. Lisaks, kuna nad teevad neid arvutusi paralleelselt, saavutate CUDA tuumadega palju suurema kiiruse.

CUDA tuumad on kiiremad kui tavalised CPU tuumad, kui rääkida numbritest, kuid need pole siiski ideaalne lahendus. Seda seetõttu, et neid ei olnud kunagi ette nähtud sellisel viisil kasutamiseks. CUDA tuumad olid spetsiaalselt loodud graafiliseks töötlemiseks ja Nvidia GPU-de mängude jõudluse suurendamiseks.

Mis on tensori südamikud ja milleks neid kasutatakse?

Kuna GPU-sid hakati kasutama tehisintellekti ja masinõppe töökoormuste jaoks, tutvustas Nvidia alates 2017. aastast oma andmekeskuse GPU-de Volta arhitektuuris Tensori tuumasid.

Siiski kulus Nvidia Turingi arhitektuurile (RTX 20-seeria GPU-d), enne kui need tuumad jõudsid tarbijate GPU-desse. Pea meeles et kuigi GTX 16-seeria kaardid põhinevad samuti Turingi arhitektuuril, ei sisalda need kiirte jälgimist ega Tensorit südamikud.

Kui CUDA tuumad olid parimal juhul arvutusliku töökoormuse jaoks piisavad, siis Tensori tuumad suurendasid eelmist, olles oluliselt kiiremad. Kui CUDA tuumad suudavad ühe kellatsükli kohta teha ainult ühe toimingu, siis Tensori tuumad saavad hakkama mitme toiminguga, mis annab neile uskumatu jõudluse tõuke. Põhimõtteliselt suurendavad Tensori tuumad maatriksi korrutamise kiirust.

See arvutuskiiruse suurendamine toimub täpsuse hinnaga, kuna CUDA tuumad on oluliselt täpsemad. See tähendab, et masinõppemudelite treenimisel on Tensori tuumad arvutuskiiruse ja üldkulude osas palju tõhusamad; seetõttu jäetakse täpsuse kaotus sageli tähelepanuta.

Kuidas Tensori ja CUDA tuumad mõjutavad GPU jõudlust?

Nagu ilmselt juba praegu võite arvata, saavad CUDA ja Tensori tuumad hakkama sama töökoormusega, kuid mõlemad on vastavalt graafika renderdamise ja numbrilise töökoormuse jaoks spetsiaalsed tuumad.

See tähendab, et olenevalt kasutajast, kellele konkreetne GPU on suunatud, on sellel erinev arv südamikke. Näiteks kui võtame arvesse RTX 4090, Nvidia uusimat ja parimat tarbijatele mõeldud GPU-d, saate palju rohkem CUDA südamikke kui Tensori tuumasid. Täpsemalt 16 384 CUDA südamikku kuni 512 Tensori südamikku.

Võrdluseks, andmekeskustele mõeldud Nvidia L40 GPU, mis põhineb samal Ada Lovelace'i arhitektuuril nagu RTX 4090, sisaldab 18 176 CUDA tuuma ja 568 Tensori tuuma. See ei pruugi tunduda nii suur erinevus, kuid see võib nende GPU-de jõudlust oluliselt mõjutada.

Teoreetilise jõudluse osas on L40 FP16 ja FP32 jõudlus 90,52 TFlopsi ning FP64 jõudlus 1414 GFlopi. Võrreldes RTX 4090 82,58 TFlops FP16 ja FP32 jõudlusega ja 1290 GFlopi FP64 jõudlusega, on see tohutu jõudluse kasv.

Kui te pole GPU arvuliste jõudlusnumbritega hästi kursis, ei pruugi ülaltoodud Nvidia GPU ujukoma jõudlusnäitajad teile palju tähendada. Lühidalt aga näitavad need, et L40 on palju kiirem kui RTX 4090, kui tegemist on arvuliste arvutustega – tehisintellekti ja masinõppepõhiste töökoormustega.

Jõudluse paranemine muutub veelgi muljetavaldavamaks, kui arvestada kahe GPU energiatarbimist. RTX 4090-l on hinnatud TGP (mitte segi ajada TDP-ga, seal on väike erinevus) 450 W, samas kui L40 nimivõimsus on ainult 300 W.

Mõlemad GPU-d käitavad mänge ja treenivad teie masinõppemudelit suurepäraselt. RTX 4090 saab aga paremini hakkama mängude jooksmisega ja L40 masinõppemudelite treenimisega.

CUDA tuumad vs. Tensorsüdamikud: kumb on olulisem?

Mõlemad tuumad on võrdselt olulised, olenemata sellest, kas ostate oma GPU mängimiseks või asetate selle andmekeskuse riiulisse. Nvidia tarbijatele mõeldud mängugraafikaprotsessorid kasutavad paljusid AI-funktsioone (eelkõige DLSS-i) ja Tensori tuumade olemasolu võib kasuks tulla.

Mis puutub andmekeskuse GPU-desse, siis CUDA ja Tensori tuumad töötavad suurema osa ajast nagunii paralleelselt, nii et saate mõlemad, olenemata valitud GPU-st. Selle asemel, et keskenduda oma GPU teatud tüüpi tuumale, peaksite keskenduma rohkem sellele, mida graafikakaart tervikuna teeb ja millisele kasutajatüübile see mõeldud on.

CUDA tuumad on spetsialiseerunud graafiliste töökoormuste käsitlemisele, samas kui Tensori tuumad on numbrilistes paremad. Nad töötavad koos ja on teatud määral omavahel asendatavad, kuid tegelevad oma spetsialiseerumisaladega, mistõttu nad eksisteerivadki.

Erinevad GPU-d on spetsialiseerunud erinevatele aspektidele. RTX 4090 purustab hõlpsalt kõik mängud, mida te selle peale visatate, samas kui RTX 4060 saab hakkama ainult 1080p mängimisega. Kui te ei mängi oma GPU-ga ja vajate seda ainult numbrite krõbistamiseks või närvivõrkude treenimiseks, on teie parim valik A-seeria andmekeskuse GPU nagu A100 või isegi L40.

Teie GPU tuumad on olulised

Rohkem GPU tuumasid annab teile parema üldise jõudluse, kuna teie GPU on mitmekülgsem ja sellel on spetsiaalsed ressursid erinevate ülesannete lahendamiseks. Suurima tuumade arvuga GPU pimesi hankimine pole aga parim otsus. Võtke hetk, et hoolikalt kaaluda oma kasutusjuhtumit, heita pilk GPU kui terviku võimalustele ja seejärel teha oma valik.