Kuidas ekstraktida teksti PDF-idest ja piltidest Linuxis gImageReaderi abil

Kui olete üliõpilane või teie töö hõlmab paljude piltide ja PDF-failidega töötamist, oleksite mingil hetkel tundnud vajadust pildilt või dokumendist teksti eraldada.

Õnneks teeb teksti väljatõmbamine selle võimalikuks. Ja selleks saate kasutada mitmeid tööriistu. gImageReader on üks paljudest tööriistadest. Seda on tasuta kasutada ja see töötab nii pildifailide kui ka PDF-dokumentidega.

Tutvume gImageReaderiga üksikasjalikumalt ja vaatame, kuidas saate seda kasutada piltidelt ja PDF-failidest teksti eraldamiseks.

Mis on gImageReader?

gImageReader on rakendus, mis võimaldab teil Linuxis piltidelt ja PDF-failidest teksti ekstraktida. See on sisuliselt GUI või kasutajaliides Tesseracti OCR-mootor, an avatud lähtekoodiga Hewlett-Packardi välja töötatud mootor, mida peetakse üheks parimaks saadaolevaks OCR-mootoriks.

gImageReaderi abil saate mõne lihtsa klõpsuga hõlpsalt ja üsna täpselt piltidelt või PDF-dokumentidest teksti eraldada. Seejärel saate eksportida ekstraheeritud teksti edasiseks kasutamiseks teksti- või PDF-faili.

instagram viewer

gImageReaderi omadused

gImageReader sisaldab järgmisi funktsioone:

Importige PDF-dokumente ja pilte erinevatest allikatest (ketas, skannimisseadmed, lõikelaud ja ekraanipilt)
Kujutiste või dokumentide paketttöötlus, st teksti eraldamine mitmest pildist või dokumendist korraga
Tuvastage tekstilõigud lihttekstina või hOCR-dokumentidena
Sisseehitatud õigekirjakontroll
Automaatne tekstiala tuvastamine
Põhiline pildi/dokumendi redigeerimine
Salvestage väljund tekstifailina

Kuidas installida gImageReader Linuxi

gImageReader on saadaval aadressil enamik suuremaid Linuxi distributsioone. Kuid enne selle installimisega jätkamist peate oma süsteemi installima Tesseracti OCR-mootori.

Selleks avage Tarkvarahaldur oma süsteemis ja otsige tesserakt. Kui see tagastab tulemuste loendi, installige tesserakt-ocr ja tesserakt-ocr-eng paketid. Kui olete terminaliga mugavam, saate paketi installimiseks kasutada ka käsurea paketihaldureid.

Pärast seda tutvuge järgmistes jaotistes toodud installijuhistega, et installida gImageReader oma arvutisse.

Kui kasutate Debianit või Ubuntu, avage terminal ja käivitage gImageReaderi installimiseks järgmised käsud:

sudo add-apt-repository ppa: sandromani/gimagereader
sudo apt-saada värskendada
sudo apt installida gimagereader

Fedoras, CentOSis või Red Hat Enterprise Linuxis (RHEL):

sudo dnf installida gimagereader-qt

Peal Arch Linux või Manjaro:

sudo pacman -S gimagereader

openSUSE kasutajad saavad installida gImageReader, kasutades:

sudo zypper installida gimagereader

Kui kasutate mõnda muud Linuxi distributsiooni, saate gImageReaderi luua allikast, järgides juhiseid aadressil gImageReaderi GitHub.

Kuidas kasutada gImageReaderit Linuxis

gImageReaderit on üsna lihtne kasutada ja see töötab igasuguste pildifailide ja PDF-dokumentidega. Linuxis piltidest või PDF-failidest teksti eraldamiseks järgige allolevaid juhiseid.

Avage rakenduste menüü ja otsige gImageReaderja käivitage rakendus. Lööge Maksimeerida nuppu gImageReaderi aknas, et avada see täisekraanvaates.

Nüüd klõpsake nuppu Lisa pilte nuppu tööriistariba all vasakul paanil ja kasutage failibrauserit, et valida pilt(id) või PDF(id), millest soovite teksti eraldada.

Klõpsake Okei piltide või PDF-ide importimiseks gImageReaderisse. Või kui soovite ekraanil kuvatavast tekstist eraldada, klõpsake rippmenüül valiku kõrval Lisa pilte nuppu ja valige Tee kuvatõmmis. gImageReader teeb ekraani sisust ekraanipildi.

Kui olete pildi gImageReaderisse lisanud, klõpsake nuppu Lülita välja väljundpaan nuppu (üks märkmiku ikooniga), et kuvada väljundpaan. Siin kuvatakse piltidest või PDF-failidest eraldatud tekst.

Olenevalt sellest, kuidas soovite jätkata, on teil nüüd võimalus pildil või PDF-is olev tekst automaatselt või käsitsi tuvastada. Selle automaatseks tegemiseks klõpsake nuppu Automaattuvastus paigutus nuppu ja see tõstab esile kõik valitud pildi või PDF-dokumendi tekstiplokid.

Pärast seda puudutage nuppu Valiku tuvastamine > Praegune leht teksti väljavõtmisprotsessi alustamiseks.

Teise võimalusena võite teksti käsitsi valimiseks hõljutada kursorit ekstraheeritava teksti kohal ja joonistada juukseristi abil kast selle ala ümber, kust soovite teksti ekstraheerida. Seejärel vajutage nuppu Tunnistage valik jätkamiseks nuppu.

Kui see on PDF-dokument ja soovite eri lehtedelt teksti eraldada, puudutage nuppu Pluss (+) nuppu lehtede ümberpööramiseks.

Tagasi minemiseks vajutage nuppu Miinus (-) nuppu. Seejärel valige tekst, mida soovite ekstraktida, ja klõpsake nuppu Tunnistage valik nuppu selle eraldamiseks.

Kuigi harva, võib juhtuda, et gImageReader tagastab ekstraktitud teksti muus keeles kui inglise keeles. Kui see juhtub, puudutage lihtsalt kõrval olevat rippmenüü nuppu Tunnistage valik nuppu ja valige üks ingliskeelsetest valikutest.

Lõpuks klõpsake ekstraheeritud teksti salvestamiseks nuppu Salvesta väljund nuppu. See avab akna Salvesta. Siin anna failile nimi ja vajuta Okei.

Mida veel saate gImageReaderiga teha?

Nagu varem mainitud, annab gImageReader teile ka võimaluse muuta imporditud piltide või dokumentide teatud aspekte, nagu nende heledust, kontrasti ja eraldusvõimet. Lisaks saate vajadusel ka värve ümber pöörata või pilte või dokumente pöörata.

Enamik neist valikutest võib osutuda kasulikuks, kui pildil või dokumendil olev tekst ei ole gImageReaderi jaoks loetav ja takistab seetõttu tööriistal teksti ära tunda.

Nende redigeerimisvalikute avamiseks klõpsake nuppu Pildi juhtelemendid nuppu ja see avab peamise tööriistariba all oleva minitööriistariba. Siit valige pildi või dokumendi soovitud redigeerimistoimingu tegemiseks sobivad nupud.

Teksti ekstraheerimine Linuxis on gImageReaderi abil lihtne

Teksti ekstraheerimiseks on sageli vaja õiget tööriista: sellist, mis kasutab usaldusväärset ja täpset OCR-mootorit võimaldab pildil või dokumendil teksti tõhusalt tuvastada, nii et saate selle tõhusalt välja võtta tüli.

gImageReader saavutab selle kenasti tänu Tesseracti OCR-mootorile, mida ta taustal kasutab. Arvestades selle kasutusmugavust, on gImageReader kahtlemata üks parimaid Linuxi jaoks saadaolevaid teksti ekstraheerimise tööriistu.

Teise võimalusena, kui otsite lihtsamat lahendust, võite vaadata TextSnatcherit, mis on kiire ja üsna lihtne kasutada.

About Technology - denizatm.com

Kuidas ekstraktida teksti PDF-idest ja piltidest Linuxis gImageReaderi abil

Mis on gImageReader?

gImageReaderi omadused

Kuidas installida gImageReader Linuxi

Kuidas kasutada gImageReaderit Linuxis

Mida veel saate gImageReaderiga teha?

Teksti ekstraheerimine Linuxis on gImageReaderi abil lihtne

Kategooriad

Recent Post

Feedbin: Google'i lugeja asendamine, mis võib olla väärt 2 dollarit kuus

5 tööriista, mis muudavad lõtvuse veelgi paremaks

3 põhjust, miks peaksite arvustusi Google Play poodi jätma