Reklaam

Tänu optilise märgituvastuse (OCR) tehnoloogiale pole piltide teksti väljatõmbamine kunagi olnud lihtsam kui praegu.

OCR võimaldab meil teha igasuguseid kasulikke asju, näiteks otsida pilte tekstpäringute abil, paljundada dokumente ilma neid käsitsi tippimata ja isegi käsitsi kirjutatud teksti teisendamine digitaalseks tekstiks Kuidas teisendada käsitsikirjaga tekst teksttekstiga OCR-i abilKas peate käsitsi kirjutatud märkmed redigeerimiseks digitaliseerima või need hilisemaks salvestama? Siin on parimad OCR-tööriistad käekirja muutmiseks tekstiks. Loe rohkem .

Mis on aga optiline märkituvastus? Kuidas see tegelikult töötab? See võib teile tunduda musta maagiana, kuid selle artikli lõpuks saate hästi aru, kuidas arvutid tähti ja sõnu ära tunnevad.

Kuidas tegelaskuju optiline tuvastus töötab

Et mõista, kuidas tekst pildist eraldatakse, peame kõigepealt mõistma, mis on kujutised ja kuidas neid arvutites salvestatakse.

A piksel on kindla värvi üks täpp. An pilt on sisuliselt pikslite kogum. Mida rohkem on pildil piksleid, seda kõrgem on selle eraldusvõime. Arvuti ei tea, et teeviida pilt on tõesti teeviit - ta lihtsalt teab, et esimene piksel on seda värvi, järgmine piksel on seda värvi ja kuvab kõik oma pikslid, et saaksite neid näha.

instagram viewer

See tähendab, et tekst ja mittetekstid ei erine arvutist ning seetõttu on märkide optiline tuvastamine nii keeruline. Seda silmas pidades toimib see järgmiselt.

1. samm: pildi eeltöötlus

Enne teksti tõmbamist tuleb pilti teatud viisil masseerida, et ekstraheerimine oleks lihtsam ja õnnestuks. Seda nimetatakse eeltöötluseks ja erinevad tarkvaralahendused kasutavad erinevaid tehnikate kombinatsioone.

Levinumate eeltöötlusvõtete hulka kuuluvad:

Binaarsus
Iga pildi piksel teisendatakse mustaks või valgeks. Eesmärk on selgeks teha, millised pikslid kuuluvad teksti ja millised pikslid kuuluvad tausta, mis kiirendab tegelikku OCR-protsessi.

Binaarsus tähemärkide optilise tuvastamise jaoks

Deskew
Kuna dokumente skannitakse harva täiusliku joondusega, võivad märgid olla kaldus või isegi tagurpidi. Eesmärk on siin tuvastada horisontaalsed tekstiread ja seejärel pöörata pilti nii, et need read oleksid tegelikult horisontaalsed.

Kaotatud
Ükskõik, kas pilt on binaarseks tehtud või mitte, võib esineda müra, mis võib häirida märkide tuvastamist. Despeckling vabaneb sellest mürast ja proovib pilti siluda.

Joone eemaldamine
Tuvastab kõik read ja märgistused, mis tõenäoliselt ei ole märgid, seejärel eemaldab need, nii et tegelik OCR-protsess ei lähe segadusse. See on eriti oluline tabelite ja kastidega dokumentide skannimisel.

Tsoonimine
Eraldab pildi eraldi tekstiosadeks, näiteks mitmeveeruliste dokumentide veergude identifitseerimiseks.

Tsoon karakterite optiliseks tuvastamiseks
Kujutise krediit: WayneRay /Wikimedia

2. samm: pildi töötlemine

Esiteks proovib OCR-protsess luua pildi iga tekstirea algtaseme (või kui see oli eeltöötlemise tsooni järgi, töötab see iga tsooni ükshaaval). Iga tuvastatud märgirida käsitletakse ükshaaval.

OCR-tarkvara tuvastab märkide iga rea ​​jaoks tähemärkide vahe, otsides mittetekstiliste pikslite vertikaalseid jooni (see peaks olema korraliku binaarsuse korral ilmne). Iga pikslipakett nende mittetekstiliste ridade vahel on tähistatud ühe märgiga tähisena. Seetõttu nimetatakse seda sammu märgistamine.

Kujutiste töötlemine optilise märkide tuvastamiseks

Kui kõik pildi potentsiaalsed märgid on märgistatud, saab OCR-tarkvara kasutada kahte erinevat tehnikat, et tuvastada, mis need märgid need märgid tegelikult on:

Mustrituvastus
Igat märki võrreldakse pikslit-pikslit kogu tuntud glüfide komplektiga - sealhulgas numbrite, kirjavahemärkide ja muude erisümbolitega - ja valitakse lähim vaste. Seda tehnikat nimetatakse ka maatriksi sobitamiseks.

Siin on mitmeid puudusi. Esiteks peavad žetoonid ja glüüfid olema sama suurusega, vastasel juhul ükski neist ei ühti. Teiseks peavad žetoonid olema samas kirjas nagu glüüfid, mis välistab käekirja. Kuid kui märgi font on teada, võib mustri äratundmine olla kiire ja täpne.

Funktsioonide ekstraheerimine
Iga märki võrreldakse erinevate reeglitega, mis kirjeldavad, mis laadi see võib olla. Näiteks on kaks horisontaaljoonega ühendatud võrdse kõrgusega vertikaalset joont tõenäoliselt pealinn H.

See tehnika on kasulik, kuna see pole piiratud teatud fondide või suurustega. See võib olla ka nüansirikkam, kui tuvastada Pealinna I, väiketähtede L ja arvu 1 vahelised peened erinevused. Negatiivne külg? Reeglite programmeerimine on palju keerulisem kui tähise pikslite võrdlemine lihtsalt glüfis sisalduvate pikslitega.

3. samm: pildi järeltöötlus

Kui kõik märkide sobitamine on lõppenud, võib OCR-tarkvara seda lihtsalt päevas kutsuda ja tulemusi teile esitada. Kuid tavaliselt on vaja teha natuke rohkem varjatud veendumusi, et te ei viskaks silma pilgutavatele tulemustele.

Leksikaalne piirang
Kõiki sõnu võrreldakse kinnitatud sõnade leksikoniga ja need, mis ei sobi, asendatakse kõige lähedasema sõnaga. Sõnastik on üks leksikoni näide. See aitab parandada ekslike tähemärkidega sõnu, näiteks „th0rn” asemel „okk”.

Rakendusespetsiifilised optimeerimised
Kui OCR-i kasutatakse nišisätetes, näiteks meditsiiniliste või juriidiliste dokumentide jaoks, võib kasutada spetsiaalset OCR-i, mis on spetsiaalselt selle seade jaoks loodud. Sellistel juhtudel võib OCR-tarkvara otsida matemaatikavõrrandeid, valdkonnapõhiseid termineid jne.

Looduslik keel
See täiustatud tehnika parandab lauseid, kasutades keelemudelit, mis kirjeldab, kui tõenäoliselt teatud sõnadele järgnevad teised sõnad. See sarnaneb tehnoloogiaga, mis ennustab, millise sõna soovite mobiiliklaviatuuril järgmisena kirjutada.

Kui see on hästi tehtud, võib selle tulemuseks olla tekst, mis on märkimisväärselt loetav.

Soovitatavad märkide optilise tuvastuse tööriistad

Nüüd, kui teate, kuidas OCR töötab, peaks olema lihtne näha, et mitte kõik OCR-tööriistad pole võrdsed. Teie tulemuste täpsus sõltub suuresti sellest, kui hästi tarkvara rakendab selles artiklis käsitletud erinevaid OCR-tehnikaid.

Soovitame selleks OneNote'i, mis on vaid üks põhjus miks see võidab Evernote'i märkmete tegemiseks Evernote vs. OneNote: milline märkmete tegemise rakendus sobib teile?Evernote ja OneNote on hämmastavad märkmete tegemise rakendused. Nende kahe vahel on raske valida. Võrdlesime kõike alates liidesest kuni märkmekorralduseni, et aidata teil valida. Mis sobib teie jaoks kõige paremini? Loe rohkem . Kui soovite maksta esmaklassilise lahenduse eest, kaaluge OmniPage'i kasutamist. Vaadake meie OneNote vs. OmniPage OCR-i jaoks Tasuta vs. Tasuline OCR-tarkvara: võrreldud Microsoft OneNote ja Nuance OmniPageOCR-skanneri tarkvara võimaldab teil teisendada piltide või PDF-ide teksti redigeeritavaks teksdokumendiks. Kas tasuta OCR-tööriist nagu OneNote on piisavalt hea? Uurime välja! Loe rohkem . Mobiilidokumentide puhul soovite neid vaadata OCR-rakendused Android-seadmetele 6 parimat Androidi OCR-rakendust tekstide ekstraheerimiseks piltideltKas peate trükitud teksti digiteerima, et saaksite sellest säilitada pehmet koopiat? Sel juhul on teil vaja vaid optilise märgituvastuse (OCR) tööriista. Loe rohkem .

Kuidas te OCR-i kasutate? Kas teil on mõni lemmik OCR-tööriist, mida me ei maininud? Andke meile allolevates kommentaarides teada!

Joel Lee'l on B.S. arvutiteaduses ja üle kuue aasta kestnud erialase kirjutamise kogemus. Ta on MakeUseOfi peatoimetaja.