Recunoaștere optică a caracterelor (OCR). Sisteme de recunoaștere a textului (sisteme OCR)

18.09.2020 Sfat

Sistemele de recunoaștere optică a caracterelor (OCR) au devenit o parte integrantă a pachetelor integrate care acceptă introducerea, stocarea și procesarea de către computer a documentelor pe hârtie și electronice. Sistemul include un scanner pentru introducerea informațiilor.

Dacă imaginea creată de scaner conține text și imagini, atunci folosind program special Recunoașterea optică a textului (OCR) poate:

  • - separați textul de imagini;
  • - scrieți acest text într-un format de fișier de procesor de text.

Softwareîn sistemele OCR moderne, analizează formele de litere și creează fisier text, în care textul recunoscut este scris caracter cu caracter cu formarea secvențială a cuvintelor și propozițiilor.

Există două tipuri de pachete OCR: învățare și inteligente. Primele pachete de recunoaștere optică a caracterelor aveau o împărțire clară după tip. Recent, a existat o tendință de a combina aceste două tipuri într-un singur pachet, ceea ce reflectă încercările de a dezvolta algoritmi de recunoaștere fundamental noi.

Pachetele software OCR care pot fi predate au constituit majoritatea dezvoltărilor timpurii. Astfel de pachete sunt teoretic capabile să învețe să recunoască orice caractere din orice tip de literă. Pentru a antrena un program pentru un anumit tip de caractere, trebuie să scanați o imagine de referință și apoi să predați fiecare caracter specific. Aceasta este o procedură destul de lungă, totuși, dacă acest set cu cască va fi folosit în mod regulat, merită să petreceți câteva ore învățând. Aceste tipuri de programe compară fiecare caracter individual de pe pagină cu caracterele din tabelele de căutare create în timpul antrenamentului, creând un fișier text.

Pachetele inteligente OCR nu necesită instruire și pot interpreta formele caracterelor, indiferent de tipul de liter utilizat. Munca acestor programe este foarte impresionantă: documentul este trecut prin scaner, rezultatul este procesat de un program inteligent OCR și scoate un fișier text. Pentru o pagină A4, întreaga procedură durează puțin peste un minut. Cu o precizie ridicată, este mult mai rapid decât introducerea manuală.

FineReader este un sistem de recunoaștere optică a textului (OCR) care convertește ceea ce este primit folosind un scaner imagine grafică(imagine) în text (adică în coduri de litere „înțelese” de sistem).

Procesul de introducere a textelor într-un computer se desfășoară în mai multe etape: scanare; selectarea blocurilor din imagine; recunoaştere; verificarea erorilor; salvarea rezultatului recunoașterii (transferarea acestuia într-o altă aplicație, într-un buffer etc.)

Figura 2. Interfața programului FineReader 11

Sistemul inteligent de recunoaștere optică a caracterelor (OCR) Cuneiform operează în mediu Microsoft Windows 3.1 sau o versiune ulterioară. Sistemul are următoarele capacități tehnologice: acceptă o gamă largă de scanere desktop, recunoaște o pagină scanată (inclusiv text cu mai multe coloane și text cu design complex); vă permite să scanați și să înregistrați o imagine ca TIFF și să rulați recunoașterea mai târziu (acest lucru face ca scanarea unui teanc de documente să fie convenabilă); poate citi imagini scanate de alte programe și faxuri în modurile Fine și Normal; recunoaște literele alfabetului rus și englez, excluzând fonturile stilizate, cum ar fi literele gotice; poate păstra formatarea și tabularea originale și poate ajusta indentarea și alinierea; nu recunoaște textul scris de mână.

Ecranul Suneiform conține patru părți principale, marcate în figură.


Figura 3. Interfața programului Сuneiform

Noua versiune a sistemului de recunoaștere Intuitia 2.0 pentru Windows folosește tehnologia Omnifont (recunoaște diverse fonturi fără nicio pregătire). Oferă recunoașterea imaginii materialelor text din fișiere în formate TIFF, PCX, BMP, precum și de la toate scanerele care acceptă protocolul TWAIN, precum și de la scanere din familia HP ScanJet (direct).

Sistem de introducere și recunoaștere a textelor scrise de mână PenO"Man pentru Windows - un instrument pentru introducerea scrisului de mână, recunoașterea și editarea textelor folosind un stilou: este posibil să introduceți și să editați textul scris continuu atât în ​​engleză, cât și în rusă în toate aplicații Windows; procesul de introducere este similar cu utilizarea obișnuită a unui stilou atunci când scrieți de la stânga la dreapta, de preferință cu o scriere de mână îngrijită și cu o înclinare clasică la stânga; editarea textului deja introdus este posibilă ca urmare a utilizării funcțiilor standard (inserarea, ștergerea, transferul, activarea fragmentelor de text etc.), precum și a simplelor lovituri ale creionului.

Sistemele de recunoaștere optică a caracterelor (OCR) sunt proiectate pentru introducerea automată documente tipărite la calculator.

FineReader este un sistem optic de recunoaștere a textului omnifont. Aceasta înseamnă că vă permite să recunoașteți textele tastate în aproape orice font fără instruire prealabilă. O caracteristică specială a programului FineReader este acuratețea sa ridicată de recunoaștere și sensibilitatea scăzută la defectele de imprimare, care este obținută prin utilizarea tehnologiei de „recunoaștere adaptivă holistică vizată”.

Procesul de introducere a unui document într-un computer poate fi împărțit în două etape:

1. Scanare.În prima etapă, scanerul joacă rolul „ochiului” computerului dvs.: „vizează” imaginea și o transmite computerului. În acest caz, imaginea rezultată nu este altceva decât un set de puncte negre, albe sau colorate, o imagine care nu poate fi editată în niciun editor de text.

2. Recunoaştere. Procesarea imaginii prin sistem OCR.

Să ne uităm la al doilea pas mai detaliat.

Procesarea imaginii de către sistemul FineReader include analiza imaginii grafice transmise de scaner și recunoașterea fiecărui caracter. Procesele de analiză a aspectului paginii (determinarea zonelor de recunoaștere, tabele, imagini, evidențierea liniilor și caracterelor individuale din text) și recunoașterea imaginilor sunt strâns legate: algoritmul de căutare bloc folosește informații despre textul recunoscut pentru o analiză mai precisă a paginii .

După cum sa menționat deja, recunoașterea imaginii se realizează pe baza tehnologiei „recunoașterii adaptive holistice vizate”.

Integritate- un obiect este descris ca un întreg folosind elemente semnificative și relații dintre ele.

Concentrează-te- recunoașterea este construită ca un proces de prezentare și testare intenționată a ipotezelor.

Adaptabilitate- capacitatea sistemului OCR de a auto-învăța.

În conformitate cu aceste trei principii, sistemul înaintează mai întâi o ipoteză despre obiectul de recunoaștere (un simbol, o parte a unui simbol sau mai multe simboluri lipite), apoi o confirmă sau infirmă, încercând să detecteze secvenţial toate elementele structurale și relaţiile. conectându-le. Fiecare element structural conține părți care sunt semnificative pentru percepția umană: segmente, arce, inele și puncte.

Urmând principiul adaptabilității, programul se „ajustează”, folosind experiența pozitivă dobândită de la primele simboluri recunoscute cu încredere. Căutarea direcționată și luarea în considerare a contextului fac posibilă recunoașterea imaginilor rupte și distorsionate, făcând sistemul rezistent la posibile defecte de scriere.

Ca rezultat al muncii tale, textul recunoscut va apărea în fereastra FineReader, pe care îl poți edita și salva în formatul cel mai convenabil pentru tine.

Caracteristici noi ale abbyy FineReader 7.0

Precizia recunoașterii

Precizia recunoașterii a fost îmbunătățită cu 25%. Documentele cu machete complexe sunt mai bine analizate și recunoscute, în special cele care conțin secțiuni de text pe un fundal colorat sau un fundal format din puncte mici, documente cu tabele complexe, inclusiv tabele cu separatoare albe, tabele cu celule colorate

ÎN versiune noua S-au adăugat dicționare specializate pentru engleză și germană, inclusiv termenii juridici și medicali cei mai des utilizați. Acest lucru vă permite să atingeți un nivel calitativ nou în recunoașterea documentelor legale și medicale.

Suport de formatXMLși integrarea cuMicrosoftBirou

A apărut în FineReader nou format salvare - Microsoft Word XML. Acum utilizatorii noii versiuni de Microsoft Office 2003 vor putea lucra cu documente recunoscute de FineReader, profitând de toate avantajele formatului XML!

Integrarea FineReader cu Microsoft Word 2003 vă permite să combinați capabilitățile puternice ale acestor două aplicații pentru procesarea textului recunoscut. Veți putea verifica și edita rezultatele recunoașterii folosind instrumente familiare Word, în timp ce verificați simultan textul transferat în Word cu imaginea originală- fereastra Zoom FineReader se deschide direct în fereastra Word.

Noile funcții îți vor face munca mai convenabilă. Când creați un document Word, puteți apela FineReader, recunoașteți textul și introduceți-l în locul documentului unde se află cursorul, adică puteți colecta cu ușurință informații din diferite surse de hârtie sau fișiere PDF într-un singur document. Rezultatele recunoașterii pot fi acum trimise prin e-mail ca atașament în oricare dintre formatele de salvare acceptate.

Performanta imbunatatitaFineReaderCuPDFdocumente

Calitatea recunoașterii fișierelor PDF s-a îmbunătățit semnificativ. Majoritatea documentelor conțin text în plus față de imaginea paginii. FineReader 7.0 poate extrage acest text și îl poate utiliza pentru a verifica rezultatele și pentru a îmbunătăți calitatea recunoașterii.

Acum puteți edita documente PDF recunoscute în fereastra editorului FineReader: modificările efectuate vor fi salvate în oricare dintre modurile de salvare a fișierelor PDF acceptate în program.

Formatul fișierelor PDF create de FineReader este optimizat pentru publicarea lor pe Internet - utilizatorul va putea vizualiza conținutul primelor pagini în timp ce restul documentului este descărcat.

Noi opțiuni de salvare

Nou format pentru salvarea rezultatelor recunoașterii - MicrosoftPower point- vă permite să creați rapid noi prezentări sau să le editați pe cele existente.

Când salvați în MicrosoftCuvânt Dimensiunea fișierului rezultat a fost redusă, păstrarea formatării documentelor cu diverși delimitatori a fost îmbunătățită și au apărut noi opțiuni pentru salvarea imaginilor.

Afișare îmbunătățită a elementelor de aspect complexe la salvare

V HTML, de exemplu, împachetarea textului în jurul imaginilor nedreptunghiulare. În plus, dimensiunea fișierului HTML a fost redusă, ceea ce este foarte important pentru publicarea documentelor pe Internet.

Ușurință în utilizare

Actualizat interfață de utilizator intuitivă. A devenit mai convenabil să lucrezi cu setări profesionale. Barele de instrumente de editare au fost mutate în fereastra în care sunt afișate rezultatele recunoașterii. Au apărut instrumente convenabile pentru gestionarea ferestrelor FineReader: de exemplu, puteți seta un nivel convenabil de mărire în fiecare fereastră.

Actualizat ghid practicîmbunătățirea calității recunoașterii va ajuta un utilizator începător să înceapă rapid, iar un utilizator mai experimentat va putea configura cel mai bine programul pentru a obține rezultate excelente atunci când lucrează cu orice tip de documente.

Oportunități profesionale

Acum în versiune FineReaderProfesionalEdiție acele caracteristici care anterior erau disponibile numai pentru utilizatorii versiunii au devenit disponibile CorporativEdiție:

Recunoaștere îmbunătățită coduri de bare, Recunoașterea codurilor de bare bidimensionale PDF-417 este acceptată.

Instrument de împărțire a imaginii. Cu acesta puteți împărți imaginile în zone și puteți salva fiecare zonă ca o pagină separată a pachetului. Acest lucru facilitează recunoașterea mai multor cărți de vizită scanate împreună, cărți sau imprimări ale diapozitivelor de prezentare PowerPoint.

Căutare morfologică. Orice pachet creat în FineReader poate fi folosit ca bază de date mică

cu posibilitatea de căutare morfologică full-text. Printre toate paginile recunoscute ale pachetului, puteți găsi acele pagini care conțin cuvintele specificate în toate formele lor gramaticale (pentru 34 de limbi cu suport pentru dicționar).

Suport procesorIntelfolosind tehnologiaHiper- Filetat. Utilizarea acestei tehnologii poate crește semnificativ productivitatea, ceea ce este deosebit de important dacă sarcina este de a recunoaște un număr mare de documente.

FineReader 7.0 introduce și alte funcții profesionale:

Scanare față-verso. Scanarea unui document cu o imprimare

cu text pe ambele fețe folosind un scanner care acceptă această opțiune, veți primi imagini cu conținutul fiecărei fețe sub forma a două pagini separate ale pachetului. Dacă trebuie să scanați doar o parte a unui document, puteți dezactiva această opțiune.

Deschiderea fișierelor grafice de format este acceptată JPEG 2000 și salvarea în acest format.

ReţeaposibilitățilorversiuniFineReader Corporate Edition

Toate caracteristicile instalării și utilizării FineReader Corporate Edition într-o rețea corporativă sunt descrise în detaliu în Ghidul administratorului de sistem, pe care îl puteți găsi în subfolder Administrator" sGhid folderele serverului unde a fost instalat FineReader.

Îmbunătățiri majore față de versiunea anterioară:

Suport pentru metode de bază de instalare automată de la un server la stații de lucru. FineReader Corporate Edition acceptă toate metodele principale de instalare automată într-o rețea locală: folosind Active Directory, Microsoft Systems Management Server sau folosind linia de comandă.

Lucrul cu dispozitive multifuncționale, inclusiv cele de rețea. Dispozitivele multifuncționale care combină funcțiile unui scanner, imprimantă, copiator și fax devin din ce în ce mai populare. Acum nu este necesar să instalați fiecare angajat cu propriul său scaner - unul este suficient dispozitiv puternic, cu care lucrează toți utilizatorii organizației. FineReader poate funcționa cu astfel de dispozitive, atât conectate la o stație de lucru, cât și în rețea. Setările speciale ale programului permit utilizatorului să deschidă automat imaginile scanate de oriunde din rețeaua locală sau de pe un server FTP și să le recunoască

Diverse modele de licențiere în volum. Pe lângă acordarea de licențe bazată pe numărul de utilizatori concurenți, au devenit disponibile și alte metode de licențiere. Puteți alege varianta care se potrivește cel mai bine nevoilor dvs.

LicențăAdministrator- un instrument de gestionare a licențelor în rețea. ÎN FineReaderCorporativEdiție a apărut un utilitar convenabil de gestionare a licențelor (License Manager). Ajută la urmărirea utilizării FineReader pe stațiile de lucru, la rezervarea licențelor pentru stațiile de lucru și la adăugarea de noi licențe.

Deși progresele realizate în domeniul inteligenței artificiale (AI) în ultimii 50 de ani nu au adus mașinile inteligente cu nici un iotă mai aproape de capacitățile cognitive umane, ar fi nedrept să negem complet progresele în această direcție. Cel mai evident și izbitor exemplu este șahul (ca să nu mai zic mai mult jocuri simple). Un computer încă nu poate imita gândirea noastră, dar este destul de capabil să compenseze acest decalaj cu o cantitate mare de memorie specializată și viteză de căutare. Vladimir Kramnik a descris jocul programului Deep Fritz care l-a învins în 2006 drept „inuman”, în sensul că a contrazis adesea regulile (umane) stabilite de strategie și tactică.

Și în urmă cu puțin peste un an, o altă creație a IBM, care la un moment dat a pus bazele victoriilor triumfale în șah ale computerelor (celebrul Deep Blue), numit Watson, a făcut o nouă descoperire, învingând doi campioni ai popularului test american Jeopardy. cu o marjă largă. Cu toate acestea, este semnificativ faptul că, deși Watson a exprimat în mod independent răspunsurile, întrebările i-au fost încă transmise sub formă de text. Acest lucru sugerează că succesele în multe domenii ale aplicației AI - recunoașterea vorbirii și a imaginilor, traducerea automată - sunt destul de modeste, deși acest lucru nu ne împiedică să le folosim în practică astăzi. Cele mai mari succese, probabil, sunt demonstrate de sistemele optice de recunoaștere a caracterelor (OCR, Optical Character Recognition), cu care aproape toți utilizatorii de PC sunt probabil familiarizați într-un fel sau altul. În plus, evoluții ruseștiîn acest domeniu ei ocupă un loc demn în lume - mă refer la ABBYY FineReader.

Puțină istorie

Versiunea actuală a ABBYY FineReader este numărul 11, adică aplicația a trecut printr-o cale de dezvoltare destul de lungă și chiar și istoria acestui proces prezintă un oarecare interes. Fără a pretinde a fi o cronică exhaustivă, voi da doar principalele repere din ultimul deceniu, în care am urmărit mai mult sau mai puțin FineReader:

AnVersiuneCaracteristici principale
2003 7.0 Creșterea acurateței recunoașterii cu până la 25%. Acest lucru s-a reflectat cel mai mult în tabele, în special în cele complexe, cu celule colorate, divizoare ascunse etc.
2005 8.0 Optimizarea ulterioară a algoritmilor de recunoaștere, care vizează în primul rând să lucreze nu cu scanări de documente, ci cu fotografii digitale. În acest scop au existat funcții suplimentare pregătirea originalelor (eliminarea distorsiunilor, alinierea liniilor etc.).
2007 9.0 Apariția tehnologiei ADRT, care ține cont de structura logică a întregului document procesat (cu mai multe pagini) și este capabilă să evidențieze elemente repetate (anteturi și subsoluri), să conecteze obiecte „curgătoare” (tabele) etc.
2009 10.0 Îmbunătățirea suplimentară a ADRT și a algoritmilor de recunoaștere, crescând acuratețea de procesare a originalelor cu rezoluție scăzută cu până la 30%.
2011 11.0 Atenția principală este acordată vitezei programului. „A doua venire” a modului alb-negru, care la originale de bună calitate oferă o accelerație suplimentară de până la 30%.

Desigur, în același timp, FineReader a extins suportul pentru formatele de documente, instrumente și interfețe încorporate îmbunătățite, reconstrucție îmbunătățită a structurii originalelor etc. Cu toate acestea, punctele evidențiate sunt direct legate de tehnologiile OCR și demonstrează bine procesul de dezvoltare spasmodică. caracteristică sistemelor complexe intensive în cunoștințe când după următoarea „recunoaștere” urmează o anumită perioadă de „liniște”, necesară pentru îmbunătățirea noilor algoritmi. Ele reprezintă valoarea principală a oricărui program OCR și, prin urmare, într-o oarecare măsură informatii detaliate utilizatorii aud rar despre ele. Cu toate acestea, ABBYY a acceptat cu amabilitate să ridice vălul secretului și astăzi avem ocazia să ne uităm la sfântul sfintelor FineReader.

Principii de baza

Deci, deoarece OCR aparține domeniului AI, este logic ca dezvoltatorii să se străduiască să imite cel puțin într-o oarecare măsură activitatea creierului nostru. Desigur, structura sistemului nostru vizual este incredibil de complexă, dar principiile de bază ale „blocurilor mari” ale funcționării acestuia au fost suficient studiate; de ​​obicei sunt trei dintre ele:

  1. Integritate- un obiect este considerat ca o colecție a părților sale și (pentru imagini vizuale) relații spațiale dintre ele. La rândul lor, părțile primesc interpretare doar ca parte a întregului obiect. Acest principiu ajută la construirea și clarificarea ipotezelor, eliminând rapid pe cele improbabile.
  2. Finalitate- întrucât orice interpretare a datelor urmărește un scop specific, recunoașterea este un proces de prezentare a ipotezelor despre un obiect și testarea lor intenționată. Un sistem care funcționează în conformitate cu acest principiu nu numai că va folosi puterea de calcul mai economic, dar va face și mai puține greșeli.
  3. Adaptabilitate- sistemul salvează informațiile acumulate în timpul funcționării și le reutilizează, adică se învață singur. Acest principiu vă permite să creați și să acumulați cunoștințe noi și să evitați rezolvarea în mod repetat a acelorași probleme.

FineReader este singurul sistem OCR din lume care funcționează în conformitate cu principiile descrise mai sus în toate etapele procesării documentelor. Tehnologia corespunzătoare se numește IPA- conform primelor litere ale termenilor englezi. De exemplu, conform principiului integrității, un fragment al unei imagini va fi interpretat ca simbol numai dacă conține toate părțile structurale ale obiectelor similare și cele care se află în anumite relații. Acest lucru ajută la înlocuirea căutării unui număr mare de standarde (în căutarea unuia mai mult sau mai puțin adecvat) cu o testare țintită a unui număr rezonabil de ipoteze, bazându-se pe informații acumulate anterior despre contururile posibile ale unui personaj dintr-un document recunoscut. .

Cu toate acestea, principiile IPA se aplică atunci când se analizează nu numai fragmente corespunzătoare caracterelor individuale (probabil) ci și întreaga imagine sursă a paginii. Majoritatea sistemelor OCR se bazează pe recunoaștere structura ierarhica document, adică pagina este împărțită în elemente structurale de bază, cum ar fi tabele, imagini, blocuri de text, care, la rândul lor, sunt împărțite în alte obiecte caracteristice - celule, paragrafe - și așa mai departe, până la caractere individuale.

O astfel de analiză poate fi efectuată în două moduri principale: de sus în jos, adică de la elemente constitutive la personaje individuale sau, dimpotrivă, de jos în sus. Unul dintre ele este cel mai des folosit, dar ABBYY a dezvoltat un algoritm special MDA(analiza documentelor pe mai multe niveluri), care le combină pe ambele. Pe scurt, arată astfel: structura paginii este analizată folosind o metodă de sus în jos, iar reconstrucția document electronic la finalizare, recunoașterea are loc de jos în sus, dar la toate nivelurile există un mecanism suplimentar părere. Ca urmare, probabilitatea unor erori grave asociate cu recunoașterea incorectă a obiectelor de nivel înalt este redusă drastic.

ADRT

Din punct de vedere istoric, sistemele OCR au evoluat de la recunoașterea caracterelor individuale. Această sarcină este încă cea mai importantă și mai dificilă; cu ea îi sunt asociați cei mai complexi algoritmi. Cu toate acestea, curând a devenit clar că informațiile de nivel superior (de exemplu, despre limba documentului și ortografia corectă a cuvintelor recunoscute) ar putea ajuta la rezolvarea acestei probleme - așa au apărut verificările contextuale și din dicționar. Apoi, dorința de a păstra formatarea și de a recrea structura fizică (adică, pozițiile relative ale diferitelor obiecte) a unui document a condus la necesitatea unei analize detaliate a unei întregi pagini. Este clar că acest lucru afectează semnificativ și calitatea generală a recunoașterii, deoarece ajută la procesarea corectă a aspectului cu mai multe coloane, a tabelelor și a altor metode de aranjare „neliniară” a textului.

Cele mai moderne OCR operează tocmai la aceste trei niveluri - caractere, cuvinte, pagini - exersând, după cum am menționat deja, abordări de sus în jos sau de jos în sus. Cu toate acestea, ABBYY, în conformitate cu principiile IPA, a introdus încă un nivel în FineReader - un total document cu mai multe pagini. În primul rând, acest lucru a fost necesar pentru a reproduce corect structura logică, care în documentele moderne devine din ce în ce mai complexă. Dar există și bonusuri suplimentare: acuratețe sporită și procesare mai rapidă a obiectelor care se repetă, identificarea (și, prin urmare, recunoașterea) mai corectă a obiectelor „curgând” de la o pagină la alta.

Tocmai de aceea a fost dezvoltat ADRT(Adaptive Document Recognition Technology) - tehnologie pentru analiza și sinteza documentelor la nivel logic. În cele din urmă, ajută la ca rezultatul FineReader să funcționeze cât mai asemănător cu cel original. Pentru a face acest lucru, se analizează imaginea întregului document, iar cuvintele recunoscute sunt combinate în grupuri (clustere) în funcție de stilul, mediul și locația din pagină. În acest fel, programul pare să vadă „logica” marcajului documentului și poate unifica ulterior designul rezultatului.

Datorită ADRT, FineReader, începând cu versiunea 9.0, a învățat să detecteze, să recunoască și să reproducă următoarele părți structurale și elemente de formatare a documentului:

  • textul principal;
  • anteturi și subsoluri;
  • numerele paginilor;
  • anteturi de același nivel;
  • Cuprins;
  • inserții de text;
  • Legende pentru desene;
  • Mese;
  • note de subsol;
  • zone de semnătură/sigiliu;
  • fonturi și stiluri.

Proces de recunoaștere

În conformitate cu algoritmul MDA, recunoașterea efectivă începe de sus în jos, de la nivelul paginii. Este clar că cu cât se iau mai multe decizii greșite în etapele incipiente ale acestui proces, cu atât vor fi mai multe în cele ulterioare. Acesta este motivul pentru care acuratețea recunoașterii depinde atât de mult de calitatea originalelor, dar și de algoritmii acestora. pretratament poate avea un impact semnificativ. Astfel, pe măsură ce popularitatea documentelor color a crescut în FineReader, a apărut o procedură de binarizare adaptivă. AB). Dacă scanați un document imediat în modul alb-negru, unde există filigrane sau textul este situat pe un substrat texturat sau color, atunci va apărea invariabil „gunoaie” pe imagine, care va fi apoi destul de dificil de separat de „ utilă” imagine (deoarece informațiile originale despre el sunt deja pierdute). De aceea FineReader preferă să lucreze cu imagini color sau în tonuri de gri, transformându-le independent în alb-negru (acest proces se numește binarizare). Dar asta nu este tot. Deoarece culorile textului și ale fundalului pot varia în cadrul paginii și chiar în cadrul liniilor individuale, AB identifică cuvinte cu mai mult sau mai puțin aceleași caracteristici și selectează parametrii optimi de binarizare pentru fiecare din punctul de vedere al calității recunoașterii. Aceasta este tocmai adaptabilitatea algoritmului, care este, prin urmare, un exemplu de utilizare a feedback-ului în MDA. Este clar că eficacitatea AB depinde în mare măsură de proiectarea documentelor sursă - pe baza de testare ABBYY, acest algoritm a oferit o creștere a preciziei recunoașterii cu 14,5%.

Dar cel mai interesant, desigur, începe atunci când procesul de recunoaștere coboară la cele mai joase niveluri. Așa-numita procedură de împărțire liniară împarte liniile în cuvinte și cuvintele în litere individuale; apoi, în conformitate cu principiul IPA, generează un set de ipoteze (adică opțiuni posibile pentru ce fel de simbol este acesta, în ce simboluri este împărțit cuvântul etc.) și, furnizând fiecăruia o estimare a probabilității, îl trece. la intrarea mecanismului de recunoaștere a caracterelor. Acesta din urmă constă dintr-un număr de așa-numite clasificatoare, fiecare dintre acestea generând, de asemenea, un număr de ipoteze ordonate după gradul de probabilitate așteptat. Cea mai importantă caracteristică a oricărui clasificator este poziția medie a ipotezei corecte. Este clar că cu cât este mai mare, cu atât mai puțină muncă pentru algoritmii ulterioare - de exemplu, verificarea dicționarului. Dar pentru clasificatorii suficient de bine stabiliti, caracteristici precum acuratețea recunoașterii bazate pe primele trei ipoteze sau numai pe prima sunt cel mai adesea evaluate - adică, aproximativ vorbind, capacitatea de a ghici răspunsul corect în trei sau o singură încercare. ABBYY utilizează următoarele tipuri de clasificatoare în sistemele sale: raster, caracteristică, diferenţial de caracteristică, contur, diferenţial structural şi structural - care sunt grupate la două niveluri logice.

Principiul de funcționare RK, sau clasificatorul raster, se bazează pe o comparație pixel cu pixel a unei imagini de caracter cu standarde. Acestea din urmă sunt formate ca urmare a medierii imaginilor din setul de antrenament și sunt reduse la un anumit forma standard; În consecință, dimensiunea, grosimea elementelor și panta sunt, de asemenea, pre-normalizate pentru imaginea recunoscută. Acest clasificator se caracterizează prin ușurință de implementare, viteza de funcționare și rezistență la defectele de imagine, dar oferă o precizie relativ scăzută și de aceea este utilizat în prima etapă - pentru a genera rapid o listă de ipoteze.

clasificator de caracteristici ( PC), după cum sugerează și numele, se bazează pe prezența semnelor unui anumit simbol în imagine. Dacă există N astfel de caracteristici în total, atunci fiecare ipoteză poate fi reprezentată printr-un punct din spațiul N-dimensional; în consecință, acuratețea ipotezei va fi apreciată prin distanța de la aceasta până la punctul corespunzător standardului (care este dezvoltat și pe eșantionul de antrenament). Este clar că tipurile și numărul de caracteristici determină în mare măsură calitatea recunoașterii, așa că de obicei sunt destul de multe. Acest clasificator este, de asemenea, relativ rapid și simplu, dar nu este foarte robust la diferite defecte de imagine. În plus, PC-ul nu funcționează cu imaginea originală, ci cu un anumit model, o abstracție, adică nu ține cont de unele informații: să spunem, însuși faptul prezenței unor elemente importante nu spune orice despre poziția lor relativă. Din acest motiv, PC-ul este folosit nu în loc de, ci împreună cu RK.

Clasificator de contur ( QC) este un caz special al PC-ului și diferă prin aceea că analizează contururile caracterului intenționat extras din imaginea originală. În general, precizia sa este mai mică decât cea a unui computer cu drepturi depline.

clasificator diferenţial de caracteristici ( MPC) este, de asemenea, similar cu PC-ul, dar este folosit numai pentru a face distincția între obiecte similare, cum ar fi „m” și „rn”. În consecință, analizează doar acele zone în care diferențele sunt ascunse și primește ca intrare nu numai imaginile originale, ci și ipotezele formate în stadiile incipiente ale recunoașterii. Principiul funcționării sale, însă, este oarecum diferit de un PC. În etapa de antrenament, în spațiul N-dimensional se formează două „nori” (grupuri de puncte) de valori posibile pentru fiecare dintre cele două opțiuni, apoi se construiește un hiperplan care separă „norii” unul de celălalt și este aproximativ echidistante de ele. Rezultatul recunoașterii depinde de jumătate de spațiu în care se află punctul corespunzător imaginii originale.

MPC în sine nu prezintă ipoteze, ci doar le rafinează pe cele existente (a căror listă este în general sortată folosind metoda bulelor), astfel încât să nu se efectueze o evaluare directă a eficacității, ci indirect este echivalată cu caracteristicile întreg primul nivel de recunoaștere OCR. Cu toate acestea, este clar că depinde de corectitudinea caracteristicilor selectate și de reprezentativitatea eșantionului de standarde, asigurându-se care este o sarcină destul de intensivă în muncă.

Clasificator diferenţial structural ( KFOR) a fost folosit inițial pentru prelucrarea textelor scrise de mână. Sarcina sa este să facă distincția între obiecte similare, cum ar fi „C” și „G”. Astfel, SDK se bazează pe caracteristici caracteristice fiecărei perechi de caractere, procesul său de învățare este chiar mai complex decât cel al MDC, iar viteza sa de operare este mai mică decât cea a tuturor clasificatoarelor anterioare.

clasificator structural ( SK) este o sursă de mândrie pentru ABBYY; a fost dezvoltat inițial pentru a recunoaște așa-numitul text scris de mână, adică atunci când o persoană scrie cu litere „tipărite”, dar ulterior a fost folosit pentru tipărire. Este utilizat în etapele finale ale recunoașterii și intră în vigoare destul de rar, și anume numai atunci când cel puțin două ipoteze cu probabilități suficient de mari ajung la el.

Caracteristicile calitative ale tuturor clasificatorilor sunt colectate în tabelul următor. Ele, totuși, permit doar evaluarea eficienței algoritmilor unul față de celălalt, deoarece aceștia nu sunt absoluti, ci sunt obținuți pe baza procesării unui eșantion de testare specific. Poate părea că în ultimele etape de recunoaștere lupta este literalmente pentru o fracțiune de procent, dar, de fapt, fiecare clasificator aduce o contribuție semnificativă la creșterea acurateței recunoașterii - de exemplu, SC reduce numărul de erori cu o valoare vizibilă. 20%.

RKPCQCMPC*KFOR**SK**
Precizie pentru primele trei opțiuni, %99,29 99,81 99,30 99,87 99,88 -
Precizie conform primei opțiuni, %97,57 99,13 95,10 99,26 99,69 99,73

* evaluarea întregului prim nivel al algoritmului ABBYY OCR
** evaluare pentru întregul algoritm după adăugarea clasificatorului corespunzător

Este curios, însă, că, în ciuda preciziei destul de ridicate, algoritmul de recunoaștere în sine nu ia decizia finală. În conformitate cu principiul MDA, ipotezele sunt prezentate la fiecare nivel logic, iar numărul lor poate crește exponențial. În consecință, este puțin probabil ca testarea secvențială a tuturor ipotezelor să fie eficientă și, prin urmare, sistemele ABBYY OCR utilizează metoda de structurare a ipotezelor, adică atribuirea lor unuia sau altuia. Există câteva zeci dintre acestea din urmă, iată doar câteva dintre tipurile lor: cuvânt din dicționar, cuvânt non-dicționar, cifre arabe, cifre romane, URL, expresie uzuala- și fiecare poate include multe modele specifice(de exemplu, un cuvânt pe unul dintre limbi cunoscute, latină, chirilică etc.).

Toate acțiunile finale sunt realizate cu ipoteze construite folosind modele. De exemplu, verificarea contextuală va determina limba documentului și va reduce imediat în mod semnificativ probabilitatea ca modelele să utilizeze alfabete incorecte, iar verificarea dicționarului va compensa erorile în cazul recunoașterii nesigure a anumitor caractere: de exemplu, cuvântul „turn” este prezent în dicționar în limba engleză- spre deosebire de „tum” (în orice caz, nu se numără printre cele populare). Deși prioritatea dicționarului este mai mare decât cea a oricărui clasificator, nu este neapărat ultima soluție și, în general, nu oprește verificările ulterioare: în primul rând, așa cum am menționat mai sus, există un model de cuvânt non-dicționar și, în al doilea rând, , organizarea specială a dicționarelor permite cu un procent mare de probabilități de a ghici dacă un cuvânt necunoscut poate aparține unei anumite limbi. Cu toate acestea, verificarea dicționarului (și completitudinea dicționarelor) are un impact semnificativ asupra rezultatului recunoașterii, iar în testele proprii ABBYY reduce numărul de erori cu aproape jumătate.

Nu numai OCR

Documentele tipărite sunt departe de a fi singurele de interes din punct de vedere al digitizării și procesării automate a acestora. Destul de des trebuie să lucrați cu formulare, adică documente cu câmpuri predefinite și fixe, care sunt completate manual, dar relativ precis (așa-numitele caractere tipărite manual) - diverse chestionare pot servi ca exemplu. Tehnologia pentru prelucrarea lor are un nume separat - ICR(recunoaștere inteligentă a caracterelor) - și diferă destul de semnificativ de OCR. Deci, deoarece în acest caz sarcina nu este de a recrea întregul document, ci de a extrage date specifice din acesta, acesta se împarte în două subsarcini principale: găsirea câmpurilor necesare și recunoașterea efectivă a conținutului acestora.

Aceasta este o zonă destul de specifică, iar ABBYY oferă o zonă complet separată software ABBYY FlexiCapture. Este destinat creării de sisteme automate și semi-automatizate, implică personalizarea pentru tipuri specifice de documente pentru care sunt create șabloane speciale, poate găsi în mod inteligent diverse câmpuri pe pagini și verifica datele din ele etc. Cu toate acestea, la bază se află recunoașterea caracterelor. algoritmi similari celor , care sunt utilizați în FineReader și schema generala foarte asemanator:

Cu toate acestea, există încă o diferență importantă: clasificatorul structural este un participant obligatoriu în proces - acest lucru se datorează specificului simbolurilor imprimate manual. În plus, ICR implică un număr mare de verificări suplimentare specifice: de exemplu, dacă un caracter este tăiat sau dacă caracterele recunoscute formează de fapt o dată.

Secretele scanării pe un computer Leontiev BK

Capitolul 16. Sisteme OCR

sisteme OCR

Așa-numitele sisteme de recunoaștere optică a caracterelor (OCR) sunt proiectate pentru introducerea automată a materialelor tipărite într-un computer, iar procesul de introducere în sine are loc în trei etape:

Scanare.

Tratament.

Recunoaștere adaptativă holistică orientată spre obiectiv.

Din cartea Linux de la zero de Beekmans Gerard

Capitolul 5: Pregătirea unui sistem LFS Introducere În acest capitol, vom compila și instala un sistem Linux minim. Acest sistem va avea instrumentele necesare pentru a construi sistemul LFS final în capitolul următor.Fișierele compilate în acest capitol vor fi

Din cartea Secretele scanării pe PC autorul Leontiev B K

Capitolul 16. Sisteme OCR Așa-numitele sisteme de recunoaștere optică a caracterelor (OCR) sunt proiectate pentru introducerea automată a materialelor imprimate într-un computer, în timp ce procesul de introducere în sine are loc în trei etape: Scanare. Tratament.

Din cartea Asamblarea unui computer cu propriile mâini autor Vatamanyuk Alexandru Ivanovici

Capitolul 5 Sisteme de operare Ce este un sistem de operare pentru Sisteme de operare populare Selectarea unui sistem de operare Software

Din cartea AutoCAD 2009 pentru studenți. Manual de autoinstruire autor Sokolova Tatiana Iurievna

Capitolul 4 Sisteme de coordonate Introducerea coordonatelor Când AutoCAD solicită un punct, comanda așteaptă introducerea coordonatele unui punct din desenul curent. AutoCAD poate activa controlul limitelor desenului folosind comanda LIMITES. În acest caz, dacă punctul introdus

Din cartea AutoCAD 2009. Să începem! autor Sokolova Tatiana Iurievna

Capitolul 3 Sisteme de coordonate Introducerea coordonatelor Introducerea coordonatelor în AutoCAD se poate face în două moduri:? direct de la tastatura, prin specificarea valorilor numerice;? folosind un marcator grafic (cursor) care se deplasează pe ecran folosind dispozitivul

Din cartea SAP R/3 System Administration de Hageman Sigrid

Din cartea Server Data Storage Technologies in Mediul Windows® 2000 Windows® Server 2003 de Dileep Naik

Capitolul 6 Sisteme de fișiere Sistemul de fișiere oferă funcții esențiale; cele principale sunt enumerate mai jos. Menține integritatea datelor și oferă utilizatorului capabilitățile necesare pentru a crea, șterge, citi și scrie fișiere.

Din cartea Implementarea SAP R/3: un ghid pentru manageri și ingineri de Kale Vivek

CAPITOLUL 3 Selectarea unui sistem ERP Sisteme SAP pentru întreprinderile mijlocii și mici Majoritatea companiilor care implementează sisteme de planificare a resurselor întreprinderii (ERP) în noul mileniu vor fi întreprinderi mijlocii și mici. Întreprinderile mijlocii și mici sunt de obicei considerate companii

Din cartea Programming in Prolog for Artificial Intelligence autorul Bratko Ivan

Capitolul 14 Sisteme expert Un sistem expert este un program care se comportă ca un expert într-un anumit domeniu al problemei. Ea trebuie să fie capabilă să-și explice deciziile și raționamentul pe baza căruia au fost luate aceste decizii. Adesea de la un expert

Din carte Windows Vista. Trucuri și efecte autor Zozulya Yuri

Capitolul 10 Administrarea sistemului Restricționarea accesului la fișiere și combaterea acestora Management hard disk-uri Instrumente de diagnosticare a sistemului Noi capabilități de administrare folosind Politica de grup Automatizarea sarcinilor folosind

Din cartea AutoCAD 2009. Curs de pregatire autor Sokolova Tatiana Iurievna

Capitolul 12 Restaurarea sistemului Rezolvarea problemelor de sistem se încarcă Windows Vista Lucrul cu instrumentele de recuperare activat DVD de instalare Recuperarea sistemului folosind o imagine de disc Windows Vista este destul de fiabilă sistem de operare, dar ea nu

Din cartea AutoCAD 2008 pentru studenți: un tutorial popular autor Sokolova Tatiana Iurievna

Capitolul 4 Sisteme de coordonate Introducerea coordonatelor Introducerea dinamică a coordonatelor Coordonatele carteziene și polare Generarea punctelor utilizând metoda direcție-distanță Determinarea coordonatelor 3D Regulă mâna dreaptă Introducerea coordonatelor carteziene 3D Introducerea coordonatelor cilindrice CAPITOLUL 5: UTILIZAREA SISTEMULUI 1. PROCESARE în Inbox. Cum se procedează. de multe ori pe zi ar trebui să vă goliți căsuța de e-mail? Persoane creative

Din cartea autorului

Capitolul 12 Monitorizarea sistemului Sarcina inițială a administratorului este să instaleze sistemul, să distribuie corect drepturile de acces și să configureze toate serviciile necesare. După aceasta, mulți dintre ei își încrucișează brațele și încep să urmărească monștri prin coridoarele lumii virtuale Doom3.

Tehnologii de recunoaștere optică (conceptul și domeniile de aplicare ale OCR, algoritmi de recunoaștere optică, caracteristici și programe OCR, conceptul de recunoaștere inteligentă a caracterelor, sisteme de recunoaștere a textului scris de mână)

OCR (recunoaștere optică a caracterelor)- tehnologie pentru conversia unei imagini grafice a textului în text computerizat folosind un algoritm de recunoaștere a modelelor grafice.

OCR este utilizat:

1) la scanarea și fotografiarea textelor.

2) pentru introducerea unor cantități mari de informații text într-un computer (100 sau mai multe pagini pe zi).

3) pentru introducerea de mână a informațiilor text într-un computer.

4) pentru a converti un format în altul.

Trei tehnologii principale de recunoaștere a caracterelor sunt populare:

Șablon (în imaginea de intrare sunt selectate imagini raster ale personajelor individuale, în comparație cu toate șabloanele disponibile în baza de date, este selectat un șablon cu cele mai puține puncte diferite de imaginea de intrare. Sistemele de șabloane sunt mai ușor de implementat, rezistente la defecte de imagine, au o viteză mare de procesare a datelor de intrare, dar recunosc în mod fiabil doar acele fonturi ale căror modele le cunosc),

Structural (obiectul este descris ca un grafic, ale cărui noduri sunt elementele obiectului de intrare, iar arcele sunt relațiile spațiale dintre ele. Sistemele structurale sunt foarte sensibile la defectele de imagine grafică care încalcă elementele constitutive. Pentru aceste sisteme , spre deosebire de șablon și caracteristici, încă nu au fost create proceduri de instruire automatizate eficiente),

Transformare fântână (combină avantajele sistemelor șablon și structurale. Orice obiect perceput este considerat ca un întreg, format din părți interconectate prin anumite relații).

Caracteristici OCR:

    numărul de erori la introducerea textului. O valoare acceptabilă este de 10 erori pe pagină.

    solicitări asupra calității textului sursă.

    capacitatea de a corecta greșelile de ortografie pentru a îmbunătăți calitatea introducerii.

    suport pentru diverse limbi.

    capacitatea de a învăța și de a se adapta la caracteristicile fonturilor tipărite și ale textelor scrise de mână.

    viteza de recunoaștere. Este de dorit ca acesta să fie comparabil cu timpul necesar pentru ca documentul să fie introdus de către scaner.

programe ocr:

Cele mai cunoscute pachete sunt FineReader, CuneiForm, OmniPage, TextBridge.

ABBYY FineReader- OCR pentru introducerea automată de texte, tabele, formulare, chestionare etc.

ADRT (tehnologie adaptativă de recunoaștere a documentelor), tehnologie adaptivă de recunoaștere a documentelor la nivel IDR (Intelligent Document Recognition).

Cititor de cărți de vizită ABBYY - aplicatie mobila pentru recunoașterea cărților de vizită, care recunoaște automat informațiile dintr-o fotografie a unei cărți de vizită, creează un nou contact, scrie detalii de contact și informații suplimentare în câmpurile obligatorii din agendă.

    ICR (Recunoaștere inteligentă a caracterelor) - sisteme de prelucrare a formularelor care asigură introducerea datelor din documente pe baza modelelor geometrice