Оптичне розпізнавання символів (OCR). Системи розпізнавання текстів (OCR-системи)

18.09.2020 Поради

Системи оптичного розпізнавання символів (OCR - Optical character recognition) стали невід'ємною частиною інтегрованих пакетів, що підтримують введення в комп'ютер, зберігання та обробку паперових та електронних документів. Система включає у свій склад сканер для введення інформації.

Якщо створене сканером зображення містить текст та малюнки, то за допомогою спеціальної програмиоптичного розпізнавання тексту (OCR) можна:

  • - Відокремити текст від малюнків;
  • - Записати текст у форматі файлу текстового процесора.

Програмне забезпеченняв сучасних системах OCR виконує аналіз форм літер та створення текстового файлу, в який текст, що розпізнається, записується посимвольно з послідовним формуванням слів і речень.

Існує два типи пакетів OCR: навчальні та інтелектуальні. Перші пакети оптичного розпізнавання символів мали чіткий поділ на кшталт. Останнім часом спостерігається тенденція до об'єднання цих двох типів в одному пакеті, що перегукується зі спробами розробити нові алгоритми розпізнавання.

Пакети програм OCR, що навчаються, становили більшість перших розробок. Такі пакети теоретично здатні навчатися розпізнаванню будь-яких символів будь-яких гарнітур. Для навчання програми конкретній гарнітурі потрібно відсканувати еталонне зображення з наступним навчанням кожному конкретному символу. Це досить тривала процедура, проте, якщо ця гарнітура буде регулярно використовуватися, варто витратити пару годин на навчання. Програми такого типу порівнюють кожен окремий символ сторінки із символами у довідкових таблицях, створених у процесі навчання, становлячи у своїй текстовий файл.

Інтелектуальні пакети OCR не потребують навчання і можуть інтерпретувати форми символів незалежно від гарнітури. Робота цих програм справляє велике враження: документ пропускається через сканер, результат обробляється інтелектуальною програмою OCR із видачею текстового файла. Для сторінки формату А4 вся процедура займає трохи більше однієї хвилини. При високій точності це значно швидше за ручне введення.

FineReader - це система оптичного розпізнавання текстів (OCR), яка перетворює отримане за допомогою сканера графічне зображення(картинку) в текст (тобто коди букв, «зрозумілі» системі).

Процес введення текстів у комп'ютер здійснюється за кілька етапів: сканування; виділення блоків на зображенні; розпізнавання; перевірка помилок; збереження результату розпізнавання (передача його в інший додаток, буфер і т. п.)

Рисунок 2. Інтерфейс програми FineReader 11

Інтелектуальна система оптичного розпізнавання символів (Optical Character Recognition, OCR) Cuneiform функціонує серед Microsoft Windows 3.1 або пізнішої версії. Система має наступні технологічні можливості: підтримує широкий спектр настільних сканерів; розпізнає відскановану сторінку (включаючи багатоколонний текст і текст зі складним оформленням); дозволяє сканувати та записувати зображення як TIFF, а розпізнавання запускати потім (при цьому зручно сканувати пачку документів); може читати зображення, відскановані іншими програмами, і факси в режимах Fine і Normal; може зберігати початкові форматування та табуляцію та регулювати відступи та вирівнювання; не розпізнає рукописного тексту.

Екран Суneiform містить чотири основні частини, зазначені на малюнку.


Рисунок 3. Інтерфейс програми Сuneiform

Нова версія системи розпізнавання Intuitia 2.0 for Windows використовує Омніфонт-технологію (розпізнає різні шрифтибез будь-якого навчання). Вона забезпечує розпізнавання зображень текстових матеріалів із файлів у форматах TIFF, PCX, BMP, а також з усіх Сканерів, які підтримують протокол TWAIN, а також зі сканерів сімейства HP ScanJet (безпосередньо).

Система введення та розпізнавання рукописних текстів PenO"Man for Windows - засіб рукописного введення, розпізнавання та редагування текстів за допомогою пера: є можливість введення та редагування як англійського, так і російського разом написаного тексту у всіх додатках Windows; процес введення аналогічний звичайному використанню ручки при листі ліворуч, бажано акуратним почерком і з класичним лівим нахилом; редагування вже введеного тексту можливе в результаті використання стандартних функцій (вставлення, видалення, перенесення, активізації фрагментів тексту тощо), а також простих розчерків пера.

Системи оптичного розпізнавання символів (Optical Character Recognition – OCR) призначені для автоматичного введення друкованих документівв комп'ютер.

FineReader – омніфонтова система оптичного розпізнавання текстів. Це означає, що дозволяє розпізнавати тексти, набрані практично будь-якими шрифтами, без попереднього навчання. Особливістю програми FineReader є висока точність розпізнавання та мала чутливість до дефектів друку, що досягається завдяки застосуванню технології цілісного цілеспрямованого адаптивного розпізнавання.

Процес введення документа в комп'ютер можна поділити на два етапи:

1. Сканування.На першому етапі сканер грає роль "очі" Вашого комп'ютера: "переглядає" зображення та передає його комп'ютеру. При цьому отримане зображення є нічим іншим, як набором чорних, білих або кольорових точок, картинкою, яку неможливо відредагувати в жодному текстовому редакторі.

2. Розпізнавання.Обробка зображення OCR-системою.

Зупинимося на другому кроці докладніше.

Обробка зображення системою FineReader включає аналіз графічного зображення, переданого сканером, і розпізнавання кожного символу. Процеси аналізу макета сторінки (визначення областей розпізнавання, таблиць, картинок, виділення у тексті рядків та окремих символів) та розпізнавання зображення тісно пов'язані між собою: алгоритм пошуку блоків використовує інформацію про розпізнаному тексті більш точного аналізу сторінки.

Як згадувалося, розпізнавання зображення складає основі технології " цілісного цілеспрямованого адаптивного розпізнавання " .

Цілісність- об'єкт описується як ціле за допомогою значних елементів та відносин між ними.

Цілеспрямованість- розпізнавання будується як процес висування та цілеспрямованої перевірки гіпотез.

Адаптивність- Здатність OCR-системи до самонавчання.

Відповідно до цих трьох принципів система спочатку висуває гіпотезу про об'єкт розпізнавання (символі, частини символу або кількох склеєних символів), а потім підтверджує або спростовує її, намагаючись послідовно виявити всі структурні елементи та зв'язуючі їх відносини. У кожному структурному елементі виділяються частини, значимі людського сприйняття: відрізки, дуги, кільця і ​​точки.

Наслідуючи принцип адаптивності, програма самостійно "налаштовується", використовуючи позитивний досвід, отриманий на перших впевнено розпізнаних символах. Цілеспрямований пошук та облік контексту дозволяють розпізнавати розірвані та спотворені зображення, роблячи систему стійкою до можливих дефектів письма.

В результаті роботи у вікні FineReader з'явиться розпізнаний текст, який Ви можете відредагувати та зберегти у найбільш зручному для Вас форматі.

Нові можливості abbyy FineReader 7.0

Точність розпізнавання

Точність розпізнавання покращена на 25%. Найкраще аналізуються та розпізнаються документи складної верстки, зокрема, що містять ділянки тексту на кольоровому фоні або тлі, що складається з дрібних крапок, документи зі складними таблицями, у тому числі таблицями з білими роздільниками, таблицями з кольоровими осередками

У нову версіюдодано спеціалізовані словники для англійської та німецької мови, що включають юридичні та медичні терміни, що найчастіше використовуються. Це дозволяє досягти якісно нового рівня при розпізнаванні документів юридичної та медичної тематики.

Підтримка форматуXMLта інтеграція зMicrosoftOffice

У FineReader з'явився новий форматзбереження - Microsoft Word XML. Тепер користувачі нової версії Microsoft Office 2003 зможуть працювати з документами, розпізнаними FineReader, використовуючи всі переваги формату XML!

Інтеграція FineReader із Microsoft Word 2003 дозволяє об'єднати потужні можливості цих двох програм для обробки розпізнаного тексту. Ви зможете перевіряти та редагувати результати розпізнавання за допомогою звичних інструментів Word, одночасно звіряючи переданий у Word текст з оригінальним зображенням- вікно Zoom FineReader відкривається у вікні Word.

Нові можливості зроблять Вашу роботу зручнішою. При створенні документа Word можна викликати FineReader, розпізнати текст і вставити його в місце документа, де знаходиться курсор, тобто Ви зможете легко зібрати в одному документі інформацію з різних паперових джерел або PDF-файлів. Результати розпізнавання тепер можна надіслати за електронній поштіяк вкладення у будь-якому з підтримуваних форматів збереження.

Поліпшено роботуFineReaderзPDFдокументами

Якість розпізнавання PDF-файлів значно покращилась. Більшість документів, окрім сторінки, містять текст. FineReader 7.0 вміє отримувати цей текст і використовувати його для перевірки результатів та покращення якості розпізнавання.

Тепер ви можете редагувати розпізнані PDF-документи у вікні редактора FineReader: внесені зміни будуть збережені в будь-якому з режимів збереження PDF-файлів, що підтримуються в програмі.

Формат PDF-файлів, створюваних програмою FineReader, оптимізований для їх публікації в Інтернеті - користувач зможе переглядати зміст перших сторінок, поки завантажується решта документа.

Нові можливості збереження

Новий формат збереження результатів розпізнавання - MicrosoftPowerPoint- дозволяє швидко створювати нові презентації або редагувати існуючі.

При збереженні в MicrosoftWordзменшився розмір одержуваного файлу, покращилося збереження форматування документів з різними роздільниками, з'явилися нові опції збереження картинок.

Покращено відображення складних елементів верстки під час збереження

в HTML, наприклад, обтікання непрямокутних картинок текстом. Крім того, зменшився розмір HTML-файлу, що дуже важливо для публікації документів в Інтернеті.

Зручність використання

Оновлений інтуїтивно-зрозумілий інтерфейс користувача.Стало зручніше працювати з професійними налаштуваннями. Панелі інструментів редагування перенесені у вікно, де відображаються результати розпізнавання. З'явилися зручні інструменти керування вікнами FineReader: наприклад, можна поставити зручну ступінь збільшення кожного вікна.

Оновлене практичний посібникпо поліпшенню якості розпізнавання допоможе початківцю швидко почати роботу, а досвідченішому - найкращим чином налаштувати програму для отримання відмінного результату при роботі з будь-якими типами документів.

Професійні можливості

Тепер у версії FineReaderProfessionalEditionстали доступні ті можливості, які раніше були доступні лише користувачам версії CorporateEdition:

Поліпшено розпізнавання штрих-кодів,підтримується розпізнавання двовимірного штрих-коду PDF-417.

Інструмент для розбиття зображення.За допомогою нього Ви зможете розділити зображення на області та зберегти кожну область як окрему сторінку пакета. Таким чином, зручно розпізнавати кілька візитних карток, відсканованих разом, книги, або роздруківки слайдів презентацій PowerPoint.

Морфологічний пошук.Будь-який пакет, створений у програмі FineReader, можна використовувати як невелику базу даних

із можливістю повнотекстового морфологічного пошуку. Серед усіх розпізнаних сторінок пакета можна знайти ті сторінки, які містять задані слова у всіх граматичних формах (для 34 мов зі словниковою підтримкою).

Підтримка процесорівIntel, що використовують технологіюHyper- Threading. Використання цієї технології дозволяє помітно збільшити продуктивність, що особливо важливо, якщо постає завдання розпізнавання великої кількості документів.

У версії FineReader 7.0 також з'явилися інші професійні можливості:

Двостороннє сканування.Скануючи документ із надрукованим

з двох сторін текстом за допомогою сканера, що підтримує цю опцію, Ви отримаєте зображення вмісту кожної сторони у вигляді двох окремих сторінок пакета. Якщо потрібно відсканувати лише одну сторону документа, цю опцію можна вимкнути.

Підтримано відкриття графічних файлів формату JPEG 2000 та збереження у цей формат.

МережевіможливостіверсіїFineReader Corporate Edition

Докладно всі особливості встановлення та використання FineReader Corporate Edition у корпоративній мережі описані в Посібнику системного адміністратора, який Ви можете знайти у підпапці Administrator" sGuideпапки сервера, куди було встановлено FineReader.

Основні покращення порівняно з попередньою версією:

Підтримує основні способи автоматичної установки з сервера на робочі станції. FineReader Corporate Edition підтримує всі основні способи автоматичного встановлення в локальній мережі: за допомогою Active Directory, Microsoft Systems Management Server або за допомогою командного рядка.

Робота з багатофункціональними пристроями, зокрема мережевими.Багатофункціональні пристрої, що поєднують функції сканера, принтера, копіра і факсу, стають все більш популярними. Тепер необов'язково ставити кожному співробітнику свій сканер – достатньо одного потужного пристрою, з яким працюють усі користувачі організації. FineReader вміє працювати з такими пристроями як підключеними до робочої станції, так і мережевими. Спеціальні налаштування програми дозволяють користувачеві автоматично відкривати та відскановані зображення з будь-якого місця в локальній мережі або з ftp сервера та розпізнавати їх

Різні моделі корпоративного ліцензування.Крім ліцензування за кількістю одночасного працюючих користувачів стали доступні також інші способи ліцензування. Ви зможете вибрати той варіант, який більшою мірою відповідає Вашим потребам.

ЛіцензіяManager- Засіб управління ліцензіями в мережі. У FineReaderCorporateEditionз'явилася зручна утиліта керування ліцензіями (Менеджер ліцензій). За допомогою неї здійснюється відстеження використання FineReader на робочих станціях, резервування ліцензій за робочими станціями, додавання нових ліцензій.

Хоча аванси, видані штучному інтелекту (ІІ) за останні 50 років, ні на йоту не наблизили «розумні» машини до когнітивних можливостей людини, цілком заперечувати успіхи в цьому напрямі було б несправедливо. Найбільш очевидний і яскравий приклад - шахи (не кажучи вже про більш простих іграх). Комп'ютер поки що не може імітувати наше мислення, але він цілком здатний компенсувати цей пробіл великим обсягом спеціалізованої пам'яті та швидкістю перебору. Володимир Крамник охарактеризував гру програми Deep Fritz, яка перемогла його в 2006 р., як «нелюдську» в тому сенсі, що вона часто суперечила усталеним (людським) правилам стратегії та тактики.

А трохи більше року тому чергове дітище IBM, яке свого часу започаткувало тріумфальні шахові перемоги комп'ютерів (знаменитий Deep Blue), під назвою Watson зробило новий прорив, з великим відривом перемігши відразу двох чемпіонів популярної американської вікторини Jeopardy. Показово, однак, що хоча Watson самостійно озвучував відповіді, питання йому все ж таки передавалися в текстовому вигляді. Це говорить про те, що успіхи в багатьох сферах застосування ІІ - розпізнавання мови та образів, машинному перекладі - досить скромні, хоча це й не заважає нам вже сьогодні застосовувати їх на практиці. Найбільші успіхи, мабуть, демонструють системи оптичного розпізнавання символів (OCR, Optical Character Recognition), з якими напевно так чи інакше знайомі майже всі користувачі ПК. Тим більше, що російські розробкиу цій галузі займають гідне місце у світі - я маю на увазі ABBYY FineReader.

Трішки історії

Поточна версія ABBYY FineReader має номер 11, тобто додаток пройшов досить довгий шлях розвитку, і навіть історія цього процесу представляє певний інтерес. Не претендуючи на вичерпний літопис, наведу лише основні віхи за останнє десятиліття, протягом якого я більш-менш стежив за FineReader:

РікВерсіяГоловні особливості
2003 7.0 Приріст точності розпізнавання до 25%. Найбільше це відбилося на таблицях, особливо складних, із забарвленими осередками, прихованими роздільниками та ін.
2005 8.0 Подальша оптимізація алгоритмів розпізнавання, в першу чергу, спрямована на роботу не зі сканами документів, а з цифровими фотографіями. Для цього з'явились додаткові функціїпідготовки оригіналів (усунення спотворень, вирівнювання рядків та ін.).
2007 9.0 Поява технології ADRT, яка враховує логічну структуру всього оброблюваного (багатосторінкового) документа і вміє виділяти елементи (колонтитули), що повторюються, з'єднувати «перетікаючі» об'єкти (таблиці) та ін.
2009 10.0 Подальше вдосконалення ADRT та алгоритмів розпізнавання, підвищення точності обробки оригіналів з низькою роздільною здатністю до 30%.
2011 11.0 Основну увагу приділено швидкості роботи програми. "Друге наступ" чорно-білого режиму, який на оригіналах гарної якості дає додаткове прискорення до 30%.

Природно, за цей же час у FineReader розширювалася підтримка форматів документів, удосконалювалися вбудовані інструменти та інтерфейс, покращувалося відтворення структури оригіналів і т. п. Однак виділені моменти безпосередньо пов'язані з технологіями OCR і непогано демонструють стрибкоподібний процес розвитку, характерний для складних наукомістких систем після чергового «прориву» слідує деякий період «затишшя», необхідний для вдосконалення нових алгоритмів. Вони і представляють головну цінність будь-якої OCR-програми, і тому скільки-небудь Детальна інформаціяпро них дуже рідко доходить до користувачів. Однак компанія ABBYY люб'язно погодилася відкрити завісу таємниці, і сьогодні ми маємо можливість зазирнути у свята святих FineReader.

Базові принципи

Отже, оскільки OCR відноситься до галузі ІІ, цілком логічно, що розробники прагнуть хоч якоюсь мірою імітувати діяльність нашого мозку. Звичайно, пристрій нашої зорової системи неймовірно складний, але базові «великоблокові» принципи її функціонування досить вивчені, зазвичай їх виділяють три:

  1. Цілісність (integrity)- Об'єкт розглядається як сукупність своїх частин та (для зорових образів) просторових відносин між ними. У свою чергу та частини отримують тлумачення лише у складі всього об'єкта. Цей принцип допомагає будувати та уточнювати гіпотези, швидко відтинаючи малоймовірні.
  2. Цілеспрямованість (purposefulness)- оскільки будь-яка інтерпретація даних має певну мету, те й розпізнавання є процес висування гіпотез про об'єкт і цілеспрямованої їх перевірки. Система, що діє відповідно до цього принципу, буде не тільки економніше витрачати обчислювальні потужності, а й рідше помилятися.
  3. Адаптивність (adaptability)- система зберігає накопичену в процесі роботи інформацію та використовує її повторно, тобто самонавчається. Цей принцип дозволяє створювати і накопичувати нові знання та уникати повторного вирішення тих самих завдань.

FineReader – єдина у світі OCR-система, яка діє відповідно до вищеописаних принципів на всіх етапах обробки документа. Відповідна технологія має назву IPA- за першими буквами англійських термінів. Наприклад, згідно з принципом цілісності, фрагмент зображення інтерпретуватиметься як символ, тільки якщо в ньому присутні всі структурні частини подібних об'єктів, причому перебувають у певних взаєминах. Це допомагає замінити перебір великої кількості еталонів (у пошуках більш-менш відповідного) цілеспрямованою перевіркою розумної кількості гіпотез, причому спираючись на накопичені раніше відомості про можливі зображення символу в документі, що розпізнається.

Проте принципи IPA застосовуються під час аналізу як фрагментів, відповідних (імовірно) окремим символам, а й всього вихідного зображення сторінки. Більшість OCR-систем ґрунтуються на розпізнаванні ієрархічної структуридокумента, тобто сторінка розбивається на основні структурні елементи, такі як таблиці, зображення, блоки тексту, які, у свою чергу, поділяються на інші характерні об'єкти - комірки, абзаци - і так далі, аж до окремих символів.

Такий аналіз може проводитися двома основними способами: зверху-вниз, тобто від складових елементів до окремих символів, або, навпаки, знизу-вгору. Найчастіше застосовується один із них, але в ABBYY розробили спеціальний алгоритм MDA(Multilevel document analysis, багаторівневий аналіз документа), який поєднує обидва. Коротко він виглядає так: структура сторінки аналізується методом зверху-вниз, а відтворення електронного документапісля закінчення розпізнавання відбувається знизу-вгору, проте на всіх рівнях додатково діє механізм зворотнього зв'язку. Через війну різко знижується ймовірність грубих помилок, що з невірним розпізнаванням високорівневих об'єктів.

ADRT

Історично OCR-системи розвивалися від розпізнавання окремих символів. Це завдання і досі є найважливішим і найважчим, саме з нею пов'язані найскладніші алгоритми. Однак невдовзі стало зрозуміло, що у її рішенні може допомогти більш високорівнева інформація (наприклад, про мову документа та правильність написання розпізнаних слів) – так з'явилися контекстна та словникова перевірки. Потім прагнення зберігати форматування і відтворювати фізичну структуру (тобто взаємне розташування різних об'єктів) документа призвело до необхідності докладного аналізу цілої сторінки. Зрозуміло, що це також помітно впливає на загальну якість розпізнавання, оскільки допомагає коректно обробляти верстку багатоколоночну, таблиці та інші прийоми «нелінійного» розташування тексту.

Більшість сучасних OCR діють саме цих трьох рівнях - символів, слів, сторінок, - практикуючи, як було зазначено, підходи згори-вниз чи знизу-вгору. Однак ABBYY, відповідно до принципів IPA, ввела у FineReader ще один рівень - всього багатосторінкового документа. Насамперед це знадобилося для коректного відтворення логічної структури, яка у сучасних документах стає дедалі складнішою. Але є і додаткові бонуси: підвищення точності та прискорення обробки об'єктів, що повторюються, більш коректна ідентифікація (а значить, і розпізнавання) «перетікаючих» зі сторінки на сторінку об'єктів.

Саме для цього і було розроблено ADRT(Adaptive Document Recognition Technology) – технологія аналізу та синтезу документа на логічному рівні. Зрештою вона допомагає зробити результат роботи FineReader максимально схожим на оригінал. Для цього аналізується зображення всього документа, а розпізнані слова поєднуються в групи (кластери) залежно від зображення, оточення та розташування на сторінці. Таким чином, програма ніби бачить «логіку» розмітки документа і надалі може уніфікувати оформлення результату.

Завдяки ADRT, FineReader, починаючи з версії 9.0, навчився виявляти, розпізнавати та відтворювати такі структурні частини та елементи форматування документа:

  • Основний текст;
  • верхні та нижні колонтитули;
  • номери сторінок;
  • заголовки одного рівня;
  • зміст;
  • текстові вставки;
  • підписи до малюнків;
  • таблиці;
  • виноски;
  • зони підпису/друку;
  • шрифти та стилі.

Процес розпізнавання

Відповідно до алгоритму MDA, власне розпізнавання починається згори донизу, з рівня сторінки. Зрозуміло, чим більше невірних рішень буде зроблено на ранніх етапах цього процесу, тим більше буде на наступних. Саме тому точність розпізнавання дуже залежить від якості оригіналів, але й алгоритми їх попередньої обробки можуть мати істотне значення. Так, зі зростанням популярності кольорових документів у FineReader з'явилася процедура адаптивної бінаризації (adaptive binarization, AB). Якщо відсканувати відразу в чорно-білому режимі документ, де присутні водяні знаки або текст розташований на текстурній або кольоровій підкладці, то на зображенні незмінно з'явиться «сміття», яке буде досить складно відокремити від «корисного» зображення (т.к. вихідна інформація про нього вже втрачено). Саме тому FineReader воліє працювати з кольоровими або напівтоновими зображеннями, самостійно перетворюючи їх на чорно-білі (цей процес і називається бінаризацією). Але це не все. Оскільки кольори тексту та фону можуть різнитися в межах сторінки і навіть окремих рядків, AB виділяє слова з більш-менш однаковими характеристиками та підбирає для кожного оптимальні з точки зору якості розпізнавання параметри бінаризації. Саме в цьому полягає адаптивність алгоритму, який, таким чином, є прикладом використання зворотного зв'язку в MDA. Зрозуміло, що ефективність AB залежить від оформлення вихідних документів - на тестової базі ABBYY цей алгоритм забезпечив підвищення точності розпізнавання на 14,5%.

Але найцікавіше, звичайно, починається, коли процес розпізнавання опускається на нижчі рівні. Так звана процедура лінійного поділу розбиває рядки на слова, а слова на окремі літери; далі, відповідно до принципу IPA, формує набір гіпотез (тобто. можливих варіантів того, що це за символ, на які символи розбито слово і т.д.) і, забезпечивши кожну оцінку ймовірності, передає на вхід механізму розпізнавання символів. Останній складається з ряду так званих класифікаторів, кожен з яких також формує ряд гіпотез, ранжованих за ймовірним ступенем ймовірності. Найважливішою характеристикоюбудь-якого класифікатора є середнє положення правильної гіпотези. Відомо, що вище вона перебуває, тим менше роботи для наступних алгоритмів - наприклад, словникової перевірки. Але для досить налагоджених класифікаторів найчастіше оцінюють такі характеристики, як точність розпізнавання за першими трьома гіпотезами або тільки по першій - тобто, грубо кажучи, здатність вгадати правильну відповідь з трьох або з однієї спроби. ABBYY у своїх системах застосовує такі типи класифікаторів: растровий, ознаковий, ознаковий диференціальний, контурний, структурний та структурний диференціальний – які згруповані на двох логічних рівнях.

Принцип дії РК, або растрового класифікатора, ґрунтується на попіксельному порівнянні зображення символу з еталонами. Останні формуються в результаті усереднення зображень з навчальної вибірки і наводяться до якоїсь стандартній формі; відповідно, для зображення, що розпізнається, також попередньо нормалізуються розмір, товщина елементів, нахил. Цей класифікатор відрізняється простотою реалізації, швидкістю роботи і стійкістю до дефектів зображень, але забезпечує порівняно низьку точність і тому використовується першому етапі - для швидкого породження списку гіпотез.

Ознаковий класифікатор ( ПК), як і випливає з його назви, ґрунтується на наявності у зображенні ознак того чи іншого символу. Якщо всього таких ознак N, то кожну гіпотезу можна подати точкою в N-мірному просторі; відповідно, точність гіпотези оцінюватиметься відстанню від неї до точки, що відповідає еталону (який також напрацьовується на навчальній вибірці). Зрозуміло, що типи та кількість ознак значною мірою визначають якість розпізнавання, тому зазвичай їх досить багато. Цей класифікатор також є порівняно швидким і простим, але не надто стійким до різних дефектів зображення. Крім того, ПК оперує не вихідним зображенням, а якоюсь моделлю, абстракцією, тобто не враховує частину інформації: скажімо, сам факт наявності якихось важливих елементів нічого не говорить про їхнє взаємне розташування. З цієї причини ПК використовується не замість, а разом із РК.

Контурний класифікатор ( КК) являє собою окремий випадок ПК і відрізняється тим, що аналізує контури передбачуваного символу, виділені з вихідного зображення. У випадку його точність нижче, ніж у повноважного ПК.

Ознаковий диференціальний класифікатор ( ГДК) також схожий на ПК, проте використовується виключно для розрізнення схожих один на одного об'єктів, таких як m і rn. Відповідно, він аналізує ті області, де ховаються відмінності, але вхід йому подаються як вихідні зображення, а й гіпотези, сформовані ранніх стадіях розпізнавання. Принцип його роботи, однак, дещо відрізняється від ПК. На етапі навчання в N-мірному просторі формуються дві «хмари» (груп точок) можливих значень для кожного з двох варіантів, потім будується гіперплощина, що відокремлює «хмари» один від одного і приблизно віддалена від них. Результат розпізнавання залежить від того, до якого напівпростору потрапляє точка, що відповідає вихідному зображенню.

Сам собою ГДК не висуває гіпотез, а лише уточнює наявні (список яких у загальному випадку сортується бульбашковим методом), так що пряма оцінка його ефективності не проводиться, а побічно її прирівнюють до характеристик всього першого рівня OCR-розпізнавання. Однак зрозуміло, що вона залежить від коректності підібраних ознак та представницькості вибірки еталонів, забезпечення чого є досить трудомістким завданням.

Структурно-диференціальний класифікатор ( СДК) спочатку застосовувався для обробки рукописних текстів. Його завдання полягає у розрізненні таких схожих об'єктів, як «C» та «G». Таким чином, ЦДК ґрунтується на ознаках, характерних для кожної пари символів, процес його навчання ще складніший, ніж у ГДК, а швидкість роботи нижча, ніж у попередніх класифікаторів.

Структурний класифікатор ( СК) є предметом гордості компанії ABBYY, спочатку він був розроблений для розпізнавання так званого рукодрукного тексту, тобто коли людина пише «друкованими» літерами, але згодом був застосований і для друкованого. Він використовується на завершальних етапах розпізнавання і набирає чинності досить рідко, а саме, тільки в тому випадку, коли до нього доходять як мінімум дві гіпотези з досить високими ймовірностями.

Якісні характеристики всіх класифікаторів зібрані наступну таблицю. Вони, втім, дозволяють лише оцінити ефективність алгоритмів один щодо одного, тому що не є абсолютними, а отримані на основі обробки конкретної тестової вибірки. Може скластися враження, що на останніх етапах розпізнавання боротьба йде буквально за частки відсотка, але насправді кожен класифікатор робить істотний внесок у підвищення точності розпізнавання - так, наприклад, СК знижує кількість помилок на відчутні 20%.

РКПКККГДК*СДК**СК**
Точність за першими трьома варіантами, %99,29 99,81 99,30 99,87 99,88 -
Точність за першим варіантом, %97,57 99,13 95,10 99,26 99,69 99,73

* Оцінка всього першого рівня OCR-алгоритму ABBYY
** оцінка для всього алгоритму після додавання відповідного класифікатора

Цікаво, однак, що, незважаючи на досить високу точність, алгоритм розпізнавання власне не приймає остаточного рішення. Відповідно до принципу MDA, гіпотези висуваються на кожному логічному рівні, і їх кількість може зростати в геометричній прогресії. Відповідно, послідовна перевірка всіх гіпотез навряд чи виявиться ефективною, і тому в OCR-системах ABBYY застосовується метод структурування гіпотез, тобто віднесення їх до тих чи інших моделей. Останніх існує пара десятків, ось лише кілька їх типів: словникове слово, несловникове слово, арабські цифри, римські цифри, URL, регулярний вираз- а в кожен може входити безліч конкретних моделей(наприклад, слово на одному з відомих мов, латиницею, кирилицею і т.д.).

Усі фінальні дії виконуються саме з гіпотезами, побудованими за моделями. Наприклад, контекстна перевірка визначить мову документа і відразу істотно знизить ймовірність моделей з використанням неправильних алфавітів, а словникова компенсує похибки при невпевненому розпізнаванні деяких символів: так, слово «turn» є у словнику англійської мови- На відміну від «tum» (принаймні, воно відсутнє серед популярних). Хоча пріоритет словника вищий, ніж у будь-якого класифікатора, він не обов'язково є останньою інстанцією, і в загальному випадку не зупиняє подальших перевірок: по-перше, як говорилося вище, є модель несловникового слова, по-друге, спеціальна організація словників дозволяє з високою часткою ймовірності припустити, чи може якесь невідоме слово відноситися до тієї чи іншої мови. Тим не менш, словникова перевірка (і повнота словників) істотно впливає на результат розпізнавання, і в тестах самої ABBYY скорочує кількість помилок практично вдвічі.

Не тільки OCR

Друковані документи - далеко не єдині, що становлять інтерес з точки зору їх оцифрування та автоматичної обробки. Досить часто доводиться працювати з формами, тобто документами з зумовленими та фіксованими полями, які заповнюються вручну, але порівняно акуратно (так званими рукодрукними символами) – прикладом можуть бути різні анкети. Технологія їх обробки має окрему назву. ICR(Intelligent character recognition) - і досить суттєво відрізняється від OCR. Так, оскільки в даному випадку завдання полягає не у відтворенні всього документа, а в витягуванні з нього конкретних даних, вона розпадається на дві основні підзавдання: знаходження потрібних полів і власне розпізнавання їх вмісту.

Це досить специфічна область, і ABBYY пропонує для неї окремий програмний продукт ABBYY FlexiCapture. Він призначений для створення автоматизованих і напівавтоматизованих систем, передбачає налаштування на конкретні типи документів, для яких створюються спеціальні шаблони, вміє інтелектуально знаходити на сторінках різні поля і верифікувати дані в них і т. д. Проте в основі лежать алгоритми розпізнавання символів, аналогічні тим , що застосовуються в FineReader, та й загальна схемадуже схожа:

Втім, важлива відмінність все ж таки є: структурний класифікатор є обов'язковим учасником процесу - це пов'язано зі специфікою рукодрукних символів. Крім того, ICR передбачає велику кількість специфічних додаткових перевірок: наприклад, чи не є символ закресленим, чи дійсно розпізнані символи формують дату.

Секрети сканування на ПК Леонтьєв Б К

Глава 16. OCR – системи

OCR - системи

Так звані системи оптичного розпізнавання символів (Optical Character Recognition – OCR) призначені для автоматичного введення друкованих матеріалів у комп'ютер, при цьому сам процес подібного введення проходить у три етапи:

Сканування.

Обробка.

Цілісне цілеспрямоване адаптивне розпізнавання.

З книги Linux From Scratch автора Бікманс Герард

Розділ 5. Підготовка системи LFS Вступ У цьому розділі ми скомпілюємо та встановимо мінімальну Linux-систему. Ця система матиме інструменти, необхідні для збирання остаточної системи LFS у наступному розділі.

З книги Секрети сканування на ПК автора Леонтьєв Б К

Глава 16. OCR - системы Так звані системи оптичного розпізнавання символів (Optical Character Recognition - OCR) призначені для автоматичного введення друкованих матеріалів комп'ютер, у своїй процес подібного введення відбувається у три етапи: Сканування. Обробка.

З книги Збираємо комп'ютер своїми руками автора Ватаманюк Олександр Іванович

Розділ 5 Операційні системи Для чого призначена операційна система Популярні операційні системи Вибір операційної системи Програмне забезпечення

Із книги AutoCAD 2009 для студента. Самовчитель автора Соколова Тетяна Юріївна

Розділ 4 Системи координат Введення координат Коли програма AutoCAD запитує точку, команда очікує на введення координат будь-якої точки поточного малюнка. AutoCAD може включати контроль лімітів малюнка, здійснюваний командою LIMITS. У цьому випадку, якщо введена точка

З книги AutoCAD 2009. Почали! автора Соколова Тетяна Юріївна

Глава 3 Системи координат Введення координат Введення координат AutoCAD може здійснюватися двома способами:? безпосередньо з клавіатури, шляхом вказівки чисельних значень; з використанням графічного маркера (курсора), який рухається екраном за допомогою пристрою

З книги SAP R/3 Системне адміністрування автора Хагеман Зігрід

З книги Серверні технології зберігання даних середовищі Windows® 2000 Windows® Server 2003 автора Дайліп Наїк

Глава 6 Файлові системи Файлова система забезпечує роботу найважливіших функций; основні з них перераховані нижче. Підтримка цілісності даних та надання користувачеві необхідних можливостей для створення, видалення, читання та запису файлів. Надання

З книги Впровадження SAP R/3: Посібник для менеджерів та інженерів автора Кале Вівек

РОЗДІЛ 3 Вибір ERP-системи Системи SAP для середніх та малих підприємств Більшість компаній, які впровадять системи Планування ресурсів підприємства (ERP) у новому тисячолітті, будуть середніми та малими підприємствами. Середніми та малими підприємствами зазвичай вважаються компанії

З книги Програмування мовою Пролог для штучного інтелекту автора Братко Іван

Розділ 14 Експертні системи Експертна система - це програма, яка веде себе подібно до експерта в деякій проблемній галузі. Вона повинна мати здатність до пояснення своїх рішень та тих міркувань, на основі яких ці рішення були ухвалені. Часто від експертної

Із книги Windows Vista. Трюки та ефекти автора Зозуля Юрій

Глава 10 Адміністрація системи Обмеження доступу до файлів та боротьба з ними Управління жорсткими дискамиЗасоби діагностики системи Нові можливості адміністрування за допомогою групової політикиАвтоматизація виконання завдань за допомогою

З книги AutoCAD 2009 Навчальний курс автора Соколова Тетяна Юріївна

Глава 12 Відновлення системи Вирішення проблем, пов'язаних з завантаженням Windows Vista Робота із засобами відновлення на настановному DVDВідновлення системи за допомогою образу диска Windows Vista є достатньо надійним. операційною системою, але і вона не

З книги AutoCAD 2008 для студента: популярний самовчитель автора Соколова Тетяна Юріївна

Розділ 4 Системи координат Введення координат Динамічний введення координат Декартові та полярні координати Формування точок методом «напрямок – відстань» Визначення тривимірних координат Правило правої руки Введення тривимірних декартових координат Введення циліндричних Розділ 5: ЗАСТОСУВАННЯ СИСТЕМИ 1. ОБРОБКА ПРИМІТКИ Скільки разів на день розгрібати вхідні? Творчим особистостям

З книги автора

Розділ 12 Моніторинг системи Початкове завдання адміністратора - встановити систему, правильно розподілити права доступу та налаштувати всі необхідні послуги. Після цього багато хто з них складає ручки і починає ганяти монстрів коридорами віртуального світу Doom3.

Технології оптичного розпізнавання (поняття та області застосування OCR, алгоритми оптичного розпізнавання, характеристики та програми OCR, поняття Intelligent CharacterRecognition, системи розпізнавання рукописного тексту)

OCR (Optical Character Recognition)- технологія перетворення графічного зображення тексту на комп'ютерний текст за допомогою алгоритму розпізнавання графічних образів.

Ocr використовується:

1) при скануванні та фотографуванні текстів.

2) для введення великих обсягів текстової інформації в комп'ютер (від 100 сторінок на день).

3) для рукописного введення текстової інформації на комп'ютер.

4) для перетворення одного формату на інший.

Популярні три основні технології розпізнавання символів:

Шаблонна (у вхідному зображенні виділяються растрові зображення окремих символів, порівнюються з усіма шаблонами, що є в базі, вибирається шаблон з найменшою кількістю точок, відмінних від вхідного зображення. Шаблонні системи простіше в реалізації, стійкі до дефектів зображення, мають високу швидкість обробки вхідних даних, але надійно розпізнають ті шрифти, шаблони яких їм відомі),

Структурна (об'єкт описується як граф, вузлами якого є елементи вхідного об'єкта, а дугами - просторові відносини між ними. Структурні системи високо чутливі до графічних дефектів зображення, що порушують складові елементи. Для цих систем, на відміну від шаблонних та ознакових, досі не створені ефективні автоматизовані процедури навчання),

Фонтанне перетворення (поєднує у собі переваги шаблонної і структурної систем. Будь-який об'єкт, що сприймається, розглядається як ціле, що складається з частин, пов'язаних між собою певними відносинами).

Характеристики ocr:

    кількість помилок під час введення тексту. Допустимою вважається величина 10 помилок на сторінку.

    вимогливість до якості вихідного тексту.

    можливість виправлення орфографічних помилок підвищення якості введення.

    підтримка різних мов.

    можливість навчання та налаштування на особливості друкованих шрифтів та рукописних текстів.

    швидкість розпізнавання. Бажано, щоб вона була порівнянна з часом введення документа сканером.

Програми ocr:

Найбільш відомі такі пакети як FineReader, CuneiForm, OmniPage, TextBridge.

ABBYY FineReader- OCR для автоматичного введення текстів, таблиць, форм, анкет тощо.

ADRT (Adaptive Document Recognition Technology),технологія адаптивного розпізнавання документів рівня IDR (Intelligent Document Recognition).

ABBYY Business Card Reader - мобільний додатокдля розпізнавання візитних карток, що автоматично розпізнає інформацію з фотографії візитної картки, створює новий контакт, записує контактні дані та додаткову інформацію у потрібні поля записника.

    ICR (Intelligent Character Recognition) - системи для обробки форм, що забезпечують введення даних із документів на основі геометричних шаблонів