Оптичне розпізнавання символів (optical character recognition, OCR). Програми для оптичного розпізнавання символів: ABBYY FineReader, CuneiForm

Оптичне розпізнавання символів (optical character recognition, OCR). Програми для оптичного розпізнавання символів: ABBYY FineReader, CuneiForm

Технологія OCR (Optical Character Recognition) може використовуватися для перетворення друкованої копії документа в електронну версію. Наприклад, якщо сканується багатосторінковий екземпляр у файл TIFF, його завантажують в OCR-програму, яка розпізнає текст, а потім перекладають у файл, що редагується. Деякі програми дозволяють сканувати сторінки та перетворювати вміст на документ за один крок.

OCR відмінно підходить для перенесення тексту з фізичних джерел безпосередньо в цифровий документ. Існують різні типи програм і програм для настільних і мобільних пристроїв. Вони різні за ціною і мають свої ключові відмінні функції.


Найбільш популярні "" Андроїд "" -сканери:

  1. Office Lens - забезпечує сканування сторінок і OCR для Android-користувачів безкоштовно. Для конвертації необхідне з 'єднання з інтернетом.
  2. Сканери PDF (наприклад, ABBYY TextGrabber, CamScanner, M^ can, OCR Instantly) - виконують сканування з подальшим OCR. У ПЗ немає обмежень на кількість відсканованих сторінок і відсутні водяні знаки.
  3. Онлайн OCR. Його можна знайти в Інтернеті, сервіс дуже простий і зручний у використанні. Відмінною рисою є те, що він підтримує 46 мов, вихідний документ важить не більше 5 МБ, його легко перетворити на Microsoft Word, Excel або звичайний текстовий формат. Після реєстрації можна конвертувати багатосторінкові PDF, RTF, Excel та файли розміром до 100 МБ. Для великих обсягів розпізнавання є платна версія.

Документи Google

Для тих, хто вже знайомий з документами Google, можна використовувати OCR, вбудований в Google Drive. Для досягнення найкращих результатів шрифт повинен бути встановлений на Arial або Times New Roman. Можна поліпшити результат, переконавшись, що скановане зображення має рівномірне освітлення і чітку контрастність. Фотоматеріали можуть оброблятися індивідуально у файлах: jpg, png, gif або у багатосторінкових PDF-файлах. Розширення підтримує більшість мов.

У Google є багато навчальних програм і можливостей хмарної обробки. Багато користувачів вважають, що у сервісу немає достатньо просунутих функцій і опцій. Проте, якщо використовується додаток Google Drive для Android, можна сканувати сторінки прямо з програми, використовуючи камеру на смартфоні. В іншому випадку завантажують документи за допомогою сканера, підключеного до комп 'ютера, або будь-яким іншим способом, щоб почати обробку розпізнавання в Google Диску. Для фізичних осіб на Google Диске пропонується безкоштовний рівень зберігання близько 19 ГБ з можливістю розширення до 100 ГБ через Google One за 1,99 дол. США.

Оптичне розпізнавання Abbyy

Abbyy FceReader працює з документами вже давно. Це комплексне рішення, як для бізнесу, так і для звичайних користувачів. У ньому можна отримати всі необхідні функції для вилучення змісту текстів зі сканера з повною читаністю, акуратно організовані оцифровані матеріали. Крім розпізнавання текстів та перетворення на PDF, Microsoft Office або інші формати, програма також може порівнювати їх, додавати анотації та коментарі.

Abbyy FceReader може конвертувати матеріал в пакетному режимі і обробляти безліч вихідних форматів на 192-х різних мовах. Є супутні мобільні додатки, коли потрібно виконати швидке сканування з телефону.

Програмне забезпечення не найсучасніше, але воно просте, функціональне і відмінно справляється зі своєю роботою. Утиліта має міцну репутацію одного з кращих варіантів в області оптичного розпізнавання символів. Можна скористатися безкоштовною пробною версією. ПО коштує від 199,99 дол. США за стандартну разову безстрокову ліцензію.


Якщо комусь здасться це дорогим варіантом, можна скористатися хорошою альтернативою ABBYY FceReader - онлайн версією. Вона обмежена тим, що дозволяє сканувати тільки 10 сторінок на місяць. Але поставляється з усіма іншими функціями преміум-версії. Потрібна реєстрація, щоб отримати доступ. Вона підтримує дуже багато форматів вхідних файлів, і можна вибрати вихідні, такі як PDF, Word, Excel, PowerPoint і e-Pub.

Хмарний сервіс Adobe Acrobat

Adobe Acrobat відповідає всім вимогам і пропонує вражаючий список можливостей і опцій, хоча ціна трохи крутіша, ніж у конкурентів. Для всіх функцій оптичного розпізнавання тексту вибирають Pro версію Adobe Acrobat. DC означає "Хмара документів", і досить чітко інтегрується з хмарним рішенням Adobe, якщо потрібно отримати доступ до своїх файлів з будь-якого комп 'ютера. Також є проста і безшовна інтеграція з усіма іншими сервісами Adobe, наприклад, такими як Photoshop.

Якщо користувач вирішить сплатити версію Adobe Acrobat DC, він отримає всі інструменти розпізнавання тексту, можливість додавати коментарі та відгуки до змісту, спеціалізований сервіс для сканування таблиць, можливість швидкого порівняння двох документів разом. Матеріали можна редагувати прямо на екрані через кілька секунд після їх сканування.

Знак Adobe гарантує певний рівень якості, і користувачі вражені інтуїтивністю та можливостями Adobe Acrobat DC. Підписка на сервіс починається з 12,99 дол. США.

Краще безкоштовне програмне забезпечення

Free OCR to Word - це найкраще безкоштовне програмне забезпечення для оптичного розпізнавання символів, що використовує новітні механізми. Tesseract - найпотужніший інструмент для даного типу ПЗ і вважається одним з найточніших методів. Програма підтримує декілька форматів зображень та TIFF декількох сторінок. Цей сервіс може бути використаний абсолютно безкоштовно для вилучення тексту з наданого фотоматеріалу.

Двигун Tesseract спочатку розробили Hewlett Packard Labs у 1985-1994 роках. Деякі зміни були внесені до нього в 1996 році. У 1995 році він був включений до трійки кращих механізмів розпізнавання. Він працює з Windows, Linux і Mac OS X. FreeOCR може обробляти зображення, що мають багатоколонний і багатомовний текст. Він обробляє PDF-файли та підтримує пристрої TWAIN, такі як сканери, має поширений інтерфейс з подвійним вікном, параметри якого легко зрозуміти.

Free OCR to Word може заощадити багато часу без необхідності повторного введення вже написаного твору. Програма бере документ, відсканований об 'єкт або зображення та перетворює його на читаний, редагований та точний матеріал. ПЗ можна безкоштовно завантажити в Word. OCR to Word оптимізований для роботи з усіма типами сканерів і має рейтинг точності 98%, сучасний інтерфейс, який дозволяє легко отримати доступ до всіх завдань, є функції повороту на випадок, якщо фото не поміщається на екрані правильно. ПО витягує текст із захоплених знімків за допомогою смартфонів або цифрових камер з високою точністю і якістю.


Розпізнавання символів у Linux

Набір OCRFeeder надає зручний графічний інтерфейс Linux, який в основному є зовнішнім інтерфейсом для деяких зображень, OCR і текстових інструментів таких, як роздрукування або перевірка орфографії. Він не зчитує символи сам по собі, але замість цього використовує інші програми OCR через так звані налаштування "механізмів розпізнавання". Він має попередньо визначені параметри для Tesseract, CuneiForm, GOCR і Ocrad.

Користувачеві потрібно тільки встановити в Ubuntu вибрані ним движки - один або кілька і потім виявити їх у налаштуваннях Feeder. Можна додати інші рушії та змінити ці параметри вручну. В одній програмі може бути кілька різних движків. Головне вікно Feeder дозволяє вибрати, який їх використовувати для конкретної області, також є параметри для вибору одного за замовчуванням. Для вибору мови прочитаного тексту, у випадку з Tesseract і CuneiForm, необхідно додати перемикач "-l" з відповідним кодом мови/скрипту, наприклад, "-l pol" для польської або "-l dan-frak" для датської до налаштувань даного рушія

Технологія оптичного розпізнавання друкованих символів "" Тессеракт "" на початку могла розпізнавати текст тільки англійською мовою, версія 2.x зробила її багатомовною. Ви можете встановити більше одного словника. Нові версії оцифровують текст на основі ISO 963-2.

Після успішного встановлення використовуйте команду "tesseract > Шлях до зображення > базова назва вихідного файлу". Tesseract автоматично додасть вихідному документу розширення "" .txt "", можна вказати опцію "" -l "", за якою слідує код мови. Для версій Tesseract більш ранніх, ніж третя, дуже важливо, щоб зображення було у форматі файлу тегового значення і мало розширення "" .tif "", а не "" .tiff "". Командний рядок має виглядати так:""$ tesseract ~ / input.tif output"".

Де "" input.tif "- це документ для перетворення, розташований в домашній теці, а" "output" - матеріал, який Tesseract створить, як "" output.txt "". Часто відскановані тексти зберігаються як растровий малюнок у великому PDF-файлі. Для обробки з Tesseract окремі сторінки можуть бути вилучені як файли TIFF. Наступний скрипт може допомогти автоматизувати цей процес.


Програма CuneiForm - це ще одна система оптичного розпізнавання тексту, яка була спочатку розроблена і заснована на відкритих джерелах Cognitive Technologies. Версія Windows, яка має власний графічний інтерфейс, може бути запущена з деякими результатами в Wine. Його порт Linux розробляється на Launchpad і хоча в даний час у нього немає власного графічного інтерфейсу, CuneiForm може бути успішно запущений з графічного інтерфейсу OCRFeeder.

Нижче наведено приклад, як успішно перетворити деякі скріншоти зображень .jpeg дошки оголошень в Інтернеті на корисні текстові файли.

Pdfocr - це скрипт, який виконує OCR для багатосторінкових PDF-файлів, а також впроваджує його назад у вигляді текстового шару з можливістю пошуку. Він може використовувати "Тессеракт" або клинопис як механізм розпізнавання. Сам скрипт може бути отриманий з Github або з PPA. Щоб запустити команду, прописують у терміналі: ""pdfocr -i input.pdf -o output.pdf"".

Технологія OCR не стоїть на місці, в перспективі визнання інтелектуальної системи оптичного розпізнавання символів - ICR. Цей стандарт є передовим. Велика частина ICR має самонавчальну систему, звану нейронною мережею, яка автоматично оновлює базу даних для нових зразків почерку. Вона розширює корисність скануючих пристроїв для цілей обробки документів від розпізнавання друкованого тексту (функція OCR) до рукописних матеріалів і може досягати більше 97% ступеня точності при читанні рукописного матеріалу в структурованих формах.