Извличане на текст от изображения с тези най-добри OCR софтуер

2019

Тези дни почти всичко (напр. Снимки, музика, видео) е станало цифрово (и това има смисъл, тъй като цифровото съдържание може удобно да се управлява, редактира и споделя). Така че как могат да останат текстовите документи. Благодарение на напредъка в технологиите за оптично разпознаване на символи (OCR), сега е по-лесно от всякога да се цифровизира текстовата материя в печатни / ръкописни документи, като по този начин тя може да се редактира чрез текстообработващи програми.

Сега, за да направите това, имате нужда от наистина добри софтуерни приложения за OCR, и точно за това се отнася тази статия. Този софтуер може или да придобие отпечатаните документи на източника като изображения от сканиращи устройства, или да въведете свои собствени изображения на документи, които да се преобразуват в редактируем текст. Заинтригуван? Ами тогава да не биваме по хълма и да стигнем до 5-те най-добри OCR софтуер .

1. ABBYY FineReader

Когато става въпрос за оптично разпознаване на символи, почти няма нищо, което да е близо до ABBYY FineReader. ABBYY FineReader, зареден до ръба с луд брой мощни функции, прави извличането на текст от всички видове изображения леки.

Въпреки обширния списък от функции, ABBYY FineReader е изключително лесен за използване. Той може да извлича текст от почти всички видове популярни формати за изображения, като PNG, JPG, BMP и TIFF. И това не е всичко. ABBYY FineReader може също така да извлича текст от PDF и DJVU файлове. След като файлът или изображението на източника (който за предпочитане трябва да има резолюция от най-малко 300 dpi, за оптимално сканиране) се зарежда, програмата го анализира и автоматично определя различни части от файла с екстрахируем текст. Можете да извлечете целия текст или да изберете само някои специфични секции. След това, всичко, което трябва да направите, е да използвате опцията Save, за да изберете изходния формат, а ABBYY FIneReader ще се погрижи за останалото. Има многобройни изходни формати, като TXT, PDF, RTF и дори EPUB.

Изходният текст е напълно редактируем и текстът дори от най-интензивните документи (напр. Тези с множество колони и сложни оформления) се извлича безупречно. Други характеристики включват обширна езикова поддръжка, многобройни стилове / размери на шрифтове и инструменти за корекция на изображения за файлове, получени от скенери и камери.

Накратко, ако искате най-добрият софтуер за оптично разпознаване (OCR) там, пълен с обширен входно-изходен формат и поддръжка за обработка, трябва да отидете за ABBYY FineReader.

Наличност на платформи: Windows 10, 8, 7, Vista и XP; Mac OS X 10.6 и по-нови версии

Цена: Платени версии започват от $ 169.99, 30 дни безплатен пробен период

Изтегли

2. Readiris

На лов за изключително мощен OCR софтуер, който е тежък за функциите, но всъщност не изисква много усилия, за да започнете? Обърнете внимание на Readiris, тъй като просто може да е това, от което имате нужда.

Професионално приложение, Readiris разполага с обширен набор от функции, който до голяма степен е идентичен с вече обсъждания ABBYY FineReader. От BMP до PNG и от PCX до TIFF, Readiris поддържа доста графични формати. Освен това, PDF и DJVU файловете могат да бъдат обработвани също толкова добре. Изображенията могат да бъдат получени от устройства за сканиране, а приложението ви позволява също така да настроите персонализирани параметри за обработка на изходни файлове / изображения, като например изглаждане и настройка на DPI, преди да ги анализирате. Въпреки че Readiris може да обработва изображения с ниска разделителна способност, оптималната резолюция трябва да бъде поне 300 dpi. След като анализът е направен, Readiris определя текстови участъци (или зони), а текстът може да бъде извлечен или от конкретни зони, или от целия файл. Извлеченият текст може да се редактира и може да се записва в множество формати, като PDF, DOCX, TXT, CSV и HTM.

Нещо повече, функцията за спестяване на облак от Readiris Pro ви позволява директно да запишете извлечения текст в различни услуги за съхранение в облак, като Dropbox, OneDrive, GoogleDrive и още няколко. Има и здравословен брой функции за редактиране / обработка на текст, а дори и баркодовете могат да бъдат сканирани.

Като цяло, трябва да използвате Readiris, ако искате надеждни функции за извличане / редактиране на текст в лесен за използване пакет, пълен с обширна поддръжка на входно / изходния формат. Въпреки това Readiris се колебае малко, когато става въпрос за обработка на документи със сложни оформления като множество колони, таблици и др.

Наличност на платформи: Windows 10, 8, 7, Vista и XP; Mac OS X 10.7 и по-нови версии

Цена: Платени версии започват от $ 99, 10 дни безплатен пробен период

Изтегли

3. FreeOCR

Ако търсите прост и безпроблемен OCR софтуер с подходящи възможности за разпознаване на текст, не търсете повече от FreeOCR . Макар да не е претоварен с всички видове фантастични функции, той все още работи изключително добре за това, което е.

Базиран на изключително популярния, поддържан от Google двигател на Tesseract OCR, FreeOCR е изключително лесен за използване. Тя може да получи отпечатани документи, сканирани чрез скенери, и също така да ви позволява да качвате изображения с текстово съдържание. Не само това, той може да извлича текст от силно форматирани многостранични документи. Можете да накарате приложението да извлече целия текст от входящия PDF / образ или да дефинирате конкретен блок текст. Скоростите на конвертиране са доста добри и конвертираният текст може да бъде запазен във формати като TXT и RTF, или да бъде експортиран директно в Microsoft Word. FreeOCR поддържа всички основни формати за изображения, като PNG, JPG и TIFF.

Като се има предвид това, FreeOCR има някои недостатъци. Тя е твърде основна и няма никакви функции за последваща обработка на текст. Освен това, оформлението на извлечения текст често се бърка с припокриващи се линии и колони. Използвайте го само ако имате нужда от основна OCR функционалност за случайна употреба.

Наличност на платформи: Windows 10, 8, 7, Vista и XP

Цена: Безплатно

Изтегли

4. Microsoft OneNote

OneNote е впечатляващо богато бележка, която е лесно да започнете. Обаче, нотирането не е единственото нещо, в което е добре. Ако използвате OneNote като част от вашия работен процес, можете да го използвате, за да направите някои основни извличания на текст, благодарение на вградената в него OCR доброта.

Използването на OneNote за извличане на текст от изображения е абсурдно просто. Ако използвате десктоп приложението, всичко, което трябва да направите, е да използвате опцията Вмъкване, за да вмъкнете изображението в която и да е от преносимите компютри или секции. След като направите това, просто щракнете с десния бутон върху изображението и изберете опцията Копирай текст от картината . Цялото текстово съдържание от изображението ще бъде копирано в клипборда и може да бъде поставено (и следователно, редактирано) навсякъде, според изискването. Независимо дали става въпрос за PNG, JPG, BMP или TIFF, OneNote поддържа почти всички основни формати за изображения.

Възможностите за извличане на текст на OneNote обаче са доста ограничени и не могат да се справят с изображения със сложно оформление на текстово съдържание, като таблици и подраздели. Това е нещо, което трябва да имате предвид.

Наличност на платформи: Windows 10, 8, 7 и Vista; Mac OS X 10.10 и по-нови версии

Цена: Безплатно

Изтегли

5. GOCR

Забележка: Преди да започнете, важно е да знаете, че въпреки че GOCR поддържа редовни графични формати като PNG и JPG, той не успя да ги разпознае по време на нашето тестване (извършено на компютър с Windows 10). Много е възможно той да работи с тези формати на Linux машини, но ако използвате Windows, ще трябва да конвертирате изходното изображение (а) в PNM формат. Това може да стане чрез множество онлайн инструменти за преобразуване на файлове, като тази.

Това, което отличава GOCR от партидата е, че всъщност няма графичен потребителски интерфейс (GUI). Това е инструмент, базиран на командния ред и като такъв не е най-лесният за използване. Но след като се чувствате удобно с основите, GOCR може да се окаже много полезен при извличането на текст от изображенията. Заслужава да се отбележи, че за правилно функциониране на GOCR, изходните изображения трябва да имат ясно видимо текстово съдържание и за предпочитане бял фон, тъй като тази програма не работи със сложни изходни файлове. GOCR извлича текста от изображенията и ги записва във формат TXT. Макар че поддържа доста аргументи и функции, само няколко трябва да бъдат известни, за да започнат. Например, за да извлечете текст от образци PNM изображение, трябва да въведете следното в командния ред.

X: примерна папка gocr049 -i file.pnm -o file.txt

Тук X: примерна папка е мястото, където се намира GOCR командния ред, а file.pnm и file.txt са входни и изходни файлове, съответно (както на същото място, колкото и GOCR; ако местоположението е различно;, трябва да се определи пълната пътека). Също така, ако искате да промените нивата на сивата скала за изображението, можете да укажете числова стойност като аргумент, заедно с -l. Кликнете тук, за да прочетете подробно за използването.

За да обобщим, GOCR е доста добра OCR програма, и когато става въпрос за извличане на текст от прости изображения, тя работи изключително добре. Въпреки това, функциите му са силно ограничени и изисква доста усилия, за да се работи.

Наличност на платформи: Windows 10, 8, 7, Vista и XP; Linux; OS / 2

Цена: Безплатно

Изтегли

Всички настроени да конвертират изображения в текст?

Дигитализирането на печатно (и ръкописно) текстово съдържание е изключително полезно, тъй като прави съхранението, редактирането и споделянето на текст изключително лесно. И споменатият по-горе OCR софтуер прави бърза работа, правейки точно това, без значение колко основни или напреднали са вашите нужди от извличане на текст. Нуждаете се от професионално извличане на текст с най-добрите инструменти за последваща обработка? Отидете за ABBYY FineReader или Readiris. Бихте предпочели по-прост OCR софтуер, който просто прави основите направено? Използвайте OneNote или FreeOCR. Изпробвайте ги и вижте как работят за вас. Знаете ли за друг софтуер за OCR, който би могъл да бъде включен в списъка по-горе? Извикайте в коментарите по-долу.