Odporúčaná, 2024

Redakcia Choice

Extrahovať text z obrázkov s týmito najlepšími OCR softvérom

V týchto dňoch sa už všetko (napr. Fotografie, hudba, videá) stalo digitálnym (a to dáva zmysel, pretože digitálny obsah môže byť pohodlne spravovaný, upravovaný a zdieľaný). Tak ako môžu textové dokumenty zostať pozadu. Vďaka pokroku v technikách optického rozpoznávania znakov (OCR) je teraz jednoduchšie než kedykoľvek predtým digitalizovať textovú vec v tlačených / ručne písaných dokumentoch, a tak je upravovať pomocou programov na spracovanie textu.

Teraz, aby ste to urobili, potrebujete nejaké naozaj dobré OCR softvérové ​​aplikácie a presne to je tento článok. Tento softvér dokáže buď získať zdrojové tlačené dokumenty ako obrázky zo skenovacích zariadení, alebo môžete vložiť vlastné obrázky dokumentu, ktoré sa majú konvertovať na upraviteľný text. Zaujalo? No potom nechajte poraziť okolo Bush, a dostať sa k 5 najlepší OCR softvér .

1. ABBYY FineReader

Pokiaľ ide o optické rozpoznávanie znakov, takmer nič neprichádza do blízkosti aplikácie ABBYY FineReader. Tento softvér ABBYY FineReader je nabitý do okraja s neslýchaným množstvom výkonných funkcií a umožňuje získať text zo všetkých druhov obrázkov.

Aj napriek tomu, že ABBYY FineReader je rozsiahly zoznam funkcií, je veľmi jednoduchý na používanie. Môže extrahovať text z takmer všetkých populárnych formátov obrázkov, ako sú PNG, JPG, BMP a TIFF. A to nie je všetko. Aplikácia ABBYY FineReader dokáže extrahovať aj text zo súborov PDF a DJVU. Po načítaní zdrojového súboru alebo obrázka (ktorý by mal mať najlepšie rozlíšenie aspoň 300 dpi pre optimálne skenovanie), program ho analyzuje a automaticky určí rôzne časti súboru s extrahovateľným textom. Môžete mať buď celý text extrahovaný, alebo vybrať len niektoré konkrétne sekcie. Potom všetko, čo musíte urobiť, je použiť voľbu Save na výber výstupného formátu a ABBYY FIneReader sa postará o zvyšok. Existuje mnoho podporovaných výstupných formátov, ako napríklad TXT, PDF, RTF a dokonca aj EPUB.

Výstupný text je dokonale editovateľný a text dokonca aj z dokumentov s najvyššou náročnosťou na obsah (napr. S viacerými stĺpcami a komplexnými rozloženiami) je bezchybne extrahovaný. Medzi ďalšie funkcie patrí rozsiahla jazyková podpora, množstvo štýlov / veľkostí písma a nástroje na korekciu obrázkov pre súbory zo skenerov a kamier.

Stručne povedané, ak chcete, aby tam bol absolútne najlepší OCR softvér, ktorý obsahuje rozsiahly vstupný / výstupný formát a podporu spracovania, prejdite na program ABBYY FineReader.

Dostupnosť platformy: Windows 10, 8, 7, Vista a XP; Mac OS X 10.6 a novší

Cena: Platené verzie začínajú od 169, 99 dolárov, 30 dní bezplatnej skúšobnej verzie

Stiahnuť ▼

2. Readiris

Na hľadanie extrémne silného OCR softvéru, ktorý je ťažký na vlastnostiach, ale naozaj nevynaloží veľa úsilia na začatie? Pozrite sa na Readiris, pretože to môže byť to, čo potrebujete.

V aplikácii profesionálnej triedy má spoločnosť Readiris rozsiahlu sadu funkcií, ktorá je do značnej miery identická s predtým diskutovaným programom ABBYY FineReader. Z BMP na PNG a z PCX na TIFF podporuje Readiris pomerne málo obrázkových formátov. Iné ako súbory PDF a DJVU je možné spracovať rovnako dobre. Obrázky môžu pochádzať zo zariadení skenera a aplikácia vám tiež umožňuje nastaviť vlastné parametre spracovania na zdrojové súbory / obrázky, ako je napríklad vyhladenie a úprava DPI, a potom ich analyzovať. Hoci Readiris dokáže spracovať obrázky s nižším rozlíšením, optimálne rozlíšenie by malo byť minimálne 300 dpi. Akonáhle je analýza vykonaná, Readiris určuje sekcie textu (alebo zóny) a text je možné extrahovať buď zo špecifických zón, alebo z celého súboru. Extrahovaný text je editovateľný a môže byť uložený v mnohých formátoch, ako PDF, DOCX, TXT, CSV a HTM.

Funkcia úspory cloud od spoločnosti Readiris Pro vám umožňuje priamo ukladať extrahovaný text do rôznych služieb pre ukladanie dát v cloude, ako sú napríklad Dropbox, OneDrive, GoogleDrive a ďalšie. K dispozícii je tiež zdravý počet funkcií úpravy a spracovanie textu, a dokonca aj čiarové kódy je možné skenovať.

Celkovo by ste mali použiť Readiris, ak potrebujete robustné funkcie extrakcie / editácie textu v jednoduchom balíku, ktorý bude obsahovať rozsiahlu podporu vstupu a výstupu. Čítačka Readiris trochu ustúpi, keď ide o spracovanie dokumentov so zložitými rozloženiami, ako sú viaceré stĺpce, tabuľky atď.

Dostupnosť platformy: Windows 10, 8, 7, Vista a XP; Mac OS X 10.7 a novší

Cena: Platené verzie začínajú od 99 dolárov, 10 dní bezplatná skúšobná verzia

Stiahnuť ▼

3. FreeOCR

Ak hľadáte jednoduchý a bez problémov OCR softvér s slušnými schopnosťami rozpoznávať text, nehľadajte nič iné ako FreeOCR . Hoci to nemusí byť preťažené všetkými druhmi fantazijných funkcií, stále funguje veľmi dobre pre to, čo to je.

Na základe mimoriadne populárneho, podporovaného nástroja Google Tesseract OCR je FreeOCR veľmi jednoduché. Môže získať vytlačené dokumenty naskenované skenermi a tiež umožňuje nahrávať obrázky s textovým obsahom. Nielen to dokáže extrahovať text zo silne formátovaných viacstranových dokumentov. Aplikáciu môžete získať extraktom celého textu zo vstupného PDF / obrázku alebo definovať určitý text. Rýchlosť konverzií je celkom dobrá a prevzatý text možno uložiť buď vo formátoch ako TXT a RTF alebo exportovaný priamo do aplikácie Microsoft Word. FreeOCR podporuje všetky hlavné formáty obrázkov, napríklad PNG, JPG a TIFF.

Z tohto dôvodu má FreeOCR nejaké nedostatky. Je to príliš jednoduché a nemá žiadne funkcie na ďalšie spracovanie textu. Navyše, rozloženie extrahovaného textu sa často objavuje s prekrývajúcimi sa čiarami a stĺpcami. Používajte ho iba vtedy, ak potrebujete nejaké základné funkcie OCR pre príležitostné použitie.

Dostupnosť platformy: Windows 10, 8, 7, Vista a XP

Cena: Zadarmo

Stiahnuť ▼

4. Microsoft OneNote

OneNote je impozantne bohatá aplikácia s poznámkami, ktorá sa dá ľahko začať. Avšak poznámka nie je jediné, na čom je dobré. Ak používate OneNote ako súčasť vášho pracovného postupu, môžete ho použiť na vykonanie nejakého základného extrakcie textu, a to vďaka dobrej povahe OCR.

Použitie aplikácie OneNote na extrahovanie textu z obrázkov je smiešne jednoduché. Ak používate aplikáciu pre stolné počítače, stačí použiť možnosť Vložiť na vloženie obrázka do ktoréhokoľvek notebooku alebo úseku. Akonáhle je to hotovo, jednoducho kliknite pravým tlačidlom na obrázok a vyberte možnosť Kopírovať text z obrázku . Celý textový obsah z obrázka sa skopíruje do schránky a môže byť prilepený (a teda upravený) kdekoľvek, podľa požiadavky. Či už ide o formát PNG, JPG, BMP alebo TIFF, OneNote podporuje takmer všetky hlavné formáty obrázkov.

Funkcie extrakcie textu programu OneNote sú však dosť obmedzené a nemôžu riešiť obrázky so zložitým rozložením textového obsahu, ako sú napríklad tabuľky a podsekcie. Takže to by ste mali mať na mysli.

Dostupnosť platformy: Windows 10, 8, 7 a Vista; Mac OS X 10.10 a novší

Cena: Zadarmo

Stiahnuť ▼

5. GOCR

Poznámka: Skôr ako začnete, je dôležité vedieť, že hoci GOCR podporuje bežné formáty obrázkov, ako sú PNG a JPG, nedokázal ich rozpoznať počas testovania (vykonávaného na Windows 10 bežiacom počítači). Je veľmi pravdepodobné, že by mohol pracovať s týmito formátmi na strojoch Linux, ale ak používate systém Windows, budete musieť previesť zdrojový obrázok (y) do formátu PNM. To je možné vykonať prostredníctvom mnohých online nástrojov na konverziu súborov, ako je tento.

To, čo určuje GOCR okrem lotu, je to, že v skutočnosti nemá grafické užívateľské rozhranie (GUI) front-end. Je to nástroj založený na príkazovom riadku a ako taký nie je naozaj najjednoduchší na použitie. Ale akonáhle budete spokojní so základmi, GOCR sa môže naozaj pomôcť pri extrakcii textu z obrázkov. Treba tiež poznamenať, že pre GOCR pracovať správne, zdrojové obrázky by mali mať jasne viditeľný textový obsah a najlepšie biele pozadie, pretože nástroj nefunguje s komplexnými zdrojovými súbormi. GOCR extrahuje text z obrázkov a uloží ich vo formáte TXT. Zatiaľ čo podporuje niekoľko argumentov a funkcií, je potrebné zistiť iba niekoľko z nich, aby ste mohli začať. Ak chcete napríklad extrahovať text zo vzorového obrázka PNM, mali by ste na príkazovom riadku zadať nasledujúce.

X: \ zložka vzorky \ gocr049 -i file.pnm -o file.txt

Tu je priečinok vzorky X: \ location, kde je umiestnený nástroj príkazového riadku GOCR a file.pnm a file.txt sú vstupné a výstupné súbory (v rovnakom umiestnení ako GOCR, ak je umiestnenie iné, je potrebné špecifikovať úplnú cestu). Ak chcete zmeniť aj úroveň odtieňov sivej farby pre obrázok, môžete ako argument špecifikovať číselnú hodnotu spolu s -l. Kliknite tu, ak si chcete prečítať o použití v detaile.

Ak to zhrnieme, GOCR je pomerne dobrý nástroj OCR, a pokiaľ ide o extrakciu textu z jednoduchých obrázkov, funguje to výnimočne dobre. Je však výrazne obmedzený funkciami a vyžaduje si dostatočné úsilie na to, aby ste mohli pracovať.

Dostupnosť platformy: Windows 10, 8, 7, Vista a XP; linux; OS / 2

Cena: Zadarmo

Stiahnuť ▼

Všetko nastavené na konverziu obrázkov na text?

Digitalizácia tlačeného (a ručne písaného) textového obsahu je veľmi užitočná, pretože ukladanie, editovanie a zdieľanie textu je veľmi jednoduché. A vyššie diskutované OCR softvér robiť rýchlu prácu robiť práve to, bez ohľadu na to, ako základné alebo pokročilé vaše ťažby textov sú potrebné. Potrebujete profesionálne funkcie extrakcie textu s najlepšími nástrojmi na spracovanie textu? Choďte do programu ABBYY FineReader alebo Readiris. Uprednostňoval by sa jednoduchší softvér na rozpoznávanie OCR, ktorý práve spraví základy? Použite OneNote alebo FreeOCR. Vyskúšajte ich a uvidíte, ako pre vás pracujú. Poznáte iný softvér OCR, ktorý by mohol byť zahrnutý do vyššie uvedeného zoznamu? Vykúpiť v komentároch nižšie.

Top