Miesięcznik informatyków i menedżerów IT sektora publicznego

Marcin Lisiecki

Prosty sposób na „papiery”

Wiele instytucji korzysta dziś z systemów EZD. Mimo postępującej cyfryzacji nie jest jednak możliwa całkowita rezygnacja z dokumentacji papierowej. Na szczęście oprogramowanie OCR znacząco ułatwia pracę z zeskanowanymi dokumentami.

ABBYY FineReader to jedno z najlepszych komercyjnych narzędzi do rozpoznawania znaków. Wykorzystuje autorską technologię OCR opartą na algorytmach sztucznej inteligencji pozwalających na sprawną cyfryzację w bardzo szerokim zakresie.

Aplikacje pozwalające na korzystanie z techniki OCR (Optical Character Recognition – optyczne rozpoznawanie znaków) cały czas się rozwijają i otrzymują wsparcie zarówno ze strony wyszukanych algorytmów, jak i tzw. sztucznej inteligencji. Pozwala to nie tylko szybko przenosić dokumenty z papieru lub plików graficznych (zdjęcia, skany) do postaci edytowalnej z wykorzystaniem komputera i dowolnego edytora tekstu, ale także odczytywać wybrane informacje np. z faktur: numer NIP, datę wystawienia czy numer rachunku bankowego. Możliwości jest bardzo wiele. 

Dokumenty, które chcemy poddać procesowi OCR, często zawierają dodatkowe elementy, takie jak np. tabele, wykresy, obrazy i inne. Dobre narzędzie do rozpoznawania optycznego powinno radzić sobie także z takimi dodatkami, przekształcając zawartość tabel do postaci możliwej do edycji, a grafikę umieszczać w odpowiednim miejscu tworzonego dokumentu, tak aby nie zakłócić jego szyku i formatowania. Z tym bywa jednak różnie. Wszystko zależy od aplikacji oraz umiejętności użytkownika w zakresie konfiguracji parametrów pracy oprogramowania. Często bowiem wychodzi się z założenia, że im lepsza jakość skanowania (rozdzielczość podawana w DPI), tym skuteczniejsze i dokładniejsze będzie rozpoznawanie. Nie zawsze tak jest. Oczywiście, zbyt niska jakość może nawet uniemożliwić poprawne wykrywanie tekstu, więc producent danego oprogramowania na ogół zaleca najbardziej optymalną rozdzielczość, która z reguły wynosi 200–300 DPI. 
W przypadku dokumentów mniej czytelnych, zniszczonych, poplamionych czy będących kolejną kopią wykonaną na ksero użycie zbyt wysokiej jakości skanowania wprowadzi zbyt wiele elementów (danych), których przetworzenie wygeneruje jedynie znaczą liczbę nieprawidłowości w rozpoznawanym tekście. Warto dodać, że OCR to nie tylko edycja dokumentów, ale także ich przeszukiwanie, co jest oczywiście niewykonalne w przypadku papierowych dokumentów. Zaletą jest też możliwość zapisania gotowego pisma, wniosku czy oferty w wybranym formacie, np. RTF czy PDF. 

Dla małych i dużych

Największe korzyści z technologii OCR czerpać mogą jednostki, gdzie przetwarza się wiele dokumentów przez dużą liczbę pracowników. Dla nich oznacza to dużą oszczędność czasu. Duża skala wymaga jednak skorzystania z rozwiązań i oprogramowania komercyjnego. Ze względu na swoje ograniczenia aplikacje bezpłatne sprawdzą się jedynie w przypadku małych grup roboczych. Na szczęście zakup licencji nie oznacza dużych wydatków. Przykładowo firma ABBYY – jeden z liderów w branży OCR – stosuje politykę tzw. licencji sieciowych, czyli obsługiwanych w obrębie danej sieci LAN. Pozwala to na zakup np. 10 licencji (min. 5), gdzie program możemy zainstalować na wszystkich posiadanych komputerach, nawet jeśli jest ich 100 lub więcej. Ograniczeniem jest jedynie to, że w danej chwili z aplikacji ABBYY Fine­Reader może korzystać maks. 10 osób. Takie rozwiązanie znacząco obniża koszty wdrożenia, szczególnie że taka licencja jest wieczysta. 
W małych i średnich jednostkach można w zasadzie za darmo korzystać z profesjonalnego oprogramowania OCR po  zakupie urządzenia (np. skanera, drukarki), do którego producent dołącza aplikację (np. komercyjny Readiris Pro) lub umożliwia jej pobranie ze strony WWW. Musimy liczyć się z tym, że najprawdopodobniej nie otrzymamy najnowszej wersji programu, choć oczywiście będzie to w pełni funkcjonalne narzędzie. Często też można spotkać oferty producentów urządzeń, którzy po zakupie drukarki czy skanera pozwalają nabyć ze znacznym rabatem oprogramowanie w nowej wersji.

[...]

Autor jest niezależnym dziennikarzem publikującym w magazynach komputerowych. Ma zawodowe doświadczenie w testowaniu sprzętu i oprogramowania komputerowego.

Pełna treść artykułu jest dostępna w papierowym wydaniu pisma. Zapraszamy do składania zamówień na prenumeratę i numery archiwalne.
 
 

Polecamy

Biblioteka Informacja Publiczna

Specjalistyczne publikacje książkowe dla pracowników administracji publicznej

więcej