Dla tych, którzy narzekają na słabe wsparcie dla języka polskiego w programach OCR o otwartym kodzie, interesujący może się okazać właśnie powstały projekt.
Tesseract-polish służy opracowaniu metody, która zapewni wysokiej jakości rozpoznawanie tekstów w języku polskim dla programu Tesseract OCR.
Aplikacja ta została uwolniona przez Google w 2006 roku i ma opinię jednego z najskuteczniejszych dostępnych silników OCR.
W projekcie przyda się pomoc osób chętnych drukować, skanować, a następnie żmudnie poprawiać znak po znaku pliki treningowe dla silnika Tesseract. Przydadzą się też pomysły na opracowanie jak najlepszych danych słownikowych.
Dla zainteresowanych przyłączeniem się do projektu powstał krótki dokument TrainingPL, wprowadzający w temat.
Jeśli uważasz, że ten nius jest nieobiektywny, przedstawia nieprawdziwe wydarzenie, jest spamem lub nie spełnia standardów serwisu,
napisz raport.
Komentarze (RSS)
Komentarze są prywatnymi opiniami dodających je osób. Prosimy o zachowanie kultury wypowiedzi. Komentarze obraźliwe oraz obniżające poziom serwisu będą usuwane. Więcej w
regulaminie komentowania.
W komentarzach możesz używać prostych znaczników HTML. Przykłady:
- Link: <a href="jaklinux.org">Linux dla każdego</a>,
- Wytłuszczenie: <strong>tekst pogrubiony</strong>,
- Kursywa: <em>tekst pochylony</em>,
- Przekreślenie: <strike>
tekst przekreślony</strike>,
- Kod: <code>
printf("blok kodu");</code>,
- Cytat: <blockquote>cytat</blockquote>
Uwaga: jeśli dodasz nieznany znacznik, będzie on niewidoczny, gdyż system filtruje takie znaczniki.

Wszystkie autorskie niusy w serwisie publikowane są na licencji Creative Commons Uznanie autorstwa 2.5 Polska. Uwaga, jeśli nius jest skopiowany z innej strony, kopiując go należy podać link również do tej strony!
Dość ciekawe, jednak coraz mniej osób używa OCR. W końcu teraz większość książek czy gazet można pobrać z różnych stron w formacie PDF.
Teraz tak, ale co z książkami i publikacjami dawnymi?
Ciekawą robotę wykonuje Google w tym zakresie:
http://books.google.com/books?lr=lang_pl&ei=RHB-SIjoCLW2iQH8gZ2bBg&as_brr=1&q=Licz%C4%85c+date%3A0-1830&btnG=Search+Books
Ale dobrze aby nasi rodzimi archiwiści też mieli w tym zakresie odpowiednie możliwości.
Do tego OCR ma różne inne użyteczne zastosowania, na przykład rozpoznawanie spamu w obrazkach (http://fuzzyocr.own-hero.net/ ma wsparcie dla m.in. Tesseract-a).
Inne zastosowanie to indeksowanie pełnotekstowe, włączając tekst przedstawiony graficznej postaci (n.p. obrazkach w sieci WWW lub w dokumentach składowanych w jakimś repozytorium).
Nie okłamujmy się, OCR pod linuksem praktycznie nie istnieje. Windowsowe programy rozpoznają rynki, tabele, formatowanie, potrafią odwzorować układ strony. Pod linuksem opiera się to wciąż na zasadzie, czy tekst będzie dobrze zinterpretowany, czy nie.
Zawsze możesz zainstalować drogiego Finereadera na wine. ;p
No właśnie nie mogę, bo nie działa jak należy (albo wcale, w zależności od wersji). A w maszynie wirtualnej działa koszmarnie wolno.
Niestety u mnie sięnie instaluje – a jak już z najnowszym wine zainstalował się to się nie odpala….
finereader ma natywną wersję linuxową
A nie mówisz przypadkiem o silniku dla developerów? Bo osbiście nie umiałem znaleźć FR dla linuksa.
Jest dost ale nie dla domowych userów. żeby uzyskać wersje trzeba mieć firmę :d
To dziwne jakieś
Trzeba mieć firmę żeby mieć program który jest dostępny dla użytkowników domowych tylko dlatego że jest to wersja dla Linuksa. Paranoja jakaś.
używa, używa, po pierwsze rozmiar pliku, po drugie spróbuj przeszukać pdf z obrazków