39

Tesseract OCR dla Polaka

16 lipca 2008, olo

Dla tych, którzy narzekają na słabe wsparcie dla języka polskiego w programach OCR o otwartym kodzie, interesujący może się okazać właśnie powstały projekt.

Tesseract-polish służy opracowaniu metody, która zapewni wysokiej jakości rozpoznawanie tekstów w języku polskim dla programu Tesseract OCR.

Aplikacja ta została uwolniona przez Google w 2006 roku i ma opinię jednego z najskuteczniejszych dostępnych silników OCR.

W projekcie przyda się pomoc osób chętnych drukować, skanować, a następnie żmudnie poprawiać znak po znaku pliki treningowe dla silnika Tesseract. Przydadzą się też pomysły na opracowanie jak najlepszych danych słownikowych.

Dla zainteresowanych przyłączeniem się do projektu powstał krótki dokument TrainingPL, wprowadzający w temat.

Więcej informacji: http://code.google.com/p/tesseract-polish
Jeśli uważasz, że ten nius jest nieobiektywny, przedstawia nieprawdziwe wydarzenie, jest spamem lub nie spełnia standardów serwisu, napisz raport.

Komentarze (RSS)


Komentarze są prywatnymi opiniami dodających je osób. Prosimy o zachowanie kultury wypowiedzi. Komentarze obraźliwe oraz obniżające poziom serwisu będą usuwane. Więcej w regulaminie komentowania.

Liczba komentarzy: 12

zwiń wątek morsik  16 lipca 2008 o godz. 23:56 #

Dość ciekawe, jednak coraz mniej osób używa OCR. W końcu teraz większość książek czy gazet można pobrać z różnych stron w formacie PDF.

zwiń wątek olo  17 lipca 2008 o godz. 0:20 #

Teraz tak, ale co z książkami i publikacjami dawnymi?

Ciekawą robotę wykonuje Google w tym zakresie:

http://books.google.com/books?lr=lang_pl&ei=RHB-SIjoCLW2iQH8gZ2bBg&as_brr=1&q=Licz%C4%85c+date%3A0-1830&btnG=Search+Books

Ale dobrze aby nasi rodzimi archiwiści też mieli w tym zakresie odpowiednie możliwości.

zwiń wątek olo  17 lipca 2008 o godz. 0:35 #

Do tego OCR ma różne inne użyteczne zastosowania, na przykład rozpoznawanie spamu w obrazkach (http://fuzzyocr.own-hero.net/ ma wsparcie dla m.in. Tesseract-a).

Inne zastosowanie to indeksowanie pełnotekstowe, włączając tekst przedstawiony graficznej postaci (n.p. obrazkach w sieci WWW lub w dokumentach składowanych w jakimś repozytorium).

(Poniżej tego poziomu komentarze nie będą zagnieżdżane)
 
 
 
zwiń wątek vries  17 lipca 2008 o godz. 10:39 #

Nie okłamujmy się, OCR pod linuksem praktycznie nie istnieje. Windowsowe programy rozpoznają rynki, tabele, formatowanie, potrafią odwzorować układ strony. Pod linuksem opiera się to wciąż na zasadzie, czy tekst będzie dobrze zinterpretowany, czy nie.

zwiń wątek 3ED  17 lipca 2008 o godz. 11:48 #

Zawsze możesz zainstalować drogiego Finereadera na wine. ;p

zwiń wątek vries  17 lipca 2008 o godz. 12:20 #

No właśnie nie mogę, bo nie działa jak należy (albo wcale, w zależności od wersji). A w maszynie wirtualnej działa koszmarnie wolno.

(Poniżej tego poziomu komentarze nie będą zagnieżdżane)
 
zwiń wątek Mieszko Kaczmarczyk  17 lipca 2008 o godz. 12:30 #

Niestety u mnie sięnie instaluje – a jak już z najnowszym wine zainstalował się to się nie odpala….

(Poniżej tego poziomu komentarze nie będą zagnieżdżane)
 
zwiń wątek szatox (ktoś)  17 lipca 2008 o godz. 12:51 #

finereader ma natywną wersję linuxową

(Poniżej tego poziomu komentarze nie będą zagnieżdżane)
zwiń wątek vries  17 lipca 2008 o godz. 13:35 #

A nie mówisz przypadkiem o silniku dla developerów? Bo osbiście nie umiałem znaleźć FR dla linuksa.

 
zwiń wątek darjerz  17 lipca 2008 o godz. 19:59 #

Jest dost ale nie dla domowych userów. żeby uzyskać wersje trzeba mieć firmę :d

 
zwiń wątek morsik  18 lipca 2008 o godz. 10:41 #

To dziwne jakieś :D
Trzeba mieć firmę żeby mieć program który jest dostępny dla użytkowników domowych tylko dlatego że jest to wersja dla Linuksa. Paranoja jakaś.

 
 
 
 
zwiń wątek kskiba  17 lipca 2008 o godz. 10:53 #

używa, używa, po pierwsze rozmiar pliku, po drugie spróbuj przeszukać pdf z obrazków

 
Identyfikator (wymagane)
Adres e-mail (wymagany - nie pokażemy go publicznie)
Adres URI
Rozmiar pola: zmniejsz rozmiar | zwiększ rozmiar
Uwaga! Niektóre komentarze, m.in. te dodane przez niezalogowanych i nowych użytkowników, są ręcznie moderowane. Jeśli Twój komentarz nie ukaże się od razu, nie dodawaj go ponownie, tylko cierpliwie poczekaj na akceptację.
W komentarzach możesz używać prostych znaczników HTML. Przykłady:
  • Link: <a href="jaklinux.org">Linux dla każdego</a>,
  • Wytłuszczenie: <strong>tekst pogrubiony</strong>,
  • Kursywa: <em>tekst pochylony</em>,
  • Przekreślenie: <strike>tekst przekreślony</strike>,
  • Kod: <code>printf("blok kodu");</code>,
  • Cytat: <blockquote>cytat</blockquote>
Uwaga: jeśli dodasz nieznany znacznik, będzie on niewidoczny, gdyż system filtruje takie znaczniki.

CC BY

Wszystkie autorskie niusy w serwisie publikowane są na licencji Creative Commons Uznanie autorstwa 2.5 Polska. Uwaga, jeśli nius jest skopiowany z innej strony, kopiując go należy podać link również do tej strony!