Transkribus

Opublikowane przez Bartosz Małłek w dniu

Jest to narzędzie, które ma duży potencjał, przede wszystkim widzę w nim świetne narzędzie dla genealoga. Co ciekawe, w polskim Internecie nie znalazłem ani słowa o tym narzędziu, a jak zobaczycie może nam bardzo pomóc w naszych poszukiwaniach.

Co to jest Transkribus?

W zasadzie to platforma do rozpoznawania tekstu, analizy układu i rozpoznawania struktury dokumentów historycznych. Jest to narzędzie darmowe, które powstało w ramach unijnych projektów tranScriptorium. Transkribus został opracowany przez Uniwersytet w Innsbrucku oraz grupę Digitization and Electronic Archiving. W zasadzie jest to projekt naukowy, ale nic nie stoi na przeszkodzie żeby wykorzystać jego możliwości w genealogii.

Do czego możemy go wykorzystać?

To narzędzie typu OCR, (optyczne rozpoznawanie znaków). Choć właściwie głównie HTR (rozpoznawanie tekstu pisanego ręcznie). Zatem możemy za jego pomocą przekształcić skany na którym znajduje się tekst w transkrypcję. Tekst z obrazka przekształcić np. w plik wordowski. Możemy także uczyć program odczytywać pismo odręczne.

Jak zacząć?

Pierwszym krokiem w pracy z Transkribusem jest założenie konta na stronie https://transkribus.eu/. Potem należy ściągnąć program.

Po uruchomieniu należy się zalogować „login” w zakładce „server”.
Poniżej znajduje się sekcja „documents”, tu póki co znajduje się parę przykładowych dokumentów, ale niedługo znajdą się także nasze.

Transkribus umożliwia pracę z własnymi dokumentami, lokalnie lub poprzez przesłanie ich na serwer. Niestety zautomatyzowane procesy można wykonać tylko wtedy, gdy dokumenty zostaną przesłane na
platformę Transkribus. Platforma może przetwarzać pliki PDF, JPEG, PNG i TIFF. Można także przesłać dokumenty, które sami zeskanujemy i użyć np. do tego celu aplikacji DocScan na smartfony z Androidem.
Przy okazji polecam zobaczyć na poniższym filmie jak można zdigitalizować za pomocą smartfona z wykorzystaniem gadżetu Scantent (ciekawa opcja, ale nieco droga).

Wprawdzie możemy otworzyć dokument, który mamy u siebie w komputerze, ale praktycznie program jest wtedy zupełnie nie funkcjonalny. Dlatego żeby z niego korzystać trzeba przesłać dokumenty na serwer. Twórcy gwarantują pełną prywatność przesyłanych dokumentów, tak jak pisałem wcześniej, jest to europejski projekt badawczy, więc twórców obowiązują te same prawa autorskie i także RODO. 

Wgrywając pliki na serwer mamy parę opcji, możemy skorzystać z FTP, możemy podać link pliku, który jest już gdzieś na serwerze lub możemy wgrać plik z naszego komputera. Ja do tej pory pracowałem na plikach PDF.

Możemy pliki dodać do istniejącej kolekcji lub stworzyć nową.

Potem tylko musimy na karcie „server” wybrać naszą kolekcję, a następnie plik na którym chcemy pracować. Tak jak pisałem wcześniej, wszystkie pliki są prywatne, ale możemy dać dostęp naszym znajomym lub współpracownikom do naszych plików używając do tego „user manager” na karcie „server”. Możemy dodać uprawnienia takie jak właściciel, edytor, transkryber lub czytelnik.

Transkrypcja

Żeby program mógł odczytać plik najpierw musi go podzielić na linie. Przechodzimy do zakładki „tools” gdzie interesuj nas narzędzie „Layout analysis” (tutaj mamy parę wariantów do wyboru, gdy będziemy mieli więcej doświadczenia to można popróbować i znaleźć optymalny dla siebie). Koniecznie musi być zaznaczona opcja „Find Text Regions”. Operacja może dotyczyć wszystkich stron, bieżącej strony lub określonego zakresu.
Jeśli tekst mamy podzielony na linie to możemy przejść do transkrypcji. W tym celu na pasku narzędzi należy wybrać odpowiednią ikonkę. Zapisujemy tekst, który widnieje na naszym skanie. Możemy do tego celu użyć wirtualnej klawiatury na której znajdziemy nietypowe znaki (symbol klawiatury na pasku na dole).  Można także pracować razem za pomocą aplikacji webowej (https://transkribus.eu/r/read).
Na koniec naszej pracy możemy prześledzić wersję pliku oraz zapisać to co do tej pory zrobiliśmy, a także wyeksportować plik w różnych formatach.

Transkribus

HTR – Handwritten Text Recognition

HTR to rozpoznawanie tekstu pisanego ręcznie. W zasadzie do tej pory używałem tego programu właśnie jako OCR czyli do odczytywania tekstu drukowanego  (np. szwabachy). Możemy użyć profili HTR domyślnych żeby program odczytał dokument automatycznie (trzeba wybrać odpowiedni profil do konkretnego dokumentu). Najcenniejszą funkcją programu jest uczenie się. W tym celu musimy najpierw wgrać nasz dokument, podzielić na linie i parę stron transkrybować ręcznie. Następnie musimy wysłać maila na adres email@transkribus.eu, aby uzyskać zgodę na stworzenie swojego własnego modelu (to czysta formalność). Po utworzeniu modelu program uczy się właśnie na podstawie tych paru stron wypełnionych przez nas ręcznie. Taki model posłuży nam potem do automatycznego rozpoznania pisma ręcznego. Do tej pory pracowałem tylko z drukowaną szwabachą, ale potrafię sobie wyobrazić jak bardzo może ułatwić czytanie tekstu odręcznego za pomocą stworzonych modeli. Oczywiście stworzenie dobrego modelu wymaga wprawy. Efekty możemy potem wykorzystać np. poprzez wyszukiwanie. W ten sposób przerobiłem książkę dotyczącą jednostki wojskowej mojego pradziadka. Bardzo szybko odnalazłem swoje nazwisko, bez konieczności przeczytania całego tekstu.

Tekst powstał na podstawie moich doświadczeń oraz instrukcji w języku angielskim (tutaj). Na YouTubie (tutaj) zamieściłem praktyczną pracę z tym programem. W przygotowaniu mam także tłumaczenie niemieckiej książki o moim Sypniewie.


Bartosz Małłek

Urodzony w Opolu, pochodzi z Tarnowa Opolskiego. Absolwent Uniwersytetu Opolskiego na kierunku Politologia o specjalizacji dziennikarskiej. Pilot wycieczek, organizator, animator kultury, społecznik, podróżnik, genealog. Prezes Fundacji Czas Podróżników. Doktorant w zakresie historii na Uniwersytecie Opolskim. Zajmuje się problematyką przesiedleń ze wschodu po 1945 roku, emigracją, genealogią, genealogią genetyczną, a także historią Słowian i Wikingów.