Marek Blahuš: Identifikace jazyka textu statistickými charakteristikami

práce Středoškolské odborné činnosti (SOČ)

Stáhnout plné znění práce
Stáhnout program Language Detector

Název práce: Identifikace jazyka textu statistickými charakteristikami
Obor: 01 - Matematika a matematická informatika
Autor: Marek Blahuš <langdet@blahus.cz>
Škola: Gymnázium Uherské Hradiště, Velehradská 218, 686 17 Uherské Hradiště <botek@guh.cz>

Anotace:
Language Detector je počítačový program určený k identifikaci jazyka neznámého textu na základě porovnávání jeho statistických charakteristik, a to především frekvencí n-gramů (jednotlivých písmen nebo jejich skupin). Uživatelem vložený text je analyzován a porovnáním jeho statistických charakteristik se známými informacemi o jazycích je identifikován jazyk vloženého textu. Program podporuje množství nejrozšířenějších jazyků, dalších lze snadno doplnit prostřednictvím výukového modulu. Statistické charakteristiky je možno prohlížet a jazyky mezi sebou porovnávat. Prostřednictvím jednotného uživatelského rozhraní lze po identifikaci jazyka textu využít některý z internetových strojových překladačů k překladu textu např. do angličtiny. Uživatelské rozhraní programu je k dispozici ve češtině, angličtině a mezinárodním jazyce esperanto, což jej činí dostupným prakticky komukoliv. Stejně tak zdrojové kódy programu jsou volně k dispozici. Zajímavostí je v práci obsažená tabulka znázorňující zjištěné podobnosti mezi jednotlivými jazyky, která odpovídá tradičnímu systému jazykových skupin založenému na jejich původu a vývoji.

Download: Pokud máte zájem o bezplatné získání v práci popisovaného programu Language Detector, využijte ke stažení výše uvedený odkaz.
Pokud byste měli zájem o využití programu Language Detector jako součásti jiného programu a máte proto zájem o jeho zdrojové kódy, ozvěte se na výše uvedenou adresu.

Kontakt: Marek Blahuš (langdet@blahus.cz)