MorphCon
- aktuální verze: v0.2alpha
- aktualizace: 08/07/2009
Program MorphCon je v současné době v alfa verzi 0.2 a prochází testováním. Viz sekci Registrace|Download.
MorphCon je složen z několika komponentů/modulů (všechny jsou napsány v programovacím jazyce Perl).
Moduly
- GUI: grafické uživatelské rozhraní – MorphCon.pl
- Input/Output moduly: MorphCon::{simple,kwic,wpl}
- Drivers: implementované morfologické tagsety
- tagset::cs::{attributive-ajka, tagset::cs::pdt,positional-16}
- Universal library: modifikovaná knihovna DZ Interset
Modularita softwaru kromě univerzality (s možností rozšiřovat MorphCon o další tagsety) nabízí i variabilitu při procesu konverze, tj. různé/odlišné možnosti nastavení vstupních a výstupních dat. MorphCon je postaven na univerzálním tagsetu Interset (blíže viz Interset (c) Dan Zeman), který při konverzi z jednoho tagsetu do druhého funguje jako převodník. Každý tagset je implementován do programu jako "driver" s dvojí funkcí, buď jako výchozí, nebo cílový tagset:
- encode-funkce: source-tagset → Interset
- decode-funkce: Interset → target-tagset
Interset funguje jako "feature-projekce", tj. je strukturován jako "feature --> value" systém, kdy rysem je gramatická, morfosyntaktická kategorie. Musí zároveň obsahovat všechny rysy (gramatické kategorie) s jejich hodnotami ze všech implementovaných tagsetů. Jejich přehled lze nalézt na webových stránkách projektu (viz Features and Values). Při konverzi se tagy z tagsetu A převádějí do Intersetu, z nějž se následně konvertují do cílových tagů v rámci tagsetu B. Kvalita konverze tedy závisí na kvalitě algoritmů, jež převádějí jednotlivé kategorie s hodnotami daných tagsetů do "feature --> value" systému Intersetu.
Input/Output moduly MorphConu výrazně rozšiřují možnosti DZ Intersetu, neboť kromě samotného procesu konverze umožňují variabilně nastavit vstupní a výstupní data. Vstupní a výstupní formát dat tak nemusí být totožný.
Možnosti výběru pro Input a Output moduly
- soubor s daty
- formát .txt, "plain text"
- formát souboru
- simple: SimpleTag-Conversion
- KWIC: KWIC/Tag-Format
- WPL: WPL-VerticalMode
- formát tagu
- brněnský tagset – atributivní: tagset::cs::attributive-ajka
- pražský tagset – poziční: tagset::cs::pdt | tagset::cs::positional-16
Závažnými fakty pro konverzi, tj. převodní algoritmy, je otázka rozdílné koncepce tagsetů a jejich vzájemné převoditelnosti, potenciální ztráta informace během konverze ad. aspekty.