MorphCon

  • aktuální verze: v0.2alpha
  • aktualizace: 08/07/2009

Program MorphCon je v současné době v alfa verzi 0.2 a prochází testováním. Viz sekci Registrace|Download.

MorphCon je složen z několika komponentů/modulů (všechny jsou napsány v programovacím jazyce Perl).

Moduly

  • GUI: grafické uživatelské rozhraní – MorphCon.pl
  • Input/Output moduly: MorphCon::{simple,kwic,wpl}
  • Drivers: implementované morfologické tagsety
    • tagset::cs::{attributive-ajka, tagset::cs::pdt,positional-16}
  • Universal library: modifikovaná knihovna DZ Interset

Modularita softwaru kromě univerzality (s možností rozšiřovat MorphCon o další tagsety) nabízí i variabilitu při procesu konverze, tj. různé/odlišné možnosti nastavení vstupních a výstupních dat. MorphCon je postaven na univerzálním tagsetu Interset (blíže viz Interset (c) Dan Zeman), který při konverzi z jednoho tagsetu do druhého funguje jako převodník. Každý tagset je implementován do programu jako "driver" s dvojí funkcí, buď jako výchozí, nebo cílový tagset:

  • encode-funkce: source-tagset → Interset
  • decode-funkce: Interset → target-tagset

Interset funguje jako "feature-projekce", tj. je strukturován jako "feature --> value" systém, kdy rysem je gramatická, morfosyntaktická kategorie. Musí zároveň obsahovat všechny rysy (gramatické kategorie) s jejich hodnotami ze všech implementovaných tagsetů. Jejich přehled lze nalézt na webových stránkách projektu (viz Features and Values). Při konverzi se tagy z tagsetu A převádějí do Intersetu, z nějž se následně konvertují do cílových tagů v rámci tagsetu B. Kvalita konverze tedy závisí na kvalitě algoritmů, jež převádějí jednotlivé kategorie s hodnotami daných tagsetů do "feature --> value" systému Intersetu.

Input/Output moduly MorphConu výrazně rozšiřují možnosti DZ Intersetu, neboť kromě samotného procesu konverze umožňují variabilně nastavit vstupní a výstupní data. Vstupní a výstupní formát dat tak nemusí být totožný.

Možnosti výběru pro Input a Output moduly

  • soubor s daty
    • formát .txt, "plain text"
  • formát souboru
    • simple: SimpleTag-Conversion
    • KWIC: KWIC/Tag-Format
    • WPL: WPL-VerticalMode
  • formát tagu
    • brněnský tagset – atributivní:     tagset::cs::attributive-ajka
    • pražský tagset – poziční:             tagset::cs::pdt | tagset::cs::positional-16

Závažnými fakty pro konverzi, tj. převodní algoritmy, je otázka rozdílné koncepce tagsetů a jejich vzájemné převoditelnosti, potenciální ztráta informace během konverze ad. aspekty.