Travaux dirigés avec Unitex

 

 

Traitements linguistiques à base d’automates et de transducteurs à nombre fini d’états.

 

 

Ressources

Le site Web d'Unitex.

Le manuel d'utilisation d'Unitex 2.1 en anglais. C'est la version installée dans les salles informatique.

Le manuel d'utilisation d'Unitex 1.2 (en français).

Lancement d'Unitex

Unitex est installé sur mon compte (~rozenknop). Il fonctionne avec Java 6, qui n'est pas la version de Java utilisée par défaut dans les salles du Sercal. Le plus simple, pour le lancer, est d'ajouter les lignes suivante à votre fichier .bashrc :

export PATH=/usr/java/jdk/bin:$PATH
alias unitex='cd /export/home/users/Enseignants/rozenknop/MICR_REI/Unitex/prog/Unitex2.1beta/App; java -jar Unitex.jar'

Travaux dirigés 1

 

But du TD

Découvrir Unitex et le traitement de corpus. Découvrir les concordances. Une concordance permet de visualiser une expression et l’ensemble de ses occurrences en contexte.

 

Lancer l’application

-        Lancer Unitex (commande "unitex" si vous avez fait les modifications sus-conseillées ; sinon, commande "java –jar Unitex.jar" depuis le répertoire d'installationde Unitex.jar)

-        Choisir une langue de travail (français)

-        L’interface apparaît

 

Traiter un texte

-        Ouvrir un texte (Text ® Open)

-        Découper le texte en phrases (Text ® Preprocessing text)

-        Passer les dictionnaires sur le texte (Text ® Apply lexical resources). Quels sont les résultats ? Qu’observe-t-on dans les différentes fenêtres qui apparaissent ?

 

Obtenir une concordance

-        Elaborer une expression régulière linguistique (Text ® Locate Pattern)

-        La passer sur le texte

-        Obtenir la concordance correspondante

 

 

Travaux dirigés 2

 

But du TD

Découvrir FSGraph, l’outil de modélisation de graphes. Insérer différents types d’étiquettes linguistiques dans les graphes. Créer et étendre des dictionnaires.

 

Prise en main de l'éditeur FSGraph

-        Ouvrir le menu FSGraph d'Unitex.

-        Créer un nouveau graphe.

-        Créer des boîtes (pour créer une boîte, on peut cliquer sur l'icône boîte puis dans la fenêtre ; on peut aussi faire control-clic) pour les différents mots à reconnaître (éditer le texte de chaque boîte et terminer avec Entrée).

-        Lier l'état initial, les boîtes et l'état final (pour créer un arc de la boîte A vers la boîte B, sélectionner A puis sélectionner B ; pour supprimer un arc existant de A vers B, faire les mêmes opérations).

-        Sauvegarder le graphe dans le répertoire Graphs.

 

Chercher des occurrences du graphe dans le texte

-        Ouvrir le texte avec prétraitement.

-        Ouvrir la commande Text ® Locate Pattern

-        Marquer le champ Graph et choisir le graphe. Cliquer sur SEARCH.

-        Après la recherche, cliquer sur Build Concordance.

 

Créer de nouveaux dictionnaires

-        Ouvrir un éditeur de texte Unicode

-        Créer un dictionnaire au format adéquat (agissons,agir.V+z1:P1p)

-        Le sauvegarder dans le répertoire Unitex correspondant

-        Ouvrir ce dictionnaire dans Unitex grâce au menu DELA

-        Vérifier le format du dictionnaire

-        Compiler le dictionnaire

-        Le passer sur le texte

 

Travaux dirigés 3

 

But du TD

Découvrir la notion de transducteur, afin de marquer certaines séquences au sein des textes. Balisage de textes à partir de transducteurs dans Unitex.

 

Création de transducteurs avec FSGraph

-        Ouvrir le menu FSGraph d'Unitex.

-        Créer un nouveau graphe ou compléter un graphe avec des éléments de réécriture (<E>/<font color=red>)

-        Appliquer ces éléments sur le texte

-        Sauvegarder le résultat dans un fichier (au lieu de générer une concordance, donner un nom de fichier où sera stocké le résultat)

 

Vérifier le résultat

-        Ouvrir le fichier résultat dans un navigateur Web