![]() |
|
Les connaissances sont généralement transmises par l’intermédiaire du langage, ce qui justifie que la Représentation des Connaissances, enjeu majeur de l’Intelligence Artificielle et des Sciences Cognitives, ait pour objectif de pouvoir traiter les connaissances exprimées en Langage Naturel. De manière complémentaire, la compréhension de texte met en œuvre des connaissances et des raisonnements qu’il est fondamental de décrire et de modéliser. L'équipe s’intéresse donc au langage, non pas en tant que système formel de signes, mais pour son pouvoir expressif et à la Représentation des Connaissances, en tant qu’outil mis au service du traitement du Langage Naturel. Les travaux de l’équipe comportent à la fois des recherches à caractère fondamental et des recherches plus appliquées. L’évolution des thèmes de l'équipe a mené à étudier finement pour les modéliser certains phénomènes interprétatifs (liés au pluriel, au temps, aux normes…), à concevoir des outils destinés à faciliter l’accès au contenu de documents techniques ou de vastes bases textuelles, comme le Web, et enfin à développer des outils d’ingénierie des connaissances à partir de textes.
Thèmes de recherche :
- Données, représentations et calculs sémantiques
|
Équipe RCLN : Représentation des Connaissances et Langage Naturel
Les connaissances sont très généralement transmises par l’intermédiaire du langage, ce qui justifie que la Représentation des Connaissances, enjeu majeur de l’Intelligence Artificielle et des Sciences Cognitives, ait pour objectif de pouvoir traiter les connaissances exprimées en Langage Naturel. De manière complémentaire, la compréhension de texte met en œuvre des connaissances et des raisonnements qu’il est fondamental de décrire et modéliser.
L'équipe s’intéresse donc au langage, non pour ses propriétés en tant que système formel de signes, mais pour son pouvoir expressif, et à la Représentation des Connaissances, en tant qu’outil mis au service du traitement du Langage Naturel.
Les travaux de l’équipe comportent à la fois des recherches à caractère fondamental et des recherches plus appliquées. L’évolution des thèmes de recherche de l'équipe a mené à étudier finement, pour les modéliser, certains phénomènes interprétatifs (liés au pluriel, au temps, aux normes…), mais aussi à développer des outils destinés à faciliter l’accès au contenu de documents techniques ou de vastes bases textuelles, comme le Web, et enfin à développer des outils d’ingénierie des connaissances à partir de textes.
Ces activités sont détaillées ci-dessous comme trois thèmes de recherche distincts. En réalité, elles sont fortement liées. L’objectif commun est de développer des méthodes permettant de modéliser, à des degrés divers, le contenu des textes et documents, soit pour y faciliter la navigation et la recherche d’information, soit pour en restituer l’information factuelle, soit encore pour construire un modèle du domaine. Les recherches plus fondamentales du thème « données, représentations et calculs sémantiques » nourrissent la réflexion du thème « sémantique de corpus », même si la nécessaire robustesse des traitements sur corpus imposent des simplifications. Le thème « ingénierie des connaissances textuelles » exploite les résultats des deux premiers thèmes pour élaborer des ontologies fondées sur les connaissances textuelles.
Deux nouveautés devraient renforcer l’équipe RCLN dans un avenir proche :
Le renforcement des liens avec le Laboratoire de Linguistique-Informatique de Paris 13 (LLI) et la création du LIM&BIO1 à Bobigny ouvrent des possibilités de collaborations particulièrement intéressantes au vu des résultats obtenus à travers ces trois thèmes de recherche sur la modélisation du contenu des documents textuels. L’équipe RCLN propose un Programme Pluriformations commun à ces trois laboratoires de l’Université Paris 13 pour la période 2005-2008. L’ambition de ce projet est de créer un pôle d’expertise autour des thèmes du traitement automatique des langues, de l’ingénierie des connaissances et de la linguistique : l’objectif est de développer des techniques facilitant l’accès au contenu des documents médicaux.
Thierry Poibeau, qui vient d’être recruté comme chargé de recherche 1ère classe en 34ème section par le CNRS, doit rejoindre l’équipe RCLN au 1er novembre 2003. Par ses compétences en extraction d’information et en sémantique ainsi que son expérience de l’apprentissage à partir de données textuelles, il vient renforcer les axes de recherche de l’équipe.
A côté de ces travaux scientifiques, l’équipe RCLN a eu une importante activité en matière d’animation de la recherche :
Depuis 2001, elle a organisé une série de séminaires « en duo » sur le thème « Connaissances, Langue et Informatique » ;
Les membres de l’équipe ont fortement contribué à l’activité de groupes de travail pluridisciplinaires, soit comme animateur (TIA, A3CTE) soit comme participant (action spécifique ASSTICCOT).
Au titre d’une activité inter-équipes avec ADAge, Philippe Dague, Daniel Kayser, François Lévy, et Adeline Nazarenko ont pris l’initiative de susciter des contributions de différentes disciplines (Philosophie, Didactique des Sciences, Linguistique, Statistiques et Psychologie) en vue de réaliser un numéro spécial de revue sur le raisonnement causal.
Enfin signalons l'activité dans le domaine de la littérature assistée par ordinateur de Guy Chaty, professeur émérite, qui encadre, chaque année, plusieurs projets de Maîtrise et de D.E.S.S. en vue de la mise en place d'un générateur de textes avec contraintes et d’une « boîte à outils » comprenant des bases de données textuelles, des dictionnaires, des analyseurs syntaxiques, des outils sémantiques ou stylistiques. L'hébergement, par la MSH de Paris Nord, des logiciels ainsi obtenus est prévu pour début 2004, dans le cadre de la participation d'ALAMO aux activités de la MSH.
Thème : Données, représentations et calculs sémantiques (Françoise GAYRAL, Daniel KAYSER, François LÉVY, Catherine RECANATI).
Nous étudions certains phénomènes sémantiques d’une façon « fine » (par opposition avec les analyses nécessairement plus simples requises pour un traitement de corpus). En ce qui concerne la sémantique lexicale, notre approche s'oppose à une démarche énumérative qui suppose qu’un lexique peut fournir explicitement la liste des sens des unités, et que le traitement sémantique se limite à trouver l’élément approprié de cette liste. Au contraire, il nous semble préférable de rendre compte d'une dynamique du processus interprétatif permettant d'adapter le sens des unités lexicales suivant le contexte dans lequel elles apparaissent [Gayral & al., 01, Computing Meaning]. Nous menons ainsi deux types de travaux complémentaires et indissociables : d'une part, une étude précise de certaines unités lexicales, d'autre part, une étude sur les procédures interprétatives permettant d'établir la « bonne » valeur sémantique de ces unités en contexte et d'aboutir à des inférences adéquates.
1. Organiser les connaissances sur le sens des mots
Notre recherche tente de situer au niveau le plus approprié les informations lexicales communes à plusieurs unités, qu'elles concernent des propriétés sémantiques générales comme les possibilités de dérivation de sens (ex. règles de métonymie) ou les mécanismes d'alternance syntaxique. Nous cherchons donc à factoriser ces informations et regrouper ainsi les unités dans des catégories afin d'éviter la redondance et de préserver une certaine économie descriptive dans le lexique. Dans cet objectif, nous proposons un critère de catégorisation des unités lexicales qui s'appuie sur l'existence de facteurs communs dans leur comportement inférentiel [Kayser & Gayral 01, FLAIRS, Gayral & Kayser, 02,Cognitive Systems]. Des exemples, pris dans le corpus particulier des constats d'accident, illustrent l'approche et montrent que le comportement inférentiel dépend aussi bien des connaissances liées à l'environnement linguistique que des connaissances précises sur le monde. Par ailleurs, nous avons mis en évidence que le résultat du processus interprétatif n'est pas nécessairement l'affectation d'une valeur sémantique à chaque unité, contrairement à ce qu'admettent implicitement les théories en vigueur ; il arrive souvent en effet qu'une même unité puisse être interprétée de différentes façons suivant la partie de la phrase à laquelle on la rapporte. C'est ce que nous appelons le phénomène de co-présence.
Dans ce même cadre de sémantique lexicale, une autre étude s'attache à la modélisation de la variation de sens des verbes en contexte (en collaboration avec Patrick Saint-Dizier, IRIT Toulouse). S'attaquer à la polysémie verbale est un enjeu d'importance, dans la mesure où il est coutume de faire jouer au verbe un rôle central dans le processus interprétatif. En effet, le verbe, établissant une prédication, est censé régir l'agencement de la phrase en imposant des contraintes de sélection sur ses arguments. Habituellement, le traitement de la polysémie verbale se fait dans le cadre de l'approche énumérative citée plus haut. Ainsi, des différences (dans les classes sémantiques de ses arguments privilégiés ou dans son nombre d'arguments, par exemple) amènent à associer au verbe autant d'entrées lexicales que de possibilités observées. Or notre travail montre que ces critères ne sont pas toujours adaptés : différentes interactions, influences croisées entre le verbe et ses arguments peuvent faire émerger l'interprétation de chaque composant et les mécanismes mis en jeu dans la composition nécessitent souvent des inférences faisant intervenir des connaissances variées liées aux arguments. Nous proposons donc, pour la distinction des sens d'un verbe, des critères inférentiels qui rendent mieux compte de ces phénomènes [Gayral & al., 00, NLP].
Nous entamons un nouveau projet qui vient d'être accepté dans le programme TCAN du département STIC du CNRS. Ce projet, en lien avec des spécialistes de la génération de texte, vise au développement d’un système de question/réponse coopératif. Ce projet s’appuie sur l'étude de questions-réponses apparaissant dans les FAQ (foires aux questions) de nombreux services WEB. L’étude de ces FAQ, composées de requêtes d'usagers et les réponses apportées, a deux intérêts majeurs. Du point de vue du raisonnement coopératif, elle permet d’identifier les différents modes de coopération employés par des opérateurs humains, les raisonnements mis en œuvre et les connaissances sollicitées. Au niveau linguistique, elle permet de repérer les formes lexicales et grammaticales qui peuvent être considérées comme des traces de ces raisonnements coopératifs. C’est ce dernier thème qui nous intéresse particulièrement et sur lequel nos efforts porteront.
2. Comprendre la dynamique du processus interprétatif
Le second volet de notre travail se focalise sur le processus interprétatif, les connaissances qu'il mobilise et la dynamique de la référence.
Le travail sur le corpus de constats d’accidents mentionné plus haut est repris pour un examen à la lumière particulière de la notion de norme. En effet, notamment dans le cadre d’un accord de partenariat avec l’université USTHB d’Alger dans lequel notre équipe joue un rôle moteur, nous développons un système d’extraction des normes à partir de ce corpus [Nouioua, 03, DEA]. Il est connu depuis bien longtemps qu’un texte narratif ne fait que décrire les différences entre ce qui s’est passé et ce qui se passe normalement dans une situation comparable. Comme les déroulements « normaux » sont connus de tous les lecteurs, on ne les explicite jamais. Pour pouvoir inférer ce qu’implique un texte, il faut donc impérativement connaître les normes du domaine dans lequel il se situe, or il n’existe aucun recueil de ces normes. Pour résoudre ce problème, nous l’avons relié à celui de la causalité : des études sur ce thème (voir ci-dessous) nous ont convaincus que l’être humain attribue de façon privilégiée la cause d’un événement à la violation d’une norme. En demandant à un lecteur quelle est la cause de l’accident décrit dans un constat, nous recueillons donc les éléments permettant d’identifier les normes du domaine de la route. Nous essayons actuellement de rendre compte du raisonnement tenu par le lecteur pour trouver la cause de l’accident, au moyen de règles d’inférence non-monotones (voir ci-dessous). Pour valider la méthode, nous regarderons si, sur un échantillon différent de celui ayant servi à faire l’analyse, notre système identifie la cause de l’accident comme l’aurait fait un lecteur humain. Cette méthode d’extraction des normes d’un domaine à partir de données textuelles, si elle est validée, peut avoir des conséquences importantes, non seulement en sémantico-pragmatique (les inférences tirées de normes sont beaucoup plus riches que celles obtenues par une approche véri-conditionnelle), mais aussi dans le domaine de l’indexation : il serait en effet très utile de pouvoir indexer un document en fonction de la ou des normes d’un domaine auxquelles il fait référence.
Nous nous intéressons également au raisonnement sur le temps et la causalité pour l'interprétation des textes. Le temps nous a été nécessaire pour analyser un problème de sémantique grammaticale qui semblait sans rapport : quelle interprétation donner à la marque morpho-syntaxique du pluriel ? L'étude du pluriel que nous avons réalisée est révélatrice de phénomènes sémantiques très riches, loin de la seule dichotomie entre lecture distributive et lecture collective généralement relevée. D'abord, le temps intervient de façon essentielle dans la construction des collections associées aux expressions plurielles. En effet, une collection peut persister dans le temps alors même que ses membres changent. C'est le cas, par exemple, avec l'usage d'un prédicat comparatif ou évolutif : si on parle de la hausse des prix des produits frais, (les produits frais comparés ne sont pas forcément les mêmes : ils changent au cours des saisons !). Une collection peut aussi être formée d'éléments sélectionnés parce qu'ils partagent une propriété donnée à un moment donné alors même que cette propriété n'est plus vérifiée au moment de référence (ex. les fugitifs sont maintenant en prison). Ensuite, le pluriel implique fréquemment une sorte de co-présence, car une collection associée à une expression plurielle peut être vue différemment suivant la partie de la phrase à laquelle on la rattache. L'interprétation du seul pluriel « les étudiants » dans la phrase : Moins nombreux, les étudiants proviennent de plus en plus d'Europe et de moins en moins d'Afrique donne lieu à la constitution d'au moins six ensembles et à différentes prédications concernant ces étudiants. Enfin, nous étudions — après d’autres — le fait qu'une apparente pluralité d'objets, en particulier lorsque le déterminant est un numéral, peut cacher une pluralité d'événements (p. ex. la RATP transporte 55 millions de voyageurs) [Gayral & al., 00, TALN].
À coté de cette analyse du temps dans l'ontologie des objets et des collections, nous nous intéressons à la compréhension des relations temporelles entre événements, qu'elles soient marquées syntaxiquement ou implicites. On peut à l'heure actuelle contraster la finesse des analyses linguistiques (sémantique lexicale et sémantique des événements, notamment), distinguant la position de l'événement sur l'axe des temps (passé, présent, futur), sa dynamique interne (état, événement, processus), son aspect (duratif ou ponctuel, borné ou indéfini, continu ou itératif) et une variété de relations de succession (succession immédiate ou distante, transitions progressives ou brutales), avec le caractère plus rudimentaire des représentations calculables (essentiellement l'axe des réels ou des entiers, ou les relations d'une algèbre d'intervalles). Or, on sait que le temps du verbe contribue au sens à plusieurs niveaux dans l'analyse de la phrase et celle du discours : inférences de propositions non spécifiquement temporelles (assertion de faits ou de possibilités virtuelles sur les arguments instanciés du verbe) ; indications sur le statut de l'énoncé dans la structure narrative ou discursive (notions d’avant-plan et d’arrière-plan). Ce contraste marque le besoin d'outils de représentation calculatoire du temps plus expressifs, et de méthodes pour intégrer une plus grande part des analyses linguistiques dans la représentation. C'est dans ce cadre que s'inscrit le projet dirigé par F. Lévy dans le programme TCAN récemment lancé par le département STIC du CNRS. Il s'agit, en s'appuyant sur des textes réels, de pouvoir utiliser dans un processus d'interprétation la succession immédiate et la répétitivité.
Concernant les procédures interprétatives, nous avons besoin de formalismes aptes à représenter le sens autrement que comme un choix dans une liste. Nous tentons d'exprimer les règles d'interprétation au moyen d'une logique non-monotone, la logique des défauts de Reiter. Ce formalisme possède plusieurs avantages. Par l'expression de règles de défaut, il permet de rétablir la notion d'exception dans la position importante qu'elle a en grammaire, position d'où les théories purement compositionnelles l'avaient évincée. Il autorise la non-monotonie du raisonnement, c'est-à-dire la remise en cause de conclusions jusque-là acquises. Grâce à la notion d'extension définie comme la solution d'une équation de point fixe, il rend compte de la circularité liée à l'influence du contexte sur l'interprétation d'un mot, sachant que le mot influe lui aussi sur l'interprétation de son contexte. En contrepartie, le principal problème de ce type d'approches est celui du contrôle : il est absolument nécessaire de bloquer la dérivation de certaines valeurs sémantiques si celles-ci s'avèrent inadéquates et, à l’inverse, d'en privilégier d'autres.
Ce travail, ainsi qu’une étude concernant les réseaux bayésiens, nous a conduits à reprendre un travail antérieur sur la causalité et à proposer des éléments de synthèse du raisonnement causal, particulièrement important dans les applications de l’Intelligence Artificielle [Kayser & Lévy, à paraître, Intellectica].
Nous poursuivons notre travail concernant la représentation et le calcul du sens, dans l'interprétation des pluriels, l'analyse des normes et des relations temporelles :
Interpréter un groupe nominal pluriel conduit à voir le verbe dont il est argument comme recelant une pluralité de prédications instanciées (p. ex. les véhicules circulent dans cette rue depuis une heure) qui jouent un rôle essentiel dans la compréhension.
L'aspect temporel met en évidence la nécessité de rendre compte de différents modes de constitution d'"objet permanent" (de re / de dicto). Plus largement, la prise en compte du temps, de l'aspect, de la dynamique et des relations de successions demande l'élaboration de formalismes de représentation plus précis. Notre effort va vers la mise au point de formalismes qui permettent de traiter la pluralité des événements, les différentes natures d'objets et d'événements, de prendre en compte l'insertion de telles entités dans la durée et d'interpréter la présentation langagière qui est faite de cette insertion.
La dynamique de l'interprétation fait largement appel à des connaissances partagées sur les normes et la causalité. Nous développons sur les normes un travail expérimental d'analyse des connaissances en jeu et de leurs interactions dans un contexte déterminé, et sur la causalité une approche plus générale et interdisciplinaire.
Nous étudions également, dans une approche plus cognitive de la modélisation, les propriétés des systèmes de représentations hétérogènes (comportant à la fois des représentations diagrammatiques et des représentations linguistiques ou logiques) et leur intérêt pour la modélisation des données textuelles.
Cette orientation se matérialise cette année par une thèse débutante et l'engagement fin 2003 dans deux contrats avec le département STIC, dont l'un dont nous sommes responsables.
Thème : Sémantique de corpus (Touria AÏT EL MEKKI, Thierry HAMON, Adeline NAZARENKO) (avec la contribution de Christophe Fouqueré — équipe LCR — et de Thierry Poibeau, chercheur associé)
En parallèle et en complément avec les analyses fines développées dans le cadre du thème précédent, nous explorons des méthodes d'analyses sémantiques adaptées au traitement de grandes quantités de texte, corpus spécialisés ou textes tout-venant.
Au-delà des techniques de recherche d'information qui associent un ensemble de documents à une requête, un enjeu majeur aujourd'hui est l'accès au contenu même des documents textuels. Il s’agit à la fois d’exploiter des documentations scientifiques et techniques et de maîtriser le contenu sémantique des pages web (web sémantique). Dans tous les cas, accéder au contenu des documents repose sur une analyse sémantique partielle et robuste du corpus.
Les techniques que nous mettons en œuvre pour accéder au contenu des documents sont des techniques classiques d’indexation de document, d'extraction d'information et/ou de reformulation des requêtes adressées à un moteur de recherche du web. L'objectif consiste à repérer dans un texte les informations pertinentes par rapport à un besoin particulier, sans pour autant analyser ce texte de manière approfondie.
Notre apport concerne essentiellement l'acquisition des ressources lexicales et conceptuelles auxquelles ces techniques font appel. La construction de ces ressources constitue en effet le goulot d'étranglement des systèmes de traitement de corpus : les dictionnaires de langue sont généralement peu adaptés, les ressources lexicales spécialisées sont rarement disponibles et toujours difficiles à réutiliser. Nous développons des méthodes et des outils d’aide à la construction de ces ressources lexicales (terminologies, classes sémantiques et schémas prédicatifs) pour un corpus et en fonction d'une tâche donnée [Nédellec & Nazarenko, à paraître, chapitre de livre]. L'élaboration de ces ressources repose sur l'analyse sémantique de corpus de textes. Dans un processus itératif, une analyse sémantique partielle permet de construire des ressources lexicales qui permettent à leur tour de procéder à une analyse plus riche, laquelle peut servir à élaborer de nouvelles ressources, etc. Cet axe de travail a fait l'objet d'une collaboration avec Thalès, autour de la thèse de T. Poibeau [Poibeau, 03, ouvrage] et de divers projets de recherche (ASTUXE, Caderige 1 et 2, ExtraPloDocs, Cédérillic).
Nous explorons plusieurs approches complémentaires : 1) l’acquisition de terminologie, 2) la normalisation de corpus en vue de l’acquisition de classes sémantiques et de schémas prédicatifs et 3) l’exploitation des connaissances sur les schémas prédicatifs pour la reformulation de requêtes. C’est en fonction de l’application visée que l’on peut alors privilégier une approche particulière ou une combinaison d'approches. Ce choix dépend à la fois de la nature du corpus considéré (degré de spécialisation, taille, homogénéité), des ressources disponibles (d’importantes bases de connaissances sont disponibles en médecine ou en génomique, par exemple), de la nature des informations que l'on cherche à extraire (s’agit-il de documents ou d’informations précises ? quel degré de fiabilité ou de précision est nécessaire ?) et de la capacité d’adaptabilité requise.
Nos travaux sur l’acquisition de connaissances terminologiques s’inscrivent dans un courant de recherche actif en France depuis une dizaine d’années (représenté par le groupe de travail « Terminologie et Intelligence Artificielle » et la série de conférences associées) mais nous mettons l’accent sur deux problèmes spécifiques :
Nous développons des approches hybrides permettant d’acquérir des connaissances en corpus et d’exploiter les ressources lexicales existantes : nos résultats montrent que la combinaison des deux approches permet d’obtenir de meilleurs résultats que l’une ou l’autre des deux approches prise isolément. Ces recherches prolongent les travaux du groupe de travail ESPOIR [Nazarenko et al., 01, chapitre]. Nous avons montré que le repérage des relations de synonymie entre termes peut être utilement amorcé par un dictionnaire de langue même générale. Dans le cadre des projets Caderige et ExtraPloDocs, nous avons montré que les ressources lexicales existantes en biologie n’ont pas une couverture suffisante pour analyser précisément les résumés des articles scientifiques de Medline. Nous travaillons à la mise au point d’une méthode d’acquisition de terminologie qui tire le meilleur parti des ressources existantes [Bessières et al. 01, CIDE].
Nous nous intéressons en parallèle au repérage des relations sémantiques entre termes. Nos premiers travaux ont porté sur le repérage de liens de synonymie à l'aide d'un dictionnaire de langue générale comme Le Robert. Ces travaux ont donné lieu au système SYNOTERM [Hamon & Nazarenko, 01a, chapitre de livre]. Les travaux actuels visent à structurer une terminologie en un réseau sémantique en explicitant les relations sémantiques (synonymie, hyperonymie, association, antonymie, par ex.) dans lesquelles entrent les termes [Nazarenko & Hamon, 02, TAL]. Ces résultats sont aujourd’hui intégrés dans un outil d'aide à la construction d’index de fin de livres (IndDoc [Aït El Mekki & Nazarenko, 02 CIFT]): de tels index sont effectivement des terminologies structurées dédiées à la navigation dans le livre ou le document auquel ils sont associés.
Notre participation à différents projets d’extraction d’information (ASTUXE, Caderige, ExtraPloDocs, thèse Cifre) a montré le coût prohibitif de la tâche d’acquisition des ressources et notamment de l’ensemble des patrons d’extraction. Nous cherchons donc à mettre au point des méthodes automatiques pour apprendre ces ressources à partir de corpus. Dans cette perspective, nous avons collaboré étroitement avec l’équipe Inférence et Apprentissage du LRI (projet ASTUXE, Caderige, animation du groupe de travail A3CTE) et avec les spécialistes de l’unité MIG de l’INRA (projets Caderige, ExtraPloDocs). Nous travaillons actuellement sur une méthode de normalisation linguistique inspirée de Z. Harris et permettant de réduire des phrases complexes à un ensemble de phrases plus élémentaires (étiquetage sémantique, normalisation des synonymes, réduction des anaphores...). Cette étape de normalisation doit permettre de mettre en évidence davantage de régularités dans les formulations. La normalisation doit ainsi faciliter l'analyse distributionnelle et l'apprentissage de règles d'extraction dont elle est le préalable.
Deux projets, développés conjointement avec le LLI, UMR 7546, portent sur l'exploitation du web français et permettent d’étudier la question des ressources linguistiques dans une perspective plus généraliste :
D'une part, il s'agit de savoir utiliser des connaissances morphologiques, syntaxiques et sémantiques afin d'améliorer la précision des résultats obtenus en réponse à des requêtes lancées sur le web. Ces connaissances seront intégrées aux moteurs de recherche du web comme des reformulations des requêtes. En particulier, on étudie comment la constitution de classes sémantiques, spécialité du LLI, permet de prédire le type de complémentation des noms prédicatifs (par exemple, un fragment de requête contenant « parcourir l'Asie » peut se reformuler en incorporant le groupe « parcours de l'Asie »). Nous souhaitons poursuivre avec la même classe de prédicatifs en intégrant cette fois tous les prédicatifs de mouvement en portant une attention particulière aux emplois concrets et abstraits. Ces travaux ont donné lieu à une présentation sélectionnée au Colloque “Multimédia, internet et francophonie“ qui s’est tenu à Vancouver en Mars 2001. Nous avons organisé un colloque sur ce thème en 2002 à la Maison des Sciences de l'Homme de Paris-Nord. Ces travaux doivent aussi être publiés dans la Revue Québecoise de Linguistique en 2003.
D'autre part, il s'agit d'enrichir des ressources lexicales existantes par une catégorisation des unités lexicales utilisées dans le web à l'aide d'outils à base linguistique, et de comparer année par année le matériel lexical fourni par le web afin d'étudier l'évolution du vocabulaire français [Issac et al. 01, conférence]. L'hétérogénéité des documents que l'on peut se procurer sur le web a pour principale conséquence l'obtention de données dont l'exploitation s'avère d'une extrême complexité. Ce projet est développé en collaboration avec le Centrum für Information und Sprachverarbeitung (CIS) de l'Université de Munich.
Notre effort doit maintenant porter sur les axes suivants :
En ce qui concerne l’acquisition terminologique, nous cherchons aujourd’hui à évaluer notre méthode et nos résultats dans le domaine de la biologie. La terminologie produite doit être exploitée dans trois perspectives différentes : pour le filtrage de fragments de textes (nos premiers résultats tendent à montrer que la terminologie a un faible impact à cet égard [Qian, 03, DEA], pour l’extraction d’information (projets Caderige et ExtraPloDocs) et pour un moteur de recherche spécialisé (projet Alvis). L’objectif est de mesurer l’apport des ressources produites pour la réalisation de ces différentes tâches.
Nous souhaitons poursuivre les travaux sur la construction des index de fin de livre. Il s’agit d’une part de mieux évaluer la méthode d’IndDoc. Cette méthode est fondamentalement plus ambitieuse (reposant sur une analyse sémantique de surface) que celles des logiciels d’aide à l’indexation qui sont actuellement commercialisés mais elle est aussi plus lourde. Elle demande donc à être évaluée précisément. Une première étude a permis de faire une évaluation comparative des index produits : elle a montré les points forts de l’approche et les limites de l’outil actuel. Une seconde expérience devrait avoir lieu dans les prochains mois dans le cadre du projet Cédérillic2. Il faudra s’interroger sur l’opportunité de présenter le prototype réalisé à des indexeurs professionnels dans une perspective de valorisation. Nous envisageons d’autre part d’élaborer une version spécialisée de IndDoc pour l’indexation de documents médicaux (dans le cadre d’un Programme Pluriformations en cours d’examen).
Notre travail sur la normalisation linguistique des documents spécialisés reste encore assez embryonnaire [Weissenbacher, 03, DEA]. Il doit être poursuivi de manière à mesurer le degré de normalisation que l’on peut atteindre et l’apport de celle-ci à l’apprentissage de ressources spécialisées et à l’extraction d’information à partir de textes. Une thèse débute sur ce sujet, appliquée au domaine de l’extraction d’information dans des textes de génomique.
Thème : Ingénierie des connaissances à partir de textes (Brigitte BIEBOW, Sylvie SALOTTI, Sylvie SZULMAN) (avec la contribution de Haifa Zarg-Ayouna doctorante au LIMSI).
Ce thème porte sur l'aide à la construction d'ontologies à partir de textes, aide fondée sur une analyse de corpus utilisant des principes linguistiques et des logiciels de traitement automatique de la langue. À la suite de contrats industriels sur la supervision en télécommunications et la détection d'anomalies dans les spécifications informelles en génie logiciel, une méthode de construction d'ontologie a été élaborée parallèlement au développement d'une plate-forme de construction d'ontologie, TERMINAE. Au départ, l'objet construit était une ontologie formelle, dans un langage proche d'une logique de description [Biébow & Szulman, 00, RFIA]. Le fait de travailler à partir de textes et les besoins applicatifs rencontrés nous a conduits à diversifier les objets construits et à enrichir méthode et outil. Le terme « ontologie » est maintenant à prendre au sens large de ressource sémantique, c'est-à-dire index, glossaire, thesaurus, terminologie, réseau conceptuel ou ontologie formelle, allant du moins formel au plus formel.
La version actuelle de TERMINAE est adaptée à la construction de ressources terminologiques. Elle intègre des résultats de logiciels de TAL (Lexter et Syntex de Didier Bourigault de l'ERSS de Toulouse) et en permet le dépouillement. TERMINAE comporte également un concordancier (Linguae) ce qui autorise l'étude des textes d'un point de vue lexical et syntaxique.
Les produits construits dans TERMINAE peuvent être un ensemble de fiches terminologiques, un réseau conceptuel ou une ontologie, constitués de concepts issus des fiches terminologiques et des relations sémantiques entre eux [Szulman et al., 02, TAL]. Ces produits sont facilement exploitables par d'autres (humains ou outils) car toutes les sauvegardes sont en XML. De plus la traçabilité totale des textes aux termes puis aux concepts terminologiques assure la lisibilité des produits élaborés. La version actuelle de Terminae est disponible en français et en anglais.
Une application particulière concerne l'indexation sémantique de documents XML, dans le cadre de corpus spécialisés constitués d'un ensemble de documents partageant une même structure (DTD). Nous proposons de construire une indexation de ces documents exploitant à la fois la structure des documents (balises), le texte et une ontologie de concepts du domaine. D'une part, des méthodes classiques de recherche d'information (calcul de poids des termes dans les documents) sont adaptées à la structure des documents XML, d'autre part les outils de TAL et la plate-forme TERMINAE sont utilisés pour la construction d'une ontologie de concepts et des liens entre les concepts et le texte. Cette indexation permet une recherche plus fine qu'une simple recherche par mots clés, grâce à l'utilisation des liens entre les concepts de l'ontologie. Pour exploiter l'ontologie, nous nous appuyons sur les travaux précédemment réalisés sur la similarité entre concepts en logique de description. Le travail actuel porte sur le corpus MENELAS et plus précisément sur un ensemble de comptes-rendus d'hospitalisation.
Méthode et outil ont atteint une maturité qui a permis leur diffusion et leur utilisation en grandeur réelle. Ils ont été mis en œuvre dans un contrat industriel de l'IRIT avec Saint-Gobain. Leur indépendance par rapport à la langue a été démontrée, les travaux précités ayant porté sur des textes en anglais. TERMINAE est l'un des rares outils de construction d'ontologies diffusé dans la communauté universitaire française.
Actuellement, notre concordancier (Linguae) travaille à partir de textes étiquetés par Cordial Université, ce qui nous limite au français. Nous envisageons de modifier Linguae et de l'adapter au TreeTager qui est un outil (open source) d'étiquetage de texte utilisable pour plusieurs langues européennes. Terminae offrira alors une version anglaise totalement intégrée.
D'autre part, les langages de description d'ontologie sont actuellement en cours de standardisation pour le Web sous la forme d'OWL. Dans un avenir proche, Terminae permettra l'importation et l'exportation d'ontologies en OWL, afin de pouvoir acquérir les ressources sémantiques diffusées sur le web et diffuser nos propres ontologies.
Enfin, l'étude des relations lexico-syntaxiques et de leur expression linguistique doit être poursuivie afin de disposer d'un jeu de relations génériques associées à des relations sémantiques, pour faciliter le démarrage de l'étude d'un corpus. Une première étape sera d'intégrer dans Terminae les résultats de Cameleon et de SynoTerm (outils d'extraction de relations candidates, voir plus haut).
En ce qui concerne l'indexation de documents, nous étudierons comment réviser cette indexation à partir d'un ensemble de cas d'interrogation, chaque cas étant constitué d'une requête et d'un ensemble de documents retournés par le système et étiquetés (pertinent ou non pertinent) par l'utilisateur. Nous envisageons la possibilité de créer plusieurs « points de vue » sur les documents correspondant à différents groupes d'utilisateurs grâce à ce processus de révision d'une indexation initiale.
Une coopération antérieure avec le LaRIA et le PSI-INSA a débouché sur un projet RNTL ATONANT qui devrait démarrer dans les prochains mois sous la direction d'EADS. L'un des intérêts de ce projet pour le LIPN est la valorisation et l'industrialisation de l'outil Terminae.
1 Jérôme Nobécourt est resté membre de notre équipe jusqu'à ce que le LIM&Bio, à la création duquel il a participé, ait un statut reconnu.
2 Le projet Cédérillic, financé par France Télécom, en collaboration avec J. Charlet (AP-HP) et D. Bourigault (ERSS) pour la mise au point d'un index d'ouvrage scientifique, à l'aide de l’outil IndDoc.