|
Avec le développement de l'internet, du multimédia
et de la bureautique, le traitement automatique du langage
intervient de plus en plus souvent dans notre vie. En
effet, chaque jour, nous avons besoin de créer,
traiter, traduire, analyser, stocker, récupérer
et diffuser des données orales, écrites,
chiffrées et imagées.
Le Traitement Informatique des Langues (TIL)
c'est l'alliance de l'informatique et de la linguistique
pour créer des outils, des ressources et des
techniques capables de traiter automatiquement les langages
écrit et oral.
Le TIL couvre différents domaines. Nous en
proposons une classification, domaines
( )
et catégories. L'objectif de
cette classification n'est pas de fixer les frontières
externes et internes du secteur TIL mais de faciliter
l'organisation d'un Inventaire
TIL. De plus, dans la pratique, une application
TIL est généralement basée sur
l'association de divers domaines TIL.
Des renseignements supplémentaires sont disponibles
dans le lexique
Analyse et génération de texte
Les analyseurs linguistiques visent
à produire des représentations (sous forme
symbolique ou graphique) caractéristiques des
phénomènes linguistiques (morphologie,
syntaxe, sémantique et pragmatique) dans un texte,
et cela dans le but d'en mettre en évidence le
ou les sens. Ils traitent aussi bien des données
linguistiques écrites qu'orales.
Les générateurs sont
des programmes qui permettent l'extraction sélective
des données. Par exemple, un générateur
morphologique offre la possibilité de fléchir
automatiquement les mots d'un texte.
|
Analyseur morphologique
|
Générateur automatique
|
|
Analyseur syntaxique
|
Générateur automatique
|
|
Analyseur sémantique
|
Générateur morphologique
|
|
 |
|
Education, formation
L'ingénierie de formation peut
comprendre l'analyse de la demande, des besoins de formation,
le diagnostic, la conception du projet formatif, les
moyens mis en oeuvre, la coordination et le contrôle
de sa mise en oeuvre et l'évaluation de la formation.
(AFNOR)
L'Enseignement assisté par ordinateur,
EAO, est l'ensemble des techniques et des méthodes
d'utilisation de systèmes informatiques comme
outils pédagogiques. Concernant l'Enseignement
à Distance, EAD, les outils et l'accompagnement
pédagogiques sont accessibles à travers
Internet ou un Intranet.
Un dictaticiel est un ensemble de
modules de formation ciblés sur un besoin de
l'apprenant.
Le domaine Education/Formation inclut également
les systèmes auteurs destinés
à créer des applications multimédias
dédiées à la formation.
|
Didacticiel
|
Formation/Enseignement assisté
par ordinateur
|
|
Système auteur
|
Formation/Enseignement assisté
par ordinateur
|
|
 |
|
Evaluation
Le domaine de l'évaluation
inclut, d'une part, les outils capables d'évaluation
de connaissances (QCM), de projets ou méthodes,
et d'autre part, la mise en place de procédures
d'évaluation de produits ou projets en regard
des caractéristiques du français et des
langues partenaires.
|
Evaluation d'organismes
|
Evaluation de projets
|
|
Evaluation de connaissances
|
Evaluation de produits
|
|
Evaluation de méthodes
|
Evaluation de réseaux
|
|
 |
|
Informatique documentaire
Les outils de l'informatique documentaire
permettent, entre autres, d'indexer, d'archiver et d'extraire
automatiquement des informations pertinentes de la masse
de documents, structurés ou non.
La conception de tels outils requiert une connaissance
des tâches impliquées dans la gestion et
l'analyse de l'information. Ces tâches concernant,
par exemple, la compréhension d'un texte, sont
analysées et représentées dans
un langage formel. Cette étape s'appelle la modélisation
qui fait référence à plusieurs
approches telles l'intelligence artificielle, l'informatique
théorique, la linguistique, la psychologie, etc.
Une base de données (BD) est
un outil qui permet de stocker, gérer, consulter
et exploiter des informations. Le contenu et l'organisation
d'une BD sont définis en fonction de son objectif.
Par exemple, les BD textuelles servent à l'analyse
de texte par ordinateur, les BD lexicales servent de
référence lors de la catégorisation
d'un texte, les Bd bibliographiques fournissent des
notices bibliographiques (titre, résumé,
...), les BD multimédia gèrent textes,
images, sons, ...) et les BD factuelles sont des encyclopédies
électroniques, BD de résultats d’expériences,
...
|
Outils de consultation, de
gestion documentaire (indexation,
thésaurus,
interrogation en langage naturel,...)
|
|
BD multimédia
|
BD bibliographiques
|
|
BD textuelles
|
BD factuelles
|
|
 |
|
Localisation
La localisation est l'ensemble des
opérations linguistiques et informatiques qui
permettent l'adaptation d'un produit (logiciel, site,
...) aux besoins spécifiques d'une communauté
d'utilisateurs. La localisation implique souvent la
traduction du produit conçu dans une langue vers
une ou plusieurs autres langues. La qualité linguistique
de la traduction repose sur l'utilisation de nombreux
glossaires multilingues. Outre les interférences
lexicales et phraséologiques, le traducteur prend
également en compte les interférences
conceptuelles et culturelles.
|
Localisation de logiciel, de
site
|
|
 |
|
Normalisation et internationalisation
La normalisation est une activité
propre à établir face à des problèmes
réels ou potentiels, des dispositions destinées
à un usage commun répété,
visant à l'obtention d'un degré optimal
d'ordre dans un contexte donné.
L'internationalisation vise la mise
au point de méthodes normalisées capables
de permettre la création de logiciels "neutres",
tant au plan culturel que linguistique.
Dans le domaine Normalisation et internationalisation
nous retrouvons des organismes qui participent,
par exemple, à des groupes d’harmonisation
terminologique ou de normalisation de solutions concernant
l’informatique multilingue. Ce domaine présente
également des recherches visant à produire
un environnement unifié et standardisé
pour des applications TIL.
|
Localisation de logiciel, de
site
|
|
 |
|
Outils inforoutiers
Les outils inforoutiers sont des logiciels
utilisés pour collecter, trier, traiter, diffuser,
échanger et transmettre de l'information sur
Internet. L'Inventaire Francophone répertorie
principalement des outils conviviaux prenant en compte
les caractéristiques de la langue française
et des langues partenaires.
|
Courrier électronique
|
Editeur
|
|
Logiciel de transfert
|
Agent de veille
|
|
Outil de navigation
|
Moteur de recherche
|
|
 |
|
Rédaction et édition de texte
Le domaine de la rédaction et de l'édition
de textes englobe toutes les techniques informatiques
qui permettent, facilitent la conception, le traitement
et la publication d'un document. Cette assistance s'applique
à différentes étapes : le choix,
l'orthographe des mots, la construction de la phrase,
l'emploi des temps de conjugaison, la présentation
du texte, la mise en page du document, ...
|
Traitement de texte
|
Dictionnaire (synonymes, homonymes,
...)
|
|
Correcteur orthographique
|
Dictionnaire de langue et de
spécialité
|
|
Correcteur orthographique
|
Editeur
|
|
Outil grammatical
|
PAO
|
|
 |
|
Traduction, lexicographie, terminotique
Rem : Par souci de classification,
le domaine LTT de l'Inventaire distingue les ressources
des outils linguistiques. Au niveau des applications,
il n'est pas possible de les dissocier, de nombreuses
applications nécessitant des ressources lexicographiques
pour fonctionner.
La Traduction automatique est l’application
de l’informatique à la traduction de textes
en langage naturel. A partir du document source en français
on obtient un document cible rédigé, par
exemple, en anglais.
La Traduction assistée par Ordinateur
(TAO) consiste à offrir des outils de bureautique
linguistique à des traducteurs : dictionnaire
(monolingue, bilingue), bases de données terminologiques,
concordancier permettant d'interroger des mémoires
de traduction, etc.
La Lexicographie s'occupe à
recenser des mots et des expressions (sous leur forme
et/ou leur signifiant) d'une langue déterminée.
Le lexicographe utilise des sources de documentation
(corpus linguistiques écrits ou oraux, corpus
métalinguistiques, ... ) et des outils lexicométriques
( fréquence des occurrences, ...) et linguistiques
(analyseur morpho-syntaxique, désambiguïseur,
lemmatiseur, ... ). Les outils lexicographiques facilitent
le processus de gestion de corpus pour l'élaboration
de dictionnaires.
La terminologie est l'ensemble des termes propres à
un domaine ou à un groupe de personnes. La termonotique
utilise les développements en informatique et
en intelligence artificielle pour proposer des outils
au terminologue : extracteur terminologique, concordancier,
etc.
|
Traduction automatique
|
Outils de gestion terminologique
|
|
Traduction assistée
|
Corpus écrit
|
|
Outils d'aide à la traduction
|
Corpus oral
|
|
Ressources lexicographiques
(dictionnaire, lexique, ...)
|
Grammaire
|
|
Outils lexicographiques (lemmatiseur,
concordancier, désambiguïseur,
...)
|
|
Ressources terminologiques
(dictionnaire, lexique,
BD spécialisées
mono/multilingues)
|
|
 |
|
Systèmes experts
Un système expert est une application
capable d'effectuer, dans un domaine, des raisonnements
logiques comparables à ceux que feraient des
experts humains de ce domaine. Il s'appuie sur des bases
de données de faits et de connaissances, ainsi
que sur un moteur d'inférence, lui permettant
de réaliser des déductions logiques.
Cette application est utilisée dans le domaine
TIL : système d'aide à la décision
pour la constitution d'un cahier des charges, système
de recherche d'information, base de connaissances linguistiques
qui permettra de traiter un corpus (règles d'exploration
contextuelles, ...), logiciels de dialogue homme-machine
en langue naturelle, etc.
|
Outil d'aide à la décision
|
Interface en langage naturel
|
|
Base de connaissances
|
Agent intelligent de recherche
|
|
 |
|
Traitement de l'écrit
La reconnaissance optique de caractères
(OCR) est un procédé permettant de récupérer
les symboles de textes numérisés. Dans
le cas où ce processus pourrait occasionner des
erreurs de reconnaissance de caractères, on utilisera
la reconnaissance des formes. Cette technique est indépendante
de la langue usitée et tolère les fautes
d'orthographe, les caractères parasites, etc
Les principales applications de l'OCR sont le scannage,
l'indexation et la recherche de textes.
|
Reconnaissance optique de caractères
|
|
Reconnaissance de l'écriture
cursive, des signatures, ...
|
|
 |
|
Traitement de la parole
Le codage de la parole exige la description
pertinente et l'extraction précise d'informations
du signal (analyse et représentation du signal
).
La reconnaissance de la parole consiste
à traiter un signal de parole pour en extraire
des informations comme les mots prononcés, l'identité
de la personne qui parle, ou la langue utilisée.
La transcription orthographique peut faire l'objet de
traitements ultérieurs pour en analyser le contenu
sémantique. Les applications de ce domaine les
plus connues du grand public sont la dictée vocale
et la demande de renseignements par téléphone
ou sur borne multimodale.
La synthèse de la parole à
partir du texte est la passerelle entre le monde de
l'écrit et celui de l'oral. La transcription
texte/parole nécessite l'utilisation de la technologie
de l'analyse morphosyntaxique.
Le corpus parlé sert aux linguistes
dans un but d'analyse. Il repose sur des transcriptions
associant éventuellement l'alphabet phonétique
et des signes spécifiques pour noter la prosodie.
Le corpus de parole sert aux chercheurs
en reconnaissance de la parole. Il est plus proche de
l'enregistrement sonore.
|
Codage de la parole
|
Synthèse vocale
|
|
Reconnaissance vocale
|
Corpus oral
|
|
 |
|
|