Lexique : R
|
|
retour index lexique |
| 
|
info supplémentaire |
Recherche documentaire
Si vous recherchez des documents concernant un sujet bien précis,
vous faites appel aux techniques de recherche sur le contenu des documents
(par opposition à une recherche sur des données structurées).
A cet effet, un moteur d'indexation (la partie "cachée"
du logiciel) et de recherche (l'interface d'interrogation utilisée
par l'utilisateur) est nécessaire. Cet outil permet d'extraire,
principalement d'un corpus textuel, les termes qui le représentent,
l'identifient au mieux et de les stocker dans un index. Ces termes-index
sont comparés avec ceux de la question posée. Ensuite, le
logiciel fournit une réponse comprenant des informations triées
(les titres des articles ou l'extrait d'un document). Certains moteurs
utilisent les informations inhérantes aux documents électroniques
(les étiquettes <titre>, <section>, ... issues de la
norme SGML, par exemple) reprises dans les notices documentaires propres
à chaque document.
Les outils d'indexation et de recherche utilisent, et parfois combinent,
lesapproches suivantes:
Technique du fichier inverse
Cette technique, la plus ancienne est aussi connue sous le nom de technique
de recherche de texte intégral. Elle fonctionne essentiellement selon
le principe de la recherche de mots dans un texte.
Modèle linguistique
Les différents types d'analyseurs linguistiques permettent d'élargir
la recherche d'information, de repèrer les mots porteurs d'informations,
de lever les ambiguités. Cette technique autorise une recherche intelligente,
non pas sur des mots mais sur des termes ou expressions, voire des concepts,
contenus dans le texte.
Modèle d'intelligence artificielle
L'utilisation des bases de connaissance et d'un moteur d'inférence
permet d'élaborer des stratégies de recherche sur le contenu sémantique
de documents pré-filtrés. Cette recherche peut, par exemple, prendre en
compte certaines informations contextuelles.
Modèle mathématique
L'analyse statistique et mathématique permettent une analyse rapide et
efficace de grandes masses de données. On parle également de recherche,
d'extraction d'information de structure de surface. Cette approche
est basée sur la reconnaissance de motifs similaires entre la question
posée et le texte. Cette technique s'appuie sur des technologies
diverses telles que les statistiques pures, la reconnaissance
de forme, la classification automatique, etc. [\]
Actuellement, les logiciels de recherche, outre le fait de combiner les
diverses techniques de recherche, intègrent des outils complémentaires
: visualisateurs de documents, des gestionnaires d'images, OCR (reconnaissance
optique de caractères), ...
Recherche d'informations : approche bottom up /
top down
On distingue deux approches relatives à la recherche d'informations:
- bottom up (ascendante) : la recherche d'information s'appuie sur
l'ensemble des informations sur lesquelles la recherche s'effectue et
non nécessairement sur la connaissance qu'en a l'utilisateur. Le clustering
est une démarche de type bottom up.
- top down (descendante) : qualifie l'approche des techniques de recherche
documentaires classiques. La recherche d'information s'appuie sur la
connaissance qu'en a l'utilisateur a priori. La stratégie top
down est adoptée par la quasi-totalité des moteurs de
rcherche, agents intelligents, ... Actuellement pour augmenter la performance
et la pertinence des recherches, cette démarche utilise des technologies
complémentaires dont la technologie à thésaurus.[0]
Reconnaissance des formes
La reconnaissance des formes, dans le cadre de l'indexation est une technique
mathématique qui vise à extraire les caractéristiques d'une
information par une analyse de type spectral. Cette technique permet à
un moteur de recherche d'effectuer une recherche de type floue.
La reconnaissance des formes ou la recherche floue sont des moyens d'indexation
et de recherche de textes très tolérants. En effet, ces
techniques sont indépendantes de la langue usitée et tolèrent
les fautes d'orthographe, les caractères parasites, etc. Elles
se révèlent pratiques quand on récupère des
textes par OCR (reconnaissance optique de caractères) qui peut
occasionner des erreurs de reconnaissance de caractères.
| L'indexation APRP(Adaptive Pattern Recognition
Processing) du logiciel RetrevialWare utilise une technologie fondée
sur la reconnaissance des formes par un réseau neuronal, appliquée
au codage binéaire des informations. L'indexation des documents
multimédias s'appuie aussi sur la technique de la reconnaissance
des formes. [!] |
| |
recherche documentaire
|
 |
Rédaction et édition de textes
Le domaine de la rédaction et de l'édition de textes englobe
toutes les techniques informatiques qui permettent, facilitent la conception,
le traitement et la publication d'un document. Cette assistance s'applique
à différentes étapes : le choix, l'orthographe des mots, la construction
de la phrase, l'emploi des temps de conjugaison, la présentation du texte,
la mise en page du document, ...
Ces programmes se sont naturellement adaptés au multimédia et aux besoins
nés des inforoutes : présentation d'un document avec texte et vidéo, édition
en HTML, ..
Réseau neuronal
Processus opaque permettant à partir de valeurs en entrée de découvrir
une valeur en sortie. Les réseaux neuronaux sont constitués de neurones,
aussi appelés noeuds, et d'interconnexions entre ces noeuds, liens permettant
d'envoyer des signaux de neurone à neurone. Un réseau de neurone a pour
caractéristique de pouvoir apprendre et mettre à profit son expérience
pour ajuster le modèle trouvé en fonction, par exemple, de l'arrivée de
nouveaux éléments. [I]
Définition
"Ressources linguistiques" désigne des "ensembles de données
et de descriptions linguistiques en format électronique
utilisées essentiellement pour développer, améliorer et évaluer des algorithmes
ou des systèmes de traitement de la parole et du langage naturel."
[#]
- corpus bruts : textes écrits ou transcriptions écrites de productions orales -
enregistrements de textes à voix haute, de discours, d'émissions de radio, etc.
- corpus annotés ou enrichis : indications relatives à la structure du texte, aux
catégories morphosyntaxiques ou sémantiques - informations sur la prosodie, le sens, les
locuteurs, l'environnement sonore, etc.
- corpus alignés : contenu traduit en plusieurs
langues.
- Ressources lexicographiques
- lexique, dictionnaire, grammaire, ...
- Ressources terminologiques
- lexique, thésaurus, dictionnaire et banque de données de vocabulaires
spécialisés, mono ou multilingues.
Utilisation
- Elaboration de systèmes [$]
De nombreux systèmes de traitement de la langue écrite ou parlée fonctionnent par
apprentissage à partir de corpus. On considère que la performance des modèles proposés
par ordinateur - dans la recherche et le filtrage documentaire ou la traduction assistée
- dépend, pour une large part, de la masse des données linguistiques disponibles pour
entraîner le système
Les corpus permettent aussi de construire des ressources linguistiques
indirectes : des lexiques spécialisés
à partir d'un ensemble de textes techniques.
- Evaluation de systèmes
Les ressources linguistiques, et notamment des corpus de grande taille, sont utilisées
pour évaluer les systèmes développés et pour les comparer : logiciels de recherche
documentaire ou de filtrage d'information, correcteurs orthographiques et grammaticaux,
etc.
Ces ressources linguistiques sont munies d'outils (logiciels) qui permettent leur
collecte, traitement, gestion, mise à jour, et utilisation.
Elles servent de ressources de base aux entreprises travaillant dans la localisation de
logiciels, aux sociétés de services en ingénierie linguistique, ainsi que pour les
études linguistiques, l'édition électronique, les transactions internationales et pour
divers utilisateurs impliqués dans des domaines spécialisés.
- Recueil des données, soit directement sous forme numérique, soit en
les numérisant.
- Codage des données : marques de structuration, marques
morphosyntaxiques, sémantiques ...
Un des codages est le TEI (Text encoding initiative) qui permet de baliser des textes avec
un minimum d'étiquettes conceptuelles (des notes et des gloses normalisées).
Ensemble des études et des techniques de conception et de mise
en uvre des robots effectuant des tâches déterminées en s'adaptant à
leur environnement.
 |
Accèdez à des
renseignements supplémentaires disponibles dans les Ressources
de l'Ìnventaire |
Dernière modification:
Ce site est optimisé pour Netscape 6.0 ou pour Internet
Explorer 4.0 ou ultérieur;
Et pour une résolution de 600/800 (Modifiez-la SI nécessaire).
Tous droits réservés © OTIL, 1999, 2002
|