Qu'est ce que l'indexation ?

Modifié par Isabelle MASSART le 12/08/16 11:00

Qu'est ce que l'indexation ?

L'indexation est une opération humaine de traitement intellectuel d’un document consistant à donner une représentation, par les éléments d’un langage documentaire, des notions résultant de l’analyse d’un document ou d’une question en vue d’en faciliter la recherche [1].

La notion d’indexation documentaire désigne les différents modes d’indexation, pratiqués généralement par les professionnels des bibliothèques et de la documentation, et reposant sur des langages documentaires[2] ou des outils spécifiques (ontologies par exemple). Il s’agit d’une indexation à la fois humaine, manuelle (se distinguant donc de l’indexation automatisée) et contrôlée par des langages documentaires (se distinguant donc de l’indexation libre, notamment des nouvelles formes d’indexation collective).

A quoi cela sert il ?

L'indexation est utilisée pour faciliter la recherche, la classification et l'organisation des objets documentaires. Il est la pierre angulaire de nombreux processus de gestion des connaissances :

  • Lors d'une recherche documentaire à travers un moteur qui indexe une base de documents : Tous les documents indexés par les mêmes mots clés du langage documentaire sont retrouvés, indépendamment de la langue ou de la présence ou non des mots dans le reste du document.
  • Lors de l'analyse de corpus (Text Mining) : Les mots clés  sont utilisés pour analyser un corpus textuel avec des méthodes statistiques ou linguistiques et permettent d'obtenir des résultats plus précis.
  • Pour la veille informationnelle : La sélection de mots clés permet de construire des équations de recherche pour surveiller les sources.
  • En Linked Open Data : en alignant les différents vocabulaires avec les technologies du web sémantique on peut comparer les termes communs ou différents et enrichir des vocabulaires avec des informations contenues dans les autres vocabulaires (termes équivalents, traduction dans d'autres langues).  Quand  on traite des ensembles de données indexées avec des vocabulaires contrôlés il est plus facile de rechercher de l’information et de lier des données  en utilisant ces vocabulaires.

Langage  documentaire, thésaurus et descripteurs

Le langage documentaire est un langage contrôlé et normalisé utilisé dans un système documentaire pour l'indexation et la recherche. Un langage documentaire permet de représenter de manière univoque les notions identifiées dans les documents et dans les demandes des utilisateurs, en prescrivant une liste de termes ou d'indices, et leurs règles d'utilisation.

Parmi ces langages documentaires, les thesaurus[3] sont des listes  organisées de termes normalisés (descripteurs et non-descripteurs) servant à l'indexation des documents et des questions dans un système documentaire.

Un thésaurus est une liste organisée de termes normalisés (descripteurs et non-descripteurs) servant à l'indexation des documents et des questions dans un système documentaire. Les descripteurs sont reliés par des relations sémantiques (génériques, associatives et d'équivalence) exprimées par des signes conventionnels. Les synonymes (non-descripteurs) sont reliés aux descripteurs par la seule relation d'équivalence. On peut distinguer les thésaurus en fonction : du mode de regroupement des termes (thésaurus à facettes) ; de la variété linguistique des termes (mono- ou multilingue) ; des domaines de connaissances couverts (thésaurus spécialisé ou sectoriel, thésaurus encyclopédique)[4]

Les descripteurs[5] sont reliés par des relations sémantiques (génériques, associatives et d'équivalence) exprimées par des signes conventionnels.

Un descripteur est un terme qui peut être un nom commun ou un nom propre, une locution, un mot composé ou un groupe de mots.

Le descripteur, dans le thésaurus, appartient à un environnement sémantique, qui permet d'éviter les confusions sémantiques, la  polysémie, dans le langage documentaire défini dans le thésaurus. Les relations sont définies par des signes conventionnels : un descripteur relève d'un "terme générique (TG)" (qui peut être un microthésaurus MT), avec des "termes associés (TA)", et parfois des "termes spécifiques (TS)", et la précision, le cas échéant, des termes pour lesquels le descripteur peut être employé (EM).

Le descripteur s'oppose au non-descripteur qui est, selon la définition donnée par l'ADBS, un "terme d'un thésaurus non retenu pour représenter une notion, mais qui renvoie à un ou plusieurs descripteurs à utiliser à sa place."

[1]  http://fadben.asso.fr/wikinotions/index.php?title=Indexation_documentaire

[2] http://fadben.asso.fr/wikinotions/index.php?title=Langage_documentaire

[3] http://www.adbs.fr/thesaurus-18864.htm?RH=OUTILS_VOC#sthash.6UPsQgFk.dpuf

[4] http://www.adbs.fr/thesaurus-18864.htm?RH=OUTILS_VOC

[5] http://fadben.asso.fr/wikinotions/index.php?title=Descripteur

Tags: Indexation
Créé par paventurier le 22/07/15 16:07
   
© INRA Copyright - Directeur de publication : Odile Hologne
XWiki Enterprise 6.4.6 - Mentions Légales