Les clusters regroupent différentes valeurs de cellules qui pourraient être des représentations alternatives d'un même chose (singulier-pluriel, minuscules-majuscules, mots composés avec ou sans espace, caractères accentués ou non...etc.).
Menu déroulant d'une colonne > Edit cells  > Cluster and edit.

OpenRefine utilise différentes techniques pour identifier les clusters (par défaut "key collision" with "fingerprint").

Exemple :

clusters1.JPG

Si les clusters identifiés vous paraissent corrects, Select All puis Merge Selected & Re-Cluster. Il est possible de modifier la valeur proposée par OpenRefine (New cell value) avant de valider la fusion des contenus.

On peut choisir une autre technique de clusterisation (Key collision + ngram-fingerprint + Ngram Size=2) qui va identifier les groupes qui ne diffèrent que par un espace (voir ci-dessous).

cluster_2.JPG

Autre exemple sur la colonne "événements" avec la méthode "Key collision / metaphone3".

clusters2.JPG

Méthodes de clustering

Les méthodes de clustering sont proposées dans l'ordre d'agressivité croissant. Il faut donc les appliquer les unes après les autres dans l'ordre, jusqu'à atteindre le degré de fusion satisfaisant.

Key-collision

  • + fingerprint ne va chercher que des différences de casse.
  • + ngram+fingerprint va permettre de chercher des différences impliquant des inclusion ou non d'espace ou de tiret (pour les formes composées). Il permet de jouer sur la taille des paquets de lettres utilisés lors de la comparaison.
  • Les modèles phonétiques sont très utiles pour rapprocher des noms de personne qui auraient été saisies par des opérateurs téléphoniques par exemple. Metaphone 3 fonctionne bien sur l'anglais et cologne-phonetics sur l'allemand.

Nearest neighbour

plus sophistiqué mais aussi plus lent. 

  • Levenstein est aussi appelé "distance d'édition" et est basé sur le nombre d'opérations nécessaires (suppression, ajout, substitution) pour passer d'un mot à un autre. Par exemple pour passer de SAMEDI à MARDI, la distance est de 3. (S devient M, M devient R, E est supprimé). Radius permet d'autoriser plus ou moins d'écart entre 2 mots.
  • PPM est utilisé pour comparer les séquences ADN.
Tags:
Created by Sylvie COCAUD on 2013/02/19 11:53
     
© Copyright 2004-2018 XWiki - Directeur de publication : Pascal Aventurier - Sylvie Cocaud
6.4.6