Les facettes permettent de grouper les contenus semblables, pour y apporter des modifications par exemple. Vous utiliserez les facettes et des filtres très souvent dans OpenRefine.

Les facettes sont créées à partir du contenu d'une colonne.

On peut avoir plusieurs facettes simultanément : chaque nouvelle facette opère une sélection de données à partir des données déjà sélectionnées par la facette précédente. Attention à ne conserver que les facettes utiles
Les facettes ne fonctionnent que sur quelques milliers d'entrées uniques, donc si vous avez un jeu de données très volumineux et que vous voulez trouver des valeurs spécifiques dans une colonne avec de nombreuses valeurs distinctes, il peut être préférable d'utiliser un filtre pour rechercher un élément en particulier.

Cliquez sur le menu déroulant de l'en-tête de colonne, puis Facets > Text facets

Exemple de création de facettes sur la colonne "Type de produit" :

facettes1.JPG

Vous verrez apparaître un encadré qui regroupe tous les contenus de cellules identiques avec le nombre d’occurrence.

facettes2.JPG

Ceci peut être utile pour différentes raisons :

  • Repérer les fautes de frappe. Pour corriger, cliquez sur éditer et modifier directement. Cela modifiera toutes les cellules contenant cette faute de frappe.
  • Repérer les colonnes vides. Vous pouvez supprimer cette colonne en cliquant sur la colonne, Menu déroulant > Edit Column > Remove this Column.
  • Repérer des lignes vides.
  • Supprimer les  doublons (lignes semblables).
    Pour cela on trie les lignes sur ​​une valeur unique, dans l'exemple ci-dessous l'identifiant.
    Colonne Identifiant : Menu déroulant > Sort > Sort... cell values as Numbers

    sort_identifiant.JPG

    Une fois le tri effectué, un bouton "sort" apparait.
    Le tri est seulement une aide visuelle, à moins de choisir un tri permanent.
    Sort > Reorder rows permanently
    le tri permanent renumérote les lignes

    sort_identifiant2.JPG

    On peut ensuite supprimer l'Identifiant dans les lignes pour lesquelles il est identique à celui de la ligne précédente. On identifie ainsi les lignes qu'on pourra ensuite supprimer :
    Colonne Identifiant : Menu déroulant > Edit cells > Blank down
    .

    Pour supprimer ces lignes on peut créer des facettes à partir des cellules vides :
    Colonne Identifiant : Menu déroulant > Facet > Customized facets > Facet by blank


    facettes3.JPG

    Puis n'afficher que ces lignes en cliquant sur True dans le cadre des facettes et les supprimer par
    Colonne All : Menu détoulant > Edit rows > Remove all matching rows
    .

Facettes personnalisées

On peut construire des facettes à partir d'une valeur saisie pour repérer les lignes contenant cette valeur.

Facet -> Custom text facet value.contains("valeur-saisie")

Exemple 1 :

La colonne "Clé UT" contient des valeurs parfois précédées de "WOS:". Pour n'avoir plus que des valeurs on va créer une facette personnalisée pour repérer les lignes contenant "WOS:".

Colonne Clé UT : Facet > Custom Text facet : value.contains("WOS:")

facettes4.JPG

On sélectionne les 4 lignes en cliquant sur "true" puis on modifie le contenu des cellules :

Clé UT : Edit Cell > Transform value.replace ("WOS:","")

Reste à supprimer les deux points précédant les valeurs dans la colonne Clé UT. On procède avec la même fonction "replace", mais comme le guillemet est un caractère particulier on va utiliser la syntaxe suivante :

Clé UT : Edit Cell > Transform value.replace ('"','')

ou bien

Clé UT : Edit Cell > Transform value.replace ("\","")

Exemple 2 (extrait d'un autre projet) :

endowment.JPG

La colonne "endowment" (dotation) contient en principe des montants, mais certains sont exprimés sous la forme de texte, en particulier par une nombre suivi de "million". Pour modifier les cellules contenant ce type de donnée, on va devoir supprimer "million" sans oublier de multiplier le nombre contenu dans la cellule par 1000000 !

La première étape est de créer une facette personnalisée pour identifier et isoler les lignes contenant "million" dans cette colonne :

Facet -> Custom text facet value.contains("million")

On sélectionne uniquement les lignes concernées en cliquant dans la boite de la facette sur "true".

Pour multiplier par 1000000 il faut avoir des nombres et non des textes, on va donc également transformer le contenu des cellules en nombre. Pour cela, sur la colonne Endowment on effectue la commande :

Edit Cell > Transform  toNumber(value.replace("million.",""))*1000000

toNumber.JPG

Facettes en nuage de points

Offrent une autre façon d'explorer les données en créant des nuages de points correspondant aux relations entre les colonnes. On peut ensuite sélectionner une portion du nuage de points et n'afficher que les données (les lignes) correspondantes.

Facet > Scatterplot facet

Un tableau est généré, cliquer sur "log" pour afficher une présentation plus parlante :

nuages.JPG

Cliquer sur une des zones, le nuage correspondant est alors affiché en regard du tableau des données. On peut alors sélectionner une partie du nuage et voir les lignes correspondant à cette sélection.

nuages-selection.JPG

Tags: Lignes vides
Created by Sylvie COCAUD on 2013/02/19 11:43
     
© Copyright 2004-2018 XWiki - Directeur de publication : Pascal Aventurier - Sylvie Cocaud
6.4.6