French subtitles for clip: File:Wikidata Editing with OpenRefine - Part 2.webm

From Wikimedia Commons, the free media repository
Jump to navigation Jump to search
1
00:00:00,000 --> 00:00:02,367
Bienvenue à la partie 2 de ce tutoriel

2
00:00:02,367 --> 00:00:04,700
sur l'utilisation d'OpenRefine pour importer des données

3
00:00:04,700 --> 00:00:06,400
dans Wikidata.

4
00:00:06,400 --> 00:00:08,200
Dans la vidéo précédente,

5
00:00:08,200 --> 00:00:10,750
nous avons associés les films à leurs éléments Wikidata

6
00:00:10,750 --> 00:00:13,100
et vérifiez la qualité de la réconciliation.

7
00:00:13,100 --> 00:00:15,050
Pour chaque film,

8
00:00:15,050 --> 00:00:17,300
nous souhaitons ajouter les lieux de tournages

9
00:00:17,300 --> 00:00:19,550
aux éléments Wikidata.

10
00:00:19,550 --> 00:00:22,150
Cela nécessite la réconciliation des lieux de tournages.

11
00:00:22,150 --> 00:00:25,107
Commençons.

12
00:00:25,107 --> 00:00:27,104
Les lieux de tournages dans le jeu de données

13
00:00:27,104 --> 00:00:29,726
sont indiqués par leur adresse.

14
00:00:29,726 --> 00:00:31,974
Ces adresses n'ont généralement

15
00:00:31,974 --> 00:00:33,939
pas d'éléments Wikidata,

16
00:00:33,939 --> 00:00:36,939
mais les rues de Paris sont dans Wikidata.

17
00:00:38,665 --> 00:00:40,608
Nous commençons par extraire

18
00:00:40,608 --> 00:00:41,871
le nom des rues des adresses.

19
00:00:41,871 --> 00:00:44,000
Nous utilisons une expression régulière

20
00:00:44,000 --> 00:00:47,467
pour retirer le numéro au début de la chaîne de caractères.

21
00:00:51,504 --> 00:00:54,500
Dans la fenêtre précédente, nous avons observé

22
00:00:55,089 --> 00:00:55,400
que notre expression régulière

23
00:00:55,400 --> 00:00:57,800
ne prend en compte les espaces.

24
00:00:57,800 --> 00:01:00,500
Cela signifie que ces chaînes

25
00:01:00,500 --> 00:01:03,050
contiennent des caractères d'espacement non standards.

26
00:01:03,050 --> 00:01:04,550
Cela peut poser un problème

27
00:01:04,550 --> 00:01:07,445
lors de la réconciliation avec Wikidata.

28
00:01:07,445 --> 00:01:08,892
Copions ces caractères bizarres

29
00:01:08,892 --> 00:01:10,700
et débarrassons-nous en

30
00:01:10,700 --> 00:01:13,967
avec une fonction de remplacement.

31
00:01:15,479 --> 00:01:16,979
La première fonction de remplacement

32
00:01:16,979 --> 00:01:18,646
élimine les espaces ;

33
00:01:19,302 --> 00:01:22,302
la seconde fonction enlève les numéros de rue.

34
00:01:30,550 --> 00:01:32,538
Choisissez un nom pour cette nouvelle colonne

35
00:01:32,750 --> 00:01:34,600
et créez la.

36
00:01:37,050 --> 00:01:40,464
Nous pouvons désormais réconcilier ces rues avec Wikidata. 

37
00:01:40,464 --> 00:01:43,531
Choisissez « Reconcile » (Réconcilier) -> « Start reconciling » (Démarrer la réconciliation).

38
00:01:43,548 --> 00:01:45,525
et choisissez le service de réconciliation Wikidata.

39
00:01:48,250 --> 00:01:51,638
Le type « rue » est trop restreint.

40
00:01:52,071 --> 00:01:54,735
Le jeu de données comporte des espaces verts et des ponts.

41
00:01:54,735 --> 00:01:57,735
Choisissez un type plus large. 

42
00:01:57,936 --> 00:01:59,859
Voyons quelles autres informations nous pourrions utiliser

43
00:01:59,859 --> 00:02:02,200
afin d'améliorer la réconciliation.

44
00:02:02,200 --> 00:02:04,754
Le code postal semble convenir

45
00:02:04,754 --> 00:02:07,300
mais l'information est rarement

46
00:02:07,300 --> 00:02:10,300
ajoutée au nom de rue.

47
00:02:10,600 --> 00:02:13,000
La dernière colonne contient 

48
00:02:13,000 --> 00:02:14,535
les coordonnées géographiques des lieux de tournages

49
00:02:14,535 --> 00:02:17,535
exprimées en latitude, virgule, longitude.

50
00:02:18,912 --> 00:02:22,379
Nous pouvons faire correspondre ces données aux coordonnées des rues.

51
00:02:22,688 --> 00:02:25,218
Plus ces points géographiques seront proches,

52
00:02:25,218 --> 00:02:28,218
plus le score de correspondance sera élevé.

53
00:02:35,400 --> 00:02:37,949
Une fois la réconciliation terminée,

54
00:02:37,949 --> 00:02:39,902
nous pouvons vérifier les correspondances.

55
00:02:39,902 --> 00:02:41,644
On constate que deux rues

56
00:02:41,644 --> 00:02:43,034
avec le même nom

57
00:02:43,034 --> 00:02:45,073
ont obtenu des scores différents,

58
00:02:45,073 --> 00:02:48,073
grâce à la réconciliation via les coordonnées.

59
00:02:48,111 --> 00:02:51,111
La première est la bonne.

60
00:02:52,600 --> 00:02:55,209
Cette cellule n'a pas été associée automatiquement

61
00:02:55,209 --> 00:02:56,550
car l'écart entre les deux notes

62
00:02:56,550 --> 00:02:58,300
n'est pas assez grand.

63
00:02:58,300 --> 00:03:00,550
Il y a sans doute d'autres cas similaires.

64
00:03:00,550 --> 00:03:02,900
Filtrons les cellules

65
00:03:02,900 --> 00:03:06,100
qui n'ont pas fait l'objet d'une correspondance

66
00:03:06,100 --> 00:03:10,431
mais dont le score du meilleur candidat est très élevé.

67
00:03:12,050 --> 00:03:14,500
Ajoutons une facette

68
00:03:14,500 --> 00:03:16,238
qui calcule la similarité des chaînes de caractères

69
00:03:16,238 --> 00:03:17,819
entre le contenu de la cellule

70
00:03:17,819 --> 00:03:20,202
et le nom de la meilleure correspondance

71
00:03:20,202 --> 00:03:23,202
et se limite aux correspondances avec les scores les plus élevés.

72
00:03:24,500 --> 00:03:26,127
Examinons ces lignes filtrées

73
00:03:26,127 --> 00:03:27,860
et leurs meilleurs candidats.

74
00:03:48,209 --> 00:03:50,679
et leurs meilleurs candidats.

75
00:03:50,679 --> 00:03:52,469
Cliquez sur « Reconcile » (Réconcilier) -> et « Actions »

76
00:03:52,469 --> 00:03:55,469
-> « Match each cell to its best candidate » (Faire correspondre chaque cellule à son meilleur candidat).

77
00:03:57,015 --> 00:03:58,931
Utilisez cette option avec prudence

78
00:03:58,931 --> 00:04:01,931
à cause des faux positifs.

79
00:04:03,650 --> 00:04:05,200
Vérifions maintenant la qualité

80
00:04:05,200 --> 00:04:07,671
des cellules associées.

81
00:04:08,079 --> 00:04:09,582
Par exemple,

82
00:04:09,582 --> 00:04:11,100
nous pouvons récupérer l'emplacement administratif

83
00:04:11,100 --> 00:04:15,669
de ces rues.

84
00:04:23,676 --> 00:04:24,918
Une fois que l'on a récupéré les emplacements,

85
00:04:24,918 --> 00:04:27,514
nous pouvons créer une facette texte sur cette colonne

86
00:04:27,514 --> 00:04:29,168
et trier la facette

87
00:04:29,168 --> 00:04:32,168
par nombre décroissant d'occurrences.

88
00:04:39,550 --> 00:04:42,100
Cela nous donne une vue d'ensemble

89
00:04:42,100 --> 00:04:47,241
des résultats les plus fréquents.

90
00:04:47,241 --> 00:04:47,800
Nous pouvons vérifier la liste.

91
00:04:47,800 --> 00:04:50,050
Tous ces lieux sont dans Paris,

92
00:04:50,050 --> 00:04:52,947
ce qui est cohérent avec notre jeu de données.

93
00:05:03,250 --> 00:05:06,551
Ceci est la fin de la deuxième partie du tutoriel.

94
00:05:06,551 --> 00:05:08,500
Dans la prochaine vidéo, nous allons

95
00:05:08,500 --> 00:05:10,965
transformer la table en déclarations
96
00:05:10,965 --> 00:05:12,832
et importer les données dans Wikidata.