French subtitles for clip: File:Wikidata Editing with OpenRefine - Part 1.webm

From Wikimedia Commons, the free media repository
Jump to navigation Jump to search
1
00:00:00,000 --> 00:00:05,333
Bienvenue dans cette série de tutoriels sur l'utilisation d'OpenRefine pour importer des données dans Wikidata.

2
00:00:05,333 --> 00:00:06,833
Mon nom est Antonin

3
00:00:06,850 --> 00:00:09,674
Je vais vous guider à travers le processus

4
00:00:09,674 --> 00:00:11,489
de nettoyage du jeu de données,

5
00:00:11,489 --> 00:00:13,468
d'association aux éléments Wikidata,

6
00:00:13,468 --> 00:00:17,601
et de téléchargement des informations sous forme de déclarations sur ces éléments.

7
00:00:17,612 --> 00:00:20,133
Aucune connaissance préalable d'OpenRefine n'est nécessaire pour suivre ce tutoriel

8
00:00:20,133 --> 00:00:23,333
mais une certaine familiarité avec Wikidata est utile.

9
00:00:24,078 --> 00:00:26,627
Tous les liens nécessaires pour suivre le tutoriel

10
00:00:26,627 --> 00:00:28,485
se trouvent dans la description de la vidéo.

11
00:00:28,485 --> 00:00:30,828
Allons-y

12
00:00:30,828 --> 00:00:35,561
OpenRefine est un logiciel libre que vous pouvez télécharger sur openrefine.org.

13
00:00:35,930 --> 00:00:40,330
Une fois installé, il fonctionne dans votre navigateur comme ceci.

14
00:00:40,679 --> 00:00:43,363
Dans ce tutoriel, nous allons importer des données

15
00:00:43,363 --> 00:00:46,496
sur les lieux de tournage de films à Paris.

16
00:00:47,592 --> 00:00:49,947
Le jeu de données sur lequel nous allons travailler est disponible

17
00:00:49,947 --> 00:00:52,947
sur le portail de données ouvertes parisien

18
00:00:53,455 --> 00:00:55,962
et nous pouvons le télécharger en fichier CSV.

19
00:00:55,962 --> 00:00:58,501
Nous pouvons simplement copier l'URL de ce fichier

20
00:00:58,501 --> 00:01:01,501
et la coller dans OpenRefine.

21
00:01:01,794 --> 00:01:04,395
Nous avons maintenant un aperçu du tableau

22
00:01:04,395 --> 00:01:06,604
et nous sommes satisfait par ce format

23
00:01:06,604 --> 00:01:10,004
nous donnons donc un nom au projet et le créons.

24
00:01:13,482 --> 00:01:15,824
La première étape pour importer ces données dans Wikidata

25
00:01:15,824 --> 00:01:17,324
est de'associer les noms de films

26
00:01:17,324 --> 00:01:20,191
avec les éléments Wikidata correspondants.

27
00:01:20,766 --> 00:01:22,266
Cliquez sur la colonne qui contient les noms

28
00:01:22,266 --> 00:01:23,600
des entités que vous voulez faire correspondre.

29
00:01:23,600 --> 00:01:26,667
et choisissez « Réconcilier » -> « Démarrer la réconciliation ».

30
00:01:27,200 --> 00:01:30,200
Choisissez le service de réconciliation Wikidata.

31
00:01:31,150 --> 00:01:33,100
OpenRefine essaie de deviner

32
00:01:33,100 --> 00:01:37,100
le type d'entité auquel ces noms correspondent.

33
00:01:37,100 --> 00:01:37,688
Dans notre cas,

34
00:01:37,688 --> 00:01:40,688
sa meilleure estimation est « film »

35
00:01:40,953 --> 00:01:43,638
ce qui semble approprié.

36
00:01:43,638 --> 00:01:46,572
OpenRefine considérera uniquement les instances de cette classe

37
00:01:46,572 --> 00:01:48,488
ou les sous-classes de celle-ci

38
00:01:48,488 --> 00:01:51,472
lors de la recherche de correspondances.

39
00:01:51,472 --> 00:01:54,302
OpenRefine permet également de faire correspondre d'autres propriétés

40
00:01:54,302 --> 00:01:56,993
stockées dans d'autres colonnes de la table.

41
00:01:56,993 --> 00:01:59,785
Dans notre cas, la colonne « Réalisateur »

42
00:01:59,785 --> 00:02:02,145
contient le nom du réalisateur,

43
00:02:02,145 --> 00:02:05,021
ce qui est très utile pour la désambiguïsation.

44
00:02:05,021 --> 00:02:07,594
Cochez cette colonne et sélectionnez

45
00:02:07,594 --> 00:02:10,114
la propriété Wikidata à laquelle elle doit correspondre.

46
00:02:10,114 --> 00:02:13,066
Cliquez sur « Démarrer la réconciliation »

47
00:02:13,066 --> 00:02:16,066
et attendez que le processus soit terminé.

48
00:02:26,998 --> 00:02:29,153
Maintenant que la réconciliation est faite,

49
00:02:29,153 --> 00:02:30,803
certains noms sont devenus des liens bleus

50
00:02:30,803 --> 00:02:34,270
qui pointent vers les éléments Wikidata correspondants.

51
00:02:34,990 --> 00:02:36,969
D'autres n'ont pas été trouvés

52
00:02:36,969 --> 00:02:39,185
par exemple parce que le directeur ne correspond pas

53
00:02:39,185 --> 00:02:42,185
dans le cas du film ''Nadia''.

54
00:02:42,411 --> 00:02:44,042
Certains autres films n'ont pas été trouvés

55
00:02:44,042 --> 00:02:47,698
parce que Wikidata ne sait pas qui est leur directeur.

56
00:02:47,698 --> 00:02:49,116
Si vous avez le temps,

57
00:02:49,116 --> 00:02:51,265
vous pouvez revoir ces cellules sans correspondance

58
00:02:51,265 --> 00:02:53,290
et les réconcilier manuellement.

59
00:02:53,290 --> 00:02:55,097
Mais vous pouvez aussi les laisser telles quelles :

60
00:02:55,097 --> 00:02:58,430
ces lignes seront juste ignorées dans l'importation.

61
00:03:00,100 --> 00:03:02,993
Sur le côté gauche, vous pouvez voir deux facettes.

62
00:03:02,993 --> 00:03:04,530
Celles-ci peuvent être utilisés pour filtrer les lignes

63
00:03:04,530 --> 00:03:06,200
en fonction de leur statut de correspondance

64
00:03:06,200 --> 00:03:08,381
et leur score de correspondance.

65
00:03:08,381 --> 00:03:10,896
Vous pouvez sélectionner les lignes où la correspondance a réussi

66
00:03:10,896 --> 00:03:13,896
en cliquant sur le statut « correspondant ».

67
00:03:15,450 --> 00:03:17,200
Il est important de vérifier

68
00:03:17,200 --> 00:03:19,500
la qualité de ces correspondances automatisées,

69
00:03:19,500 --> 00:03:21,250
et il y a plusieurs façons de le faire.

70
00:03:21,250 --> 00:03:23,250
Dans notre cas, le tableau contient

71
00:03:23,250 --> 00:03:25,000
les dates des tournages

72
00:03:25,000 --> 00:03:26,700
que l'on peut comparer

73
00:03:26,700 --> 00:03:28,774
à la date de sortie des films

74
00:03:28,774 --> 00:03:30,440
et vérifiez qu'elles sont cohérentes.

75
00:03:30,440 --> 00:03:32,855
Cliquez sur la colonne réconciliée,

76
00:03:32,855 --> 00:03:36,000
choisissez « Modifier la colonne » -> « Ajouter une colonne à partir des valeurs réconciliées »

77
00:03:36,000 --> 00:03:39,000
et sélectionnez « date de publication ».

78
00:03:46,700 --> 00:03:49,050
Nous allons maintenant créer une colonne

79
00:03:49,050 --> 00:03:50,650
qui contiendra la différence

80
00:03:50,650 --> 00:03:52,150
entre la date de publication

81
00:03:52,150 --> 00:03:54,350
et la date de fin de tournage.

82
00:03:57,278 --> 00:04:01,211
Choisissez « Modifier la colonne » -> « Ajouter une colonne en fonction de cette colonne »

83
00:04:02,498 --> 00:04:04,800
Le langage utilisée pour l'expression ici

84
00:04:04,800 --> 00:04:06,750
s'appelle GREL.

85
00:04:06,750 --> 00:04:08,550
C'est un langage simple

86
00:04:08,550 --> 00:04:10,150
que vous pouvez apprendre sur le wiki d'OpenRefine.

87
00:04:10,150 --> 00:04:12,065
Vous pouvez sélectionner d'autres langages

88
00:04:12,065 --> 00:04:14,398
si vous êtes plus familier avec eux.

89
00:04:14,750 --> 00:04:17,588
Cette expression va calculer la différence

90
00:04:17,588 --> 00:04:19,150
entre les deux dates

91
00:04:19,150 --> 00:04:22,159
en nombre de jours.

92
00:04:22,159 --> 00:04:24,196
Donnez un nom à la nouvelle colonne

93
00:04:24,196 --> 00:04:27,196
et créez la colonne.

94
00:04:31,079 --> 00:04:32,579
Nous pouvons maintenant créer une facette numérique

95
00:04:32,579 --> 00:04:33,682
sur notre nouvelle colonne

96
00:04:33,682 --> 00:04:37,149
et inspecter la répartition des différences.

97
00:04:39,704 --> 00:04:42,124
Certaines de ces différences sont négatives

98
00:04:42,124 --> 00:04:44,700
ce qui suggère que nous avons peut-être des cellules correspondant

99
00:04:44,700 --> 00:04:48,443
à des films sortis avant le tournage.

100
00:04:48,443 --> 00:04:52,200
En fait, c'est juste parce que leur date de sortie

101
00:04:52,200 --> 00:04:55,952
a une précision annuelle sur Wikidata.

102
00:04:57,041 --> 00:04:59,229
La différence maximale est inférieure à deux ans

103
00:04:59,229 --> 00:05:00,643
ce qui est aussi cohérent,

104
00:05:00,643 --> 00:05:02,020
donc nous sommes confiants

105
00:05:02,020 --> 00:05:05,020
que ces correspondances sont fiables.

106
00:05:08,515 --> 00:05:11,258
Ceci est la fin de la première partie du tutoriel

107
00:05:11,258 --> 00:05:13,315
Dans la prochaine vidéo, nous allons réconcilier

108
00:05:13,315 --> 00:05:16,315
les emplacements des tournages.