German subtitles for clip: File:Wikidata Editing with OpenRefine - Part 2.webm

From Wikimedia Commons, the free media repository
Jump to navigation Jump to search
1
00:00:00,000 --> 00:00:02,367
Willkommen zurück bei unserem Tutorial

2
00:00:02,367 --> 00:00:04,700
zur Nutzung von OpenRefine zum Datenimport 

3
00:00:04,700 --> 00:00:06,400
in Wikidata.

4
00:00:06,400 --> 00:00:08,200
Im letzten Video

5
00:00:08,200 --> 00:00:10,750
haben wir Filmtitel mit den passenden Wikidataobjekten verknüpft

6
00:00:10,750 --> 00:00:13,100
und die Qualität des Datenabgleichs geprüft.

7
00:00:13,100 --> 00:00:15,050
Für jeden dieser Filme

8
00:00:15,050 --> 00:00:17,300
wollen wir nun die Drehorte

9
00:00:17,300 --> 00:00:19,550
zu den Wikidataobjekten hinzufügen.

10
00:00:19,550 --> 00:00:22,150
Dafür müssen wir die Drehorte ebenfalls abgleichen.

11
00:00:22,150 --> 00:00:25,107
Also los!

12
00:00:25,107 --> 00:00:27,104
Die Drehorte in unserem Datenbestand 

13
00:00:27,104 --> 00:00:29,726
sind als Straße mit Hausnummer angegeben. 

14
00:00:29,726 --> 00:00:31,974
Diese spezifischen Adressen sind vermutlich nicht

15
00:00:31,974 --> 00:00:33,939
als entsprechendes Wikidataobjekt vorhanden,

16
00:00:33,939 --> 00:00:36,939
aber die Straßen haben oft eins.

17
00:00:38,665 --> 00:00:40,608
Also extrahieren wir jetzt zuerst 

18
00:00:40,608 --> 00:00:41,871
die Straßennamen aus den Adressen.

19
00:00:41,871 --> 00:00:44,000
Wir benutzen einen regulären Ausdruck

20
00:00:44,000 --> 00:00:47,467
um am Anfang der Zeichenkette alle Zahlen zu entfernen.

21
00:00:51,504 --> 00:00:54,500
In der Vorschau bemerken wir, dass

22
00:00:55,089 --> 00:00:55,400
der reguläre Ausdruck die Leerzeichen

23
00:00:55,400 --> 00:00:57,800
am Anfang der Adresse nicht mit erfasst hat.

24
00:00:57,800 --> 00:01:00,500
Das ist ein Hinweis darauf, dass diese Zeichenketten

25
00:01:00,500 --> 00:01:03,050
unübliche oder überflüssige Leerzeichen enthält.

26
00:01:03,050 --> 00:01:04,550
Diese können während des Abgleichs mit Wikidata

27
00:01:04,550 --> 00:01:07,445
zu Problemen führen.

28
00:01:07,445 --> 00:01:08,892
Also kopieren wir diese komischen Zeichen

29
00:01:08,892 --> 00:01:10,700
und schmeißen sie raus

30
00:01:10,700 --> 00:01:13,967
mit einer anderen replace-Funktion.

31
00:01:15,479 --> 00:01:16,979
Der erste Aufruf von "replace" hier

32
00:01:16,979 --> 00:01:18,646
bereinigt die Leerzeichen,

33
00:01:19,302 --> 00:01:22,302
der zweite entfernt die Hausnummern.

34
00:01:30,550 --> 00:01:32,538
Wählt noch einen Namen für die Spalte

35
00:01:32,750 --> 00:01:34,600
und erstellt sie.

36
00:01:37,050 --> 00:01:40,464
Jetzt können wir diese Straßen mit Straßen in Wikidata abgleichen.

37
00:01:40,464 --> 00:01:43,531
Wählt also wieder "Reconcile" -> "Start reconciling"

38
00:01:43,548 --> 00:01:45,525
und wählt den Wikidata-Service.

39
00:01:48,250 --> 00:01:51,638
In diesem Fall ist „Straße“ als Typ zu eng gegriffen.

40
00:01:52,071 --> 00:01:54,735
denn einige Drehorte sind Parks oder Brücken,

41
00:01:54,735 --> 00:01:57,735
so dass wir manuell einen umfassenderen Typ wählen

42
00:01:57,936 --> 00:01:59,859
Schauen wir mal, was für informationen wir noch benutzen können,

43
00:01:59,859 --> 00:02:02,200
um die Zuordnung zu verbessern.

44
00:02:02,200 --> 00:02:04,754
Die Postleitzahl scheint gut geeignet.

45
00:02:04,754 --> 00:02:07,300
Aber leider sind PLZ nur selten

46
00:02:07,300 --> 00:02:10,300
als Eigenschaft bei Straßenobjekten enthalten.

47
00:02:10,600 --> 00:02:13,000
Die letzte Spalte enthält die geographische 

48
00:02:13,000 --> 00:02:14,535
Koordinate des Drehortes,

49
00:02:14,535 --> 00:02:17,535
ausgedrückt als Breitengrad, Komma, Längengrad.

50
00:02:18,912 --> 00:02:22,379
Wir können das gegen die Koordinaten der Straße auf Wikidata abgleichen.

51
00:02:22,688 --> 00:02:25,218
Je näher diese geographischen Punkte sind, 

52
00:02:25,218 --> 00:02:28,218
umso höher wird ihre Genauigkeitsquote (matching score) sein.

53
00:02:35,400 --> 00:02:37,949
Wenn der Abgleich abgeschlossen ist,

54
00:02:37,949 --> 00:02:39,902
können wir uns die Zuordnungen ansehen.

55
00:02:39,902 --> 00:02:41,644
In diesem Fall sehen wir, dass zwei Staßen 

56
00:02:41,644 --> 00:02:43,034
mit demselben Namen dank des Koordinatenabgleichs

57
00:02:43,034 --> 00:02:45,073
unterschiedliche Genauigkeitsquoten

58
00:02:45,073 --> 00:02:48,073
erhalten haben.

59
00:02:48,111 --> 00:02:51,111
Die erste ist die richtige.

60
00:02:52,600 --> 00:02:55,209
Diese Zelle wurde nicht automatisch zugeordnet,

61
00:02:55,209 --> 00:02:56,550
weil der Unterschied zwischen den beiden Quoten

62
00:02:56,550 --> 00:02:58,300
nicht groß genug ist.

63
00:02:58,300 --> 00:03:00,550
Ich vermute, es wird noch mehr solche Fälle geben

64
00:03:00,550 --> 00:03:02,900
deshalb filtere ich nur nach Zellen

65
00:03:02,900 --> 00:03:06,100
die zwar nicht zugeordnet wurden,

66
00:03:06,100 --> 00:03:10,431
deren beste Genauigkeitsquote sehr hoch ist.

67
00:03:12,050 --> 00:03:14,500
Ich füge außerdem einen Wertebereich (Facet) ein,

68
00:03:14,500 --> 00:03:16,238
der die Ähnlichkeit der Zeichenketten

69
00:03:16,238 --> 00:03:17,819
zwischen dem Zellinhalt

70
00:03:17,819 --> 00:03:20,202
und dem Namen des besten Treffers zeigt

71
00:03:20,202 --> 00:03:23,202
und beschränke mich dann auf die hochwertigen Treffer.

72
00:03:24,500 --> 00:03:26,127
Wir überprüfen nun diese gefilterten Reihen

73
00:03:26,127 --> 00:03:27,860
und ihre besten Treffer.

74
00:03:48,209 --> 00:03:50,679
Alle diese Treffer sind korrekt.

75
00:03:50,679 --> 00:03:52,469
Also klickt "Reconcile" -> "Actions"

76
00:03:52,469 --> 00:03:55,469
-> "Match each cell to its best candidate"

77
00:03:57,015 --> 00:03:58,931
Nutzt diese Funktion mit angemessener Sorgfalt,

78
00:03:58,931 --> 00:04:01,931
denn sie kann falsch positive Resultate ergeben.

79
00:04:03,650 --> 00:04:05,200
Wir prüfen nun die Qualität 

80
00:04:05,200 --> 00:04:07,671
der abgeglichenen Zellen.

81
00:04:08,079 --> 00:04:09,582
Zum Beispiel können wir

82
00:04:09,582 --> 00:04:11,100
die Verwaltungseinheit 

83
00:04:11,100 --> 00:04:15,669
zu diesen Straßen heranziehen.

84
00:04:23,676 --> 00:04:24,918
Wenn wir diese Orte dazugeladen haben,

85
00:04:24,918 --> 00:04:27,514
können wir eine Textfacette von dieser Spalte erstellen

86
00:04:27,514 --> 00:04:29,168
und diese absteigend sortieren

87
00:04:29,168 --> 00:04:32,168
nach der Anzahl ihrer Vorkommen

88
00:04:39,550 --> 00:04:42,100
Das gibt uns einen groben Überblick

89
00:04:42,100 --> 00:04:47,241
der häufigsten Werte.

90
00:04:47,241 --> 00:04:47,800
Wir können diese Liste nun prüfen.

91
00:04:47,800 --> 00:04:50,050
Alle diese Standorte sind Bezirke oder Stadtteile von Paris

92
00:04:50,050 --> 00:04:52,947
was zu unserem Datenmaterial passt.

93
00:05:03,250 --> 00:05:06,551
Das ist das Ende des zweiten Teils unseres Tutorials.

94
00:05:06,551 --> 00:05:08,500
Im nächsten Video

95
00:05:08,500 --> 00:05:10,965
wandeln wir unsere Tabelle in Aussagen

96
00:05:10,965 --> 00:05:12,832
und laden sie nach Wikidata hoch.