German subtitles for clip: File:Wikidata Editing with OpenRefine - Part 2.webm
Jump to navigation
Jump to search
1 00:00:00,000 --> 00:00:02,367 Willkommen zurück bei unserem Tutorial 2 00:00:02,367 --> 00:00:04,700 zur Nutzung von OpenRefine zum Datenimport 3 00:00:04,700 --> 00:00:06,400 in Wikidata. 4 00:00:06,400 --> 00:00:08,200 Im letzten Video 5 00:00:08,200 --> 00:00:10,750 haben wir Filmtitel mit den passenden Wikidataobjekten verknüpft 6 00:00:10,750 --> 00:00:13,100 und die Qualität des Datenabgleichs geprüft. 7 00:00:13,100 --> 00:00:15,050 Für jeden dieser Filme 8 00:00:15,050 --> 00:00:17,300 wollen wir nun die Drehorte 9 00:00:17,300 --> 00:00:19,550 zu den Wikidataobjekten hinzufügen. 10 00:00:19,550 --> 00:00:22,150 Dafür müssen wir die Drehorte ebenfalls abgleichen. 11 00:00:22,150 --> 00:00:25,107 Also los! 12 00:00:25,107 --> 00:00:27,104 Die Drehorte in unserem Datenbestand 13 00:00:27,104 --> 00:00:29,726 sind als Straße mit Hausnummer angegeben. 14 00:00:29,726 --> 00:00:31,974 Diese spezifischen Adressen sind vermutlich nicht 15 00:00:31,974 --> 00:00:33,939 als entsprechendes Wikidataobjekt vorhanden, 16 00:00:33,939 --> 00:00:36,939 aber die Straßen haben oft eins. 17 00:00:38,665 --> 00:00:40,608 Also extrahieren wir jetzt zuerst 18 00:00:40,608 --> 00:00:41,871 die Straßennamen aus den Adressen. 19 00:00:41,871 --> 00:00:44,000 Wir benutzen einen regulären Ausdruck 20 00:00:44,000 --> 00:00:47,467 um am Anfang der Zeichenkette alle Zahlen zu entfernen. 21 00:00:51,504 --> 00:00:54,500 In der Vorschau bemerken wir, dass 22 00:00:55,089 --> 00:00:55,400 der reguläre Ausdruck die Leerzeichen 23 00:00:55,400 --> 00:00:57,800 am Anfang der Adresse nicht mit erfasst hat. 24 00:00:57,800 --> 00:01:00,500 Das ist ein Hinweis darauf, dass diese Zeichenketten 25 00:01:00,500 --> 00:01:03,050 unübliche oder überflüssige Leerzeichen enthält. 26 00:01:03,050 --> 00:01:04,550 Diese können während des Abgleichs mit Wikidata 27 00:01:04,550 --> 00:01:07,445 zu Problemen führen. 28 00:01:07,445 --> 00:01:08,892 Also kopieren wir diese komischen Zeichen 29 00:01:08,892 --> 00:01:10,700 und schmeißen sie raus 30 00:01:10,700 --> 00:01:13,967 mit einer anderen replace-Funktion. 31 00:01:15,479 --> 00:01:16,979 Der erste Aufruf von "replace" hier 32 00:01:16,979 --> 00:01:18,646 bereinigt die Leerzeichen, 33 00:01:19,302 --> 00:01:22,302 der zweite entfernt die Hausnummern. 34 00:01:30,550 --> 00:01:32,538 Wählt noch einen Namen für die Spalte 35 00:01:32,750 --> 00:01:34,600 und erstellt sie. 36 00:01:37,050 --> 00:01:40,464 Jetzt können wir diese Straßen mit Straßen in Wikidata abgleichen. 37 00:01:40,464 --> 00:01:43,531 Wählt also wieder "Reconcile" -> "Start reconciling" 38 00:01:43,548 --> 00:01:45,525 und wählt den Wikidata-Service. 39 00:01:48,250 --> 00:01:51,638 In diesem Fall ist „Straße“ als Typ zu eng gegriffen. 40 00:01:52,071 --> 00:01:54,735 denn einige Drehorte sind Parks oder Brücken, 41 00:01:54,735 --> 00:01:57,735 so dass wir manuell einen umfassenderen Typ wählen 42 00:01:57,936 --> 00:01:59,859 Schauen wir mal, was für informationen wir noch benutzen können, 43 00:01:59,859 --> 00:02:02,200 um die Zuordnung zu verbessern. 44 00:02:02,200 --> 00:02:04,754 Die Postleitzahl scheint gut geeignet. 45 00:02:04,754 --> 00:02:07,300 Aber leider sind PLZ nur selten 46 00:02:07,300 --> 00:02:10,300 als Eigenschaft bei Straßenobjekten enthalten. 47 00:02:10,600 --> 00:02:13,000 Die letzte Spalte enthält die geographische 48 00:02:13,000 --> 00:02:14,535 Koordinate des Drehortes, 49 00:02:14,535 --> 00:02:17,535 ausgedrückt als Breitengrad, Komma, Längengrad. 50 00:02:18,912 --> 00:02:22,379 Wir können das gegen die Koordinaten der Straße auf Wikidata abgleichen. 51 00:02:22,688 --> 00:02:25,218 Je näher diese geographischen Punkte sind, 52 00:02:25,218 --> 00:02:28,218 umso höher wird ihre Genauigkeitsquote (matching score) sein. 53 00:02:35,400 --> 00:02:37,949 Wenn der Abgleich abgeschlossen ist, 54 00:02:37,949 --> 00:02:39,902 können wir uns die Zuordnungen ansehen. 55 00:02:39,902 --> 00:02:41,644 In diesem Fall sehen wir, dass zwei Staßen 56 00:02:41,644 --> 00:02:43,034 mit demselben Namen dank des Koordinatenabgleichs 57 00:02:43,034 --> 00:02:45,073 unterschiedliche Genauigkeitsquoten 58 00:02:45,073 --> 00:02:48,073 erhalten haben. 59 00:02:48,111 --> 00:02:51,111 Die erste ist die richtige. 60 00:02:52,600 --> 00:02:55,209 Diese Zelle wurde nicht automatisch zugeordnet, 61 00:02:55,209 --> 00:02:56,550 weil der Unterschied zwischen den beiden Quoten 62 00:02:56,550 --> 00:02:58,300 nicht groß genug ist. 63 00:02:58,300 --> 00:03:00,550 Ich vermute, es wird noch mehr solche Fälle geben 64 00:03:00,550 --> 00:03:02,900 deshalb filtere ich nur nach Zellen 65 00:03:02,900 --> 00:03:06,100 die zwar nicht zugeordnet wurden, 66 00:03:06,100 --> 00:03:10,431 deren beste Genauigkeitsquote sehr hoch ist. 67 00:03:12,050 --> 00:03:14,500 Ich füge außerdem einen Wertebereich (Facet) ein, 68 00:03:14,500 --> 00:03:16,238 der die Ähnlichkeit der Zeichenketten 69 00:03:16,238 --> 00:03:17,819 zwischen dem Zellinhalt 70 00:03:17,819 --> 00:03:20,202 und dem Namen des besten Treffers zeigt 71 00:03:20,202 --> 00:03:23,202 und beschränke mich dann auf die hochwertigen Treffer. 72 00:03:24,500 --> 00:03:26,127 Wir überprüfen nun diese gefilterten Reihen 73 00:03:26,127 --> 00:03:27,860 und ihre besten Treffer. 74 00:03:48,209 --> 00:03:50,679 Alle diese Treffer sind korrekt. 75 00:03:50,679 --> 00:03:52,469 Also klickt "Reconcile" -> "Actions" 76 00:03:52,469 --> 00:03:55,469 -> "Match each cell to its best candidate" 77 00:03:57,015 --> 00:03:58,931 Nutzt diese Funktion mit angemessener Sorgfalt, 78 00:03:58,931 --> 00:04:01,931 denn sie kann falsch positive Resultate ergeben. 79 00:04:03,650 --> 00:04:05,200 Wir prüfen nun die Qualität 80 00:04:05,200 --> 00:04:07,671 der abgeglichenen Zellen. 81 00:04:08,079 --> 00:04:09,582 Zum Beispiel können wir 82 00:04:09,582 --> 00:04:11,100 die Verwaltungseinheit 83 00:04:11,100 --> 00:04:15,669 zu diesen Straßen heranziehen. 84 00:04:23,676 --> 00:04:24,918 Wenn wir diese Orte dazugeladen haben, 85 00:04:24,918 --> 00:04:27,514 können wir eine Textfacette von dieser Spalte erstellen 86 00:04:27,514 --> 00:04:29,168 und diese absteigend sortieren 87 00:04:29,168 --> 00:04:32,168 nach der Anzahl ihrer Vorkommen 88 00:04:39,550 --> 00:04:42,100 Das gibt uns einen groben Überblick 89 00:04:42,100 --> 00:04:47,241 der häufigsten Werte. 90 00:04:47,241 --> 00:04:47,800 Wir können diese Liste nun prüfen. 91 00:04:47,800 --> 00:04:50,050 Alle diese Standorte sind Bezirke oder Stadtteile von Paris 92 00:04:50,050 --> 00:04:52,947 was zu unserem Datenmaterial passt. 93 00:05:03,250 --> 00:05:06,551 Das ist das Ende des zweiten Teils unseres Tutorials. 94 00:05:06,551 --> 00:05:08,500 Im nächsten Video 95 00:05:08,500 --> 00:05:10,965 wandeln wir unsere Tabelle in Aussagen 96 00:05:10,965 --> 00:05:12,832 und laden sie nach Wikidata hoch.