German subtitles for clip: File:WikiCon 2023 - Wikidata und der Sinn von Datenbanken.webm
Jump to navigation
Jump to search
1 00:00:00,000 --> 00:00:07,960 [Untertitel wurden automatisch mit Whisper Medium erzeugt.] Vorweg danke ich für das zahlreiche Erscheinen. Worum es in dieser Präsentation geht, ist eine 2 00:00:07,960 --> 00:00:13,920 kritische Auseinandersetzung mit Wikidata aus meiner hauptsächlich aus ökonomischen Anwendungen 3 00:00:13,920 --> 00:00:19,760 geprägten Perspektive. Wer R verwendet, wird jetzt wahrscheinlich nicht sehr viel neues hören oder 4 00:00:19,760 --> 00:00:26,600 sich einige der Probleme, die ich im folgenden darstelle schon selbst gestellt haben. Es ist 5 00:00:26,600 --> 00:00:34,320 auch meine Situation die, dass ich relativ oft Daten aus relativen Datenbanken zusammenklaube 6 00:00:34,320 --> 00:00:40,480 und irgendwann aber festgestellt habe, dass ich noch nie Wikidata als Datenquelle verwendet habe. 7 00:00:40,480 --> 00:00:47,640 Und ich habe mir überlegt, warum dem eigentlich so ist. Wikidata ist jetzt eigentlich schon ein 8 00:00:47,640 --> 00:00:53,080 relativ altes Projekt. Das gibt es seit 2013, wenn ich das richtig in Erinnerung habe, das wären jetzt 9 00:00:53,080 --> 00:01:00,360 zehn Jahre. Es wird in der Enzyklopädie auch halbwegs zahlreich verwendet. Es gibt relativ 10 00:01:00,360 --> 00:01:06,400 viele Vorlagenanwendungen die auf Wikidata aufbauen. Diese funktionieren so weit so gut, werden zwar 11 00:01:06,400 --> 00:01:11,760 nicht allzu häufig verwendet, aber grundsätzlich funktioniert es. Warum gelingt es Wikidata also 12 00:01:11,760 --> 00:01:17,600 nicht, über das enzyklopädische Publikum hinaus Verwendung zu finden, wo es doch an sich in den 13 00:01:17,600 --> 00:01:23,400 letzten zehn Jahren, unter Schlagworten wie Big Data, einen ungeahmten Boom an Datenanalyse in 14 00:01:23,400 --> 00:01:30,680 allen Qualitäten und Ausbringungen gegeben hat. Fangen wir mal mit den Grundlagen an. 15 00:01:30,680 --> 00:01:36,400 Jetzt noch einmal hier. Jetzt bleibt es im Modus. Ich habe später einige kleine Schriften. 16 00:01:36,400 --> 00:01:45,040 Die werden vielleicht schwer zu lesen sein, aber gut, kann man nichts machen. Es gibt im 17 00:01:45,040 --> 00:01:49,840 Wesentlichen zwei Zweige der Statistik. Die erste ist die deskriptive Statistik, die sich hauptsächlich 18 00:01:49,840 --> 00:01:55,920 auf das Angeben von Maßzahlen wie den Durchschnitt, im besten Fall auch ein paar Varianten beruft und 19 00:01:55,920 --> 00:02:02,520 weder sonderlich spektakulär noch schwer ist. Die zweite ist die Inferenzstatistik, in deren 20 00:02:02,520 --> 00:02:08,480 Feld Tests, Prognosemethoden und die Konstruktion von Schätzernfallen. Diese ist ungleich 21 00:02:08,480 --> 00:02:14,440 komplexer und interessanter. Im Folgenden geht es mir darum, wie man Wiki Data für 22 00:02:14,440 --> 00:02:22,360 Inferenzstatistische Anwendungen verwenden kann und woran das scheitert. Es gibt ein paar Grundlagen, 23 00:02:22,360 --> 00:02:27,040 die zu beachten sind. Das ist jetzt auch das Komplexere, was hier folgt. Man muss das nicht 24 00:02:27,040 --> 00:02:33,040 verstehen. Ein sehr grundlegendes Modell ist das Linear Regressionsmodell. Wir haben ja eine zu 25 00:02:33,040 --> 00:02:40,480 klärende Variable, einen Intercept, an dem die Regressionskurve in diesem Fall die Y-Achse 26 00:02:40,480 --> 00:02:49,640 schneidet. Wird mit Beta0 angegeben. Wir haben Beta1, den Parameter für die Variable, die in diesem Fall 27 00:02:49,640 --> 00:02:54,640 eines einfachen Linearen ist, sonst wäre es nur X. Das habe ich hier leider nicht drin, warum auch immer. 28 00:02:54,640 --> 00:03:02,400 Und anschließend den Fehlerterm. Soweit so gut, das ist nicht sonderlich komplex. Etwas erweitern 29 00:03:02,400 --> 00:03:08,760 könnte man das Regressionsmodell für Zeitreihen. Hier hat man eine zweite Variable, einen zweiten 30 00:03:08,760 --> 00:03:18,480 für die Zeitdimension. Das heißt, man hat nach wie vor eine Beobachtung für jedes X, aber das ist 31 00:03:18,480 --> 00:03:24,400 halt hier auch die Zeit. Das kann man auch immer komplexer machen, indem es doch rastische Prozesse 32 00:03:24,400 --> 00:03:30,360 gibt, in denen es eine Zufallskomponente gibt, die das Ergebnis willkürlich beeinflusst. 33 00:03:33,360 --> 00:03:42,720 Sehr häufig oder eigentlich unumgänglich sind Modelle. Man wird sehr wenig Statistik betreiben 34 00:03:42,720 --> 00:03:48,560 können, ohne irgendeine Ahnung zu haben, wie die Grundgesandtheit, mit der man es zur 35 00:03:48,560 --> 00:03:52,640 Turmler organisiert sein könnte. Es gibt zwei Notationen, eine sehr einfache, in der man 36 00:03:52,640 --> 00:03:59,640 zum Beispiel versucht, das Lohnniveau zu erklären, als eine Funktion aus Bildung, Erfahrung und 37 00:04:29,640 --> 00:04:49,280 Wissenheit zu machen. Ich habe jetzt aber das hier. Wo waren wir denn? Ich habe jetzt interessanterweise 38 00:04:49,280 --> 00:05:08,520 was anderes. Ja, sonst zurück und ich arbeite dann dort jeweils auf die Tastatur. Ja, wir waren bei 39 00:05:08,520 --> 00:05:13,200 den Notationen und statistisch korrigiert die ökonometrischen Notationen, in der man bereits 40 00:05:13,200 --> 00:05:19,800 versucht, die Gleichung entsprechend zu modellieren und sich gewahr ist, dass man hier für das Lohnniveau 41 00:05:19,800 --> 00:05:24,160 einen Schätzerkonstellismus durch das Dach hier oben angegeben wird. 42 00:05:24,160 --> 00:05:47,760 Ich habe hier ganz einfach was anderes. Ich habe jetzt mal eine kurze Frage. Die Fondle ist doch richtig, 43 00:05:47,760 --> 00:05:59,760 wie 1 mal Education. Ich wollte nur mal fragen, weil es da nicht steht. Ja, also drei Faktoren, 44 00:05:59,760 --> 00:06:06,760 Wetter 1, 2 und 3. Aber der Wetter 2 ist für Experience, aber nicht für Education. 45 00:06:06,760 --> 00:06:35,840 Das ist jetzt das, was ich hier habe. Relevant ist auch die Struktur der Daten. Wir haben einerseits 46 00:06:35,840 --> 00:06:40,160 Querschnittsdaten, wir haben mehrere Parameter oder Messungen pro Individuum. Wir haben Zeiterein, 47 00:06:40,160 --> 00:06:45,440 wie schon immer erwähnt. Das sind Beobachtungen eines Individuums und Einzel- oder Mehrparameter 48 00:06:45,440 --> 00:06:50,920 über die Zeit und Panel-Daten, Querschnittsdaten im Wesentlichen über die Zeit. Das ist im Folgenden 49 00:06:50,920 --> 00:06:58,720 nicht ganz unwichtig. Sagt aber vielleicht eher mehr aus über die Betrachtung für die Datate, 50 00:06:58,720 --> 00:07:03,760 die wir im Folgenden kommen. Und hier stellen wir uns in einem Problemkomplex ein. Das ist ein 51 00:07:03,760 --> 00:07:09,400 ScreenShot der World Bank Database. Das ist eine Datenbank, die man, wenn man Daten für 52 00:07:09,400 --> 00:07:14,760 ökonomitische Modellehrerinnen sucht, sehr häufig verwendet. Ganz einfach, weil sie nicht nur unter 53 00:07:14,760 --> 00:07:21,560 einer freien Lizenz steht, sondern auch ziemlich vollständig ist. Was wir hier unten dann hätten, 54 00:07:21,560 --> 00:07:27,000 ist ein Ausfallfenster für diverse Länder. Man macht hier meistens Ländervergleiche. 55 00:07:27,000 --> 00:07:34,080 Klickt dann hier oben auf Download, unter diesen drei Strichen, oder hier unten, 56 00:07:34,080 --> 00:07:39,200 kann sich dann auch noch ein Format aussuchen und versucht das dann selbst meistens ganz brutal in 57 00:07:39,200 --> 00:07:45,920 Excel in eine Datei zusammenzubasteln. Jetzt sehen wir uns das Äquivalent in Vigidata an. 58 00:07:45,920 --> 00:07:55,680 Ich habe in Vigidata nicht wirklich eine Möglichkeit auf zum Beispiel das Bruttoinlandsprodukt aller 59 00:07:55,680 --> 00:08:02,600 Länder im Vergleich auf der Website zuzugreifen. Vigidata ist eine dokumentenorientierte Datenbank. 60 00:08:02,600 --> 00:08:12,080 Als solche sehe ich da halt immer nur das einzelne Item in all seinen Ausprägungen. Es gibt auf 61 00:08:12,080 --> 00:08:16,080 Vigidata gar nicht so viele Zeiterien. Das Beispiel Bruttoinlandsprodukt habe ich deshalb gewählt, 62 00:08:16,080 --> 00:08:20,760 weil das eine der wenigen Zeiterien ist, die auf Vigidata ziemlich flächendeckend eingetragen ist. 63 00:08:20,760 --> 00:08:26,760 Natürlich kann ich jetzt auch auf Vigidata ganz einfach zu einer Tabelle kommen. Ich hoffe, 64 00:08:26,760 --> 00:08:29,160 man kann jetzt teilweise den Code hier lesen. 65 00:08:50,760 --> 00:08:59,120 Hier sehen wir bereits die Zugangshürde, die Vigidata stellt. Weiß jemand, was, 66 00:08:59,120 --> 00:09:04,840 jetzt abgesehen von den Themen und Properties, kann jemand schätzen, was diese Folger gemacht 67 00:09:04,840 --> 00:09:18,120 oder dieser Befehl? Okay, dann seid ihr schon relativ weit. Das Problem ist einfach, 68 00:09:18,360 --> 00:09:22,920 das Ganze abzuschätzen. Das Ganze zu konstruieren ist ein relativ langweger Prozess. Ich muss hier 69 00:09:22,920 --> 00:09:32,200 diese Befehlsteile schreiben. Ich muss wissen, welche Properties und Eigenschaften die ganzen 70 00:09:32,200 --> 00:09:40,840 Themen haben, die ich abrufen will. Wir haben hier zum Beispiel Q8932. Das sind Ökonomien 71 00:09:40,840 --> 00:09:51,320 der einzelnen Länder. Propertet 361 ist Teil von, und hier im Anschluss erhalte ich, 72 00:09:51,320 --> 00:10:00,640 jetzt gehe ich wieder hinaus, eine Tabelle für das Bruttoinlandsprodukt und die Bevölkerung 73 00:10:00,640 --> 00:10:07,240 aller Länder. Das ist natürlich eine sehr spezialisierte Abfolge. Wenn ich das für 74 00:10:07,240 --> 00:10:11,440 US-Bundestaten machen würde, dann hätte ich hier oben eine erste Zeile zur Bildung 75 00:10:11,440 --> 00:10:20,360 von Property 361, sondern wieder etwas anderes, weil das nicht Eigenschaften von Wirtschaft aller 76 00:10:20,360 --> 00:10:26,080 Länder der Welt ist, sondern es hier ganz einfache Redundanzen und Parallelen gibt, 77 00:10:26,080 --> 00:10:32,160 die man als Line-Anwender niemals finden wird, wenn man sich nicht 30 Minuten dazusetzt und so 78 00:10:32,160 --> 00:10:39,520 eine Befehlabfrage schreibt. Wir sehen hier meinen ersten Kritikpunkt. Wikidata stellt 79 00:10:39,520 --> 00:10:45,760 wahnsinnig hohe Eingangshürden. Ich habe hier irgendwo den Folder zur Wikidata, den es oben 80 00:10:45,760 --> 00:10:55,560 gibt. Da wird eine einsteigerfreundliche Nutzung beworben, aber ganz ehrlich, das ist nicht 81 00:10:55,560 --> 00:11:01,240 einsteigerfreundlich. Das ist etwas für sehr spezialisierte Nutzer. Die Wikidata sicher nicht 82 00:11:01,240 --> 00:11:08,400 zum ersten Mal verwenden und wer als Laie, auch mit sehr viel Ahnung von Statistik und Expertise 83 00:11:08,400 --> 00:11:16,920 in der Nutzung von Datenbanken, Wikidata bekommt, der wird schnell verzweifeln. Was ich dann im 84 00:11:16,920 --> 00:11:24,440 Wesentlichen habe, ist eine Tabelle. Man kann es nicht lesen, aber es ist ja noch das Beispiel, 85 00:11:24,440 --> 00:11:29,080 hier soll es rühren, es ist ja noch nicht damit getan, dass man eine schöne Tabelle mit Eindringer 86 00:11:29,240 --> 00:11:36,480 muss. Man muss diese noch reinigen. Würde man jetzt über diesen Weg einer Ausgabe über den 87 00:11:36,480 --> 00:11:43,560 Wikidata-Quel-Befehl geben, dann wird man ziemlich lange dabei sitzen, ohne zu einem möglichen 88 00:11:43,560 --> 00:11:48,760 Ergebnis zu kommen. Das ist ein Problem, weil man hat ja noch relativ viel anderes zu tun, 89 00:11:48,760 --> 00:11:55,720 bevor man zu irgendeinem Ergebnis kommt, als sich mit dem Data Wrangling das Quetschen und 90 00:11:55,720 --> 00:12:03,120 Ausquetschen von Datensätzen in eine brauchbare Form zu befassen. Nachdem das der Hauptpunkt 91 00:12:03,120 --> 00:12:07,920 für die Wikidata ist, muss ich als ersten großen Erdekung feststellen, das ist nicht nur nicht 92 00:12:07,920 --> 00:12:16,760 einstögerfreundlich, es ist auch für Laien sehr mühsam. Dabei gäbe es auch aus dem Open-Source 93 00:12:16,760 --> 00:12:23,160 Milieu zahlreiche Werkzeuge, mit denen man Ökonometrie betreiben kann. Die Programmiersprache R ist 94 00:12:23,680 --> 00:12:29,400 das Standardwerkzeug, sie steht unter einer freien Lizenz. Aber es gibt zur Wikidata eigentlich 95 00:12:29,400 --> 00:12:35,960 keinerlei Bezugspunkte. Es gibt ja sehr viele, was sogenannte Laborays, mit denen man einzelne 96 00:12:35,960 --> 00:12:43,920 Aufgaben ausführen kann und die erweiterte Befehle zu RStudio hinzufügen. Das ist die Oberfläche, 97 00:12:44,120 --> 00:12:52,840 über die man idealerweise auf R zugreift. Aber es gibt, oder habe ich bis an die Wikidata und 98 00:12:52,840 --> 00:12:57,240 der zugehenden Kommune noch nicht gesehen, keinen wirklich großen Bezugspunkt zu diesem 99 00:12:57,240 --> 00:13:03,960 sehr verbreiteten Projekt. Das ist mein großer Kritikpunkt. 2. Wikidata schafft es nicht, 100 00:13:03,960 --> 00:13:09,680 auch im Open-Source-Bereich eine gewisse Verbreitung außerhalb der Wikipedia zu finden. 101 00:13:09,680 --> 00:13:20,480 Großer Kritikpunkt Nummer 3 und hier komme ich auf einige Beispiele. Das ist ein Beispiel für das, 102 00:13:20,480 --> 00:13:27,320 was man dann haben möchte. Das sind Daten aus einem relativ bekannten Datensatz. Das habe ich 103 00:13:27,320 --> 00:13:34,160 nicht aus Wikidata herausgenommen. Das ist von Cardan Kruger 1994 und befasst sich mit der 104 00:13:34,160 --> 00:13:38,240 Rentabilität von Bildung. Gehen wir da einmal kurz hinein. Das sind hoffentlich nicht ganz 105 00:13:38,240 --> 00:13:46,480 uninteressante Beispiele. Ich habe hier die ID des Individuums, das Alter, die Bildung insoweit ich 106 00:13:46,480 --> 00:13:53,280 weiß Schuljahre nach US-amerikanischen Systemen, die Schule der Eltern, hier noch ein paar Parameter, 107 00:13:53,280 --> 00:14:05,680 das Gewicht in einer obskuren imperialen Maßeinheit, ein paar Namevariablen, ob die Eltern in 108 00:14:05,680 --> 00:14:12,160 gemeinsame Ehe leben, alleinerziehende Eltern, ob es Geschwister gibt, noch ein paar weitere 109 00:14:12,160 --> 00:14:21,040 Namevariablen, Hautfarbe, bestimmte statistische Bezirke, Einkommen, IQ, ob es eine Bücherei-Karte 110 00:14:21,040 --> 00:14:29,360 im Alter von 14 Jahren gab. Das ist ein relativ komplexer Datensatz, den man dann sich auch ohne 111 00:14:29,360 --> 00:14:35,920 die Mühen von Wikidata erst einmal erarbeiten muss. Das erste, was wir machen, ist, wenn wir uns das 112 00:14:35,920 --> 00:14:41,320 näher anschauen wollen, wir skizzieren ein Regressionsmodell. Das ist ein relativ einfacher 113 00:14:41,320 --> 00:14:46,560 Befehl und ich schaue, dass ich jetzt die Kommentare zur Programmkarte kurz zeige. Wenn ich ein 114 00:14:46,560 --> 00:14:54,160 Linearser Regressionsmodell erstellen will, das ist der Befehl lm. Hier spezifiziere ich die zu 115 00:14:54,160 --> 00:15:00,520 erklärende Variable als Logarithmus, L-Wage, das ist bereits vorher gemacht worden, für Bildung in 116 00:15:00,520 --> 00:15:07,280 Jahren, Alter und das Quadrat der Erfahrung am Arbeitsmarkt. Hier bekomme ich dann die 117 00:15:07,280 --> 00:15:16,880 Ergebnis-Tabelle. Sieht soweit einmal halbwegs brauchbar aus, also die Parameter sind alle 118 00:15:16,880 --> 00:15:23,440 signifikant bis auf Education und die erzählt zum Beispiel ein negatives Vorzeichen. Das ist 119 00:15:23,440 --> 00:15:29,160 erst einmal sehr unlogisch, denn man nimmt der Gemeinden an, dass Bildung letztlich zu einem 120 00:15:29,160 --> 00:15:43,320 höheren Einkommen führt. Hier hintersteckt ein recht einfaches Problem. Wir haben hier Variable, 121 00:15:43,320 --> 00:15:48,560 die nicht erfasst sind. Die Bildung kann von persönlichen Fähigkeiten beeinflusst werden, das heißt, 122 00:15:48,560 --> 00:15:54,800 wir haben Endogenität im Modell. Diesen muss man korrigieren und das wird durch Instrumentenvariable 123 00:15:54,800 --> 00:16:01,160 gemacht und in diesem Fall kann man eine Instrumentenvariable, die den Bildungsgrad der Eltern erfasst. 124 00:16:01,160 --> 00:16:06,600 Dadurch kann man im Niveau das Problem lösen. Sehen wir uns das Ganze noch einmal an. 125 00:16:06,600 --> 00:16:17,160 Hier, das ist der Befehl, mit dem wir das Modell konstruieren und hier haben wir dann letztlich 126 00:16:17,440 --> 00:16:23,520 einen positiven Quotienten für Bildung und konnten letztlich schließen, dass Bildung wie erwartet zu 127 00:16:23,520 --> 00:16:34,760 einem höheren Einkommen führt. Zweites Beispiel, Zeitreihen. Wir klemmen der Durchschnitt der CO2-Konstruktion 128 00:16:34,760 --> 00:16:44,240 die Messreifen Monoloa Observatorium in Hawaii, die seit 1958 den CO2-geilten Atmosphäre erfasst und 129 00:16:44,240 --> 00:16:51,200 damit die älteste CO2-Messreihe ist, die es gibt. Wir sehen hier, der Gehalt steigt kontinuierlich an, 130 00:16:51,200 --> 00:16:56,520 aber wir haben hier immer wieder eine Schwankung. Auch das ist ein einfaches Problem zu lösen. Man 131 00:16:56,520 --> 00:17:02,400 versucht zu erfassen, welcher Prozess hier stattfindet und es gibt ja im Wesentlichen zwei Modelle, 132 00:17:02,400 --> 00:17:08,120 einen autogressiven Prozess, einen Moving Averages Prozess oder Mischformen. Hier sehen wir relativ 133 00:17:08,120 --> 00:17:14,360 einfach die Kurve flach nicht wirklich ab, das ist die Autokoalitionsfunktion, also ist es ein 134 00:17:14,360 --> 00:17:23,160 Moving Averages Prozess und hier sehen wir dann Zyklicität dieses Prozesses. Wir sehen hier alle 135 00:17:23,160 --> 00:17:29,040 zwölf Zählungen, haben wir einen signifikanten Lack und das heißt, wir können schätzen, 136 00:17:29,040 --> 00:17:36,080 das ist ein Prozess, der sich jährlich wiederholt. Mit dieser Information ist das Problem einfach zu 137 00:17:36,080 --> 00:17:41,760 lösen. Für den Gleitender Durchschnitt mit Erholung nach zwölf Züchlen ermittelt. Man kann mit 138 00:17:41,760 --> 00:17:48,040 dieser Information die Zufallskomponente, also den White Noise ermitteln, den man hier links hat. 139 00:17:48,040 --> 00:17:55,160 Das ist die Messung ohne Trend und das ist die Information mit Trend, aber ohne Saisonalität. 140 00:17:55,160 --> 00:18:01,760 Beispiel zu Ende, der Teil ist durchgestanden. Man kann das auch noch letztlich mit dem Boxtest 141 00:18:01,760 --> 00:18:06,320 machen, das hat mich hier weit oben zu besprechen. Mit dieser Information können wir bestätigen, 142 00:18:06,320 --> 00:18:11,640 dass der Durchschnitt des CO2-Galz-Atmosphäres steigt und dass die Variation, das war letztlich 143 00:18:11,640 --> 00:18:17,400 in den 1950er und 1960er, dass das Thema des Klimawandels erstmals aufgekommen ist, feststellen, 144 00:18:17,400 --> 00:18:25,800 dass saisonale Variationen, die jeden Mai auftreten, nicht darauf hindeuten, dass der höhere 145 00:18:25,800 --> 00:18:32,280 Moving Average ganz einfach auf lokale Störungen, wie sie bei ersten Versuchen solcher Messungen 146 00:18:32,280 --> 00:18:38,000 durch Autos, die irgendwo in der Nähe gelaufen sind oder Abgase aus nahen Zielungsgebieten sehr 147 00:18:38,000 --> 00:18:42,840 oft verursacht wurden, sondern man konnte mit dieser Messung, mit dieser Methode tatsächlich 148 00:18:42,840 --> 00:18:51,240 feststellen, dass der Durchschnitt steigt und dass Variationen saisonal sind. Das waren jetzt 149 00:18:51,240 --> 00:18:57,960 zwei kurze Beispiele. Deshalb möchte ich meine Kritik an Wikidata abschließen. Ist Wikidata 150 00:18:57,960 --> 00:19:04,800 eine Datenbank? Ja und nein, denn Wikidata ist eigentlich Structured Data. Wikidata wird oft 151 00:19:04,800 --> 00:19:10,240 als Datenbank vermarktet, aber Wikidata ist eigentlich Structured Data, das heißt, es bereitet 152 00:19:10,240 --> 00:19:15,400 Daten in einer strukturierten Weise auf und diese Struktur ist dann wieder genau auf die Struktur der 153 00:19:15,400 --> 00:19:24,440 Wikipedia angepasst. Dass wir hier eine relativ mühsame Methodik durch das Wikidata-Quality haben, 154 00:19:24,440 --> 00:19:31,320 um diese Daten exportieren zu können, ist darauf zurückgeführt, dass eben die Wikipedia Ursprung 155 00:19:31,320 --> 00:19:38,880 des Designs war. Das ist eigentlich schade, weil wir so wenig Möglichkeit nahe mit einfachen 156 00:19:38,880 --> 00:19:45,200 Mitteln in forensisch-stratistischen Analysen durchzuführen, die, wenn wir jetzt als Beispiel 157 00:19:45,200 --> 00:19:53,560 hier keine CO2-Messungen anführen würden, sondern zum Beispiel Klimadaten durchaus von einer 158 00:19:53,560 --> 00:19:59,600 interessanten Relevanz für Artikel wären. Man könnte zum Beispiel mit einer einfachen Berechnung 159 00:19:59,600 --> 00:20:06,720 angeben, wie viele Grad die Durchschnittstemperaturen seit Messbeginn in einem bestimmten 160 00:20:06,720 --> 00:20:09,680 Gebiet gestiegen sind und das wäre durchaus eine interessante Information. 161 00:20:09,680 --> 00:20:18,120 Probleme der Nutzung von Wikidata, noch einmal zusammengefasst, das Datenbankformat, 162 00:20:18,120 --> 00:20:25,640 das letztlich exportunfreundlich ist, erlädt sich auch, dass Inhalte fehlen. Ich habe jetzt lange 163 00:20:25,640 --> 00:20:32,320 Zeit noch Beispiele gesucht, meine erste Gedanke war ursprünglich, dass ich Inhalte aus Wikidata 164 00:20:32,320 --> 00:20:36,560 nehmen kann und da dann einfach zeigen kann, was könnte man mit ihnen machen, aber wir haben in 165 00:20:36,560 --> 00:20:44,480 Wikidata die Zeitereinheit in sehr spärlicher Form. Wir haben bestenfalls das Bruttoinlandsprodukt 166 00:20:44,480 --> 00:20:50,080 einzelner Länder, das man aber auch meistens über recht längere Zeitereinheit zusammengefasst. 167 00:20:50,080 --> 00:20:56,760 Woran liegt das? Es fehlen letztlich einfach die Ressourcen. Wo Wikipedia über Autorenknappheit 168 00:20:56,760 --> 00:21:01,520 klagt, so ist dieser Mangel auf Wikidata schon lange allgegenwärtig. Die Nutzungsszahlen von 169 00:21:01,520 --> 00:21:07,440 Wikidata sind gering und das dürfte auch daran liegen, dass Datenbanken einfach kein motivierendes 170 00:21:07,440 --> 00:21:16,400 Bearbeitungsfeld sind. Tabellen zu kopieren ist nicht nur von der Datenbank Schutzes nicht ganz 171 00:21:16,400 --> 00:21:22,840 rechtlich einfach. Das ist ein größeres überrechtliches Problem, aus dem z. B. die Open Street mehr 172 00:21:22,840 --> 00:21:30,520 bei einer eigenen Datenbank Lizenz hat. Es ist einfach völlig unmotivierend. Niemand wird 173 00:21:30,520 --> 00:21:37,680 der Daten aus Tabellen in eine andere Datenbank hinüber kopieren. Das Beispiel Open Street 174 00:21:37,680 --> 00:21:45,680 zeigt letztlich, dass auch gar nicht so viele große Teile der Inhalte aus händischen Messungen 175 00:21:46,520 --> 00:21:54,440 und GPX-Tracks zustande gekommen sind. Da wurde sehr viel kopiert und importiert. Und so bleibt 176 00:21:54,440 --> 00:22:01,160 letztlich als Frage für Wikidata nicht nur, was Wikidata eigentlich sein soll, ob das ein 177 00:22:01,160 --> 00:22:05,600 Datenrepositorium für Wikipedia sein soll, das dann aber auch für einen breiteren Nutzerkreis 178 00:22:05,600 --> 00:22:14,840 kaum erschlossen werden kann, weil das ganz einfach dafür die falsche Struktur hat. Man wird 179 00:22:15,360 --> 00:22:23,840 auch in Wikidata nie den großen Zustrom an Inhalten sehen, weil das erste Problem irgendeine 180 00:22:23,840 --> 00:22:31,360 weitere Entwicklung ausschließt. Und das ist eigentlich sehr schade, weil es sehr viele mögliche 181 00:22:31,360 --> 00:22:38,240 Entwicklungen verhindert. Wie vorher gezeigt, die Zeitereien werden ein sehr interessantes 182 00:22:38,240 --> 00:22:44,360 Ding. Und es hat ja letztlich auch, es haben auch letztlich sehr viele Städteartikel als Beispiel 183 00:22:44,360 --> 00:22:51,600 Angaben zu den Klimadaten der jeweiligen Region. Das wären Zeitereien, die nicht nur von den 184 00:22:51,600 --> 00:22:59,040 Quellen ja so gut verfügbar sind. Das wären auch relevante Informationen, wie sich das Klima im 185 00:22:59,040 --> 00:23:05,560 Lauf der Zeit verändert. Und es geht ja nicht nur um diese zusätzlichen Informationen. Man könnte, 186 00:23:05,560 --> 00:23:10,600 wenn man solche Zeitereien ordentlich in Wikidata importiert, sich sehr viel Arbeit in den Artikel 187 00:23:10,600 --> 00:23:19,640 sparen. Conclusio, Wikidata ist ein Mittelding aus Datenbank und ausgelagerten Stelle der Wikipedia, 188 00:23:19,640 --> 00:23:27,560 dass in dieser Halben Form auch in weiteren zehn Jahren zu keinem rechten Ergebnis kommen wird. Und 189 00:23:27,560 --> 00:23:33,880 dass aus diesem Grund auch den Nutzern der Wikipedia letztlich großes verschlossen bleiben wird, 190 00:23:34,360 --> 00:23:41,200 auch die Nutzerkreise der Wikipedia, die etwas Erfahrung mit Data Science und verwandten Anwendungen 191 00:23:41,200 --> 00:23:49,480 haben, stehen großteils neben Wikidata und fragen sich, wie verwende ich das und warum 192 00:23:49,480 --> 00:23:55,440 soll ich Wikidata verwenden, wenn ich andernorts nutzende, einfacher zu verwenden, 193 00:23:55,440 --> 00:24:01,160 Anwendungsmöglichkeiten und Datenbanken habe? Gibt es so weit Anmerkungen? 194 00:24:01,160 --> 00:24:22,880 Die erste Frage oder Anmerkung, die ich habe, ist Wikidata ist niemals dafür konzipiert worden, 195 00:24:22,880 --> 00:24:31,200 relationale Datenbanken abzubilden. Es sollte ein Werkzeug sein für das Abspeichern sehr 196 00:24:31,200 --> 00:24:39,960 unstrukturierter Daten. Deswegen gibt es auch im Wikimedia Imperium auch eine zweite Datenbank, 197 00:24:39,960 --> 00:24:46,760 die die meisten gar nicht kennen. Und zwar die zweite Datenbank, die dann das klassische 198 00:24:46,760 --> 00:24:54,480 relationale Datenbankmodell viel besser abbilden kann, ist Wikimedia Commons. Das heißt, dort kann 199 00:24:54,480 --> 00:25:01,040 man da Daten in klassischer Form abspeichern, die sich dann halt auch für andere Anwendungen 200 00:25:01,040 --> 00:25:13,240 eignet. Und die zweite Kommentar ist, die Entwickler haben nicht unbedingt im Auge gehabt, dass die 201 00:25:13,240 --> 00:25:19,520 Daten dann sofort in einer statistischen Analyse verwendet werden sollen, weil das ist erst einmal 202 00:25:19,520 --> 00:25:25,960 nicht Ziel, weder von Wikidata noch Wikimedia Commons gewesen. Das war als Kommentar. 203 00:25:30,960 --> 00:25:37,680 Das Ziel von Wikidata ist natürlich ein wichtiger Punkt. Das ist jetzt die große Frage, kann man, 204 00:25:37,760 --> 00:25:44,800 wenn man jetzt in einem Artikel, in einer sehr hypothetischen Einbindung von R in Wikipedia, 205 00:25:44,800 --> 00:25:53,480 wäre es eine valide Quelle, wenn man das selbst statistische Analysen durchführt? Anwendungen 206 00:25:53,480 --> 00:25:57,440 würden mir genug einfallen, denn die beiden Beispiele, die ich hier gewählt habe, 207 00:25:57,440 --> 00:26:06,000 die sind relativ bekannten Veröffentlichungen entnommen worden. Das heißt, die Methodik bei 208 00:26:06,040 --> 00:26:15,520 diesen Anwendungsfällen ist völlig unumstritten, aber es gibt andere Anwendungen, die auf wesentlich 209 00:26:15,520 --> 00:26:26,960 spekulativeren Methodiken beruhen. Was mir dazu einfällt, ist ein Versuch, das Wachstum von 210 00:26:26,960 --> 00:26:35,560 Siedlungsgebieten in Nordamerika durch Bahnstrecken und deren Konstruktion zu erklären. So weit ein 211 00:26:35,560 --> 00:26:41,280 kurzer Kommentar dazu. Wenn man jetzt einfach mal die Länge von Bahnstrecken in einem Land mit 212 00:26:41,280 --> 00:26:46,720 Daten aus Wirtschaft und Entwicklung vergleicht, dann wird man keinen wirklichen Zusammenhang 213 00:26:46,720 --> 00:26:52,520 feststellen. Das heißt, man weiß nicht, ob Bahnstrecken ursächlich für das Wachstum waren oder ob es 214 00:26:52,520 --> 00:27:00,120 Bahnstrecken gibt, weil die Länder wirtschaftlich gewachsen sind. Natürlich, Bahnstrecken waren seit 215 00:27:00,120 --> 00:27:06,360 dem 19. Jahrhundert mit Handelsrouten verknüpft worden, wegen diesen gebaut haben ältere Handelsrouten 216 00:27:06,360 --> 00:27:13,800 ersetzt. Das ist ein bisschen ein Hände-Ei-Problem. Wenn man jetzt solche Analysen irgendwo in dem 217 00:27:13,800 --> 00:27:21,760 Artikel Eisenbahn packt, man kann nicht eindeutig nachweisen, dass Eisenbahnen ursächlich für die 218 00:27:21,760 --> 00:27:26,840 wirtschaftliche Entwicklung von Ländern waren. Das wäre wahrscheinlich sehr spekulativ. Aber der 219 00:27:26,840 --> 00:27:33,840 Use-Case, den ich tatsächlich sehen würde, das wären Klimadaten. Das ist eigentlich auch nicht 220 00:27:33,840 --> 00:27:42,200 sonderlich spekulativ, denn dass es einen Moving Average gibt, das ist ja soweit bekannt, das ist ja 221 00:27:42,200 --> 00:27:47,560 auch nachgewiesen. Und hätten wir jetzt die Möglichkeit, diesen Moving Average für bestimmte 222 00:27:47,640 --> 00:27:54,680 Regionen im Rahmen einer Vorlage zu berechnen, was im Rahmen von Lua vielleicht händisch noch möglich 223 00:27:54,680 --> 00:28:01,000 sein dürfte, wäre das Original Research, wenn man das in einen Artikel packt, dass man da in einem 224 00:28:01,000 --> 00:28:06,640 Klimadiagramm unten hinschreibt. Seit 1960 ist die Durchschnittstemperatur um so und so viele Grad 225 00:28:06,640 --> 00:28:13,520 geschrieben. Das ist zum Beispiel eine Frage, die ich mir stellen würde und bei der ich eine konkrete 226 00:28:13,520 --> 00:28:24,440 Anwendungsmöglichkeit finde. Ich habe gestern einen Vortrag über Wikifunctions gehört und ich denke, 227 00:28:24,440 --> 00:28:29,800 wenn man so eine Datenbank intelligent mit Wikifunctions kombinieren würde oder vielleicht auf 228 00:28:29,800 --> 00:28:33,520 Toolforge eine benutzerfreundliche Oberfläche schaffen würde, also wenn da irgendwer ein Hobby 229 00:28:33,520 --> 00:28:40,280 Programmierer sagt, okay, ich mache, du kannst die Länder eintippen und du kriegst das Bruttoinlassprodukt 230 00:28:40,280 --> 00:28:46,680 oder so immer oder die Einwohnerzahlen oder so immer, kann dann Wikidata besser funktionieren? 231 00:28:46,680 --> 00:28:52,600 Also wenn die Benutzeroberfläche, Beispiel das auf Toolforge, die Functions oder wo immer, 232 00:28:52,600 --> 00:29:01,080 benutzerfreundlicher implementiert würde. Wikifunctions wäre dafür wahrscheinlich eine 233 00:29:01,080 --> 00:29:07,560 gute Möglichkeit. Ich weiß jetzt aber nicht, ob Wikifunctions abseits grundsätzlicher mathematischer 234 00:29:07,640 --> 00:29:13,000 Fähigkeiten, die man ja in allen Programmiersprachen hat, zum Beispiel die Möglichkeit bürte, dass man 235 00:29:13,000 --> 00:29:21,120 R dort hinein integriert, dass man eine angepasste Version von R verwendet. Wenn dem so möglich wäre, 236 00:29:21,120 --> 00:29:30,040 dann würden wir uns für statistische Daten auch rein diskretive statistische Maßzahlen sehr viel 237 00:29:30,040 --> 00:29:35,280 Arbeit ersparen. Und das wäre etwas, wofür ich sehr großes Potenzial sehen würde, 238 00:29:35,280 --> 00:29:44,040 bei dem aber wieder ich noch andere Leute ohne Einarbeitungszeit wirklich durchblicken würden. 239 00:29:44,040 --> 00:29:50,920 Das wäre ein Punkt, wo ich hoffe, dass sich das darin entwickelt. 240 00:29:50,920 --> 00:29:56,640 Ja, zu mir erstmal vielen Dank für diesen Vortrag. Hat mir vor allem geholfen, 241 00:29:56,880 --> 00:30:02,400 über den Griff Open Data nachzudenken, weil mir aufgefallen, es gab es eigentlich jetzt in den letzten 242 00:30:02,400 --> 00:30:08,400 15 Jahren Bedeutungswandel. Heute verstehen wir unter Open Data hauptsächlich Tawellen, 243 00:30:08,400 --> 00:30:13,240 die man sich im Rohformat wieder runterladen kann, importieren kann, wie du das im Vortrag 244 00:30:13,240 --> 00:30:21,560 beschrieben hast. Und ganz früher haben wir das mehr so gesehen, wie Wikipedia Autoren versuchen, 245 00:30:21,560 --> 00:30:30,160 alles, was sie von draußen finden, in ein Format reinzubringen. Und gerade bei Tawellen 246 00:30:30,160 --> 00:30:33,160 und so etwas oder Rohdaten ist es wichtig, vor allem die Quellen noch zu wissen, 247 00:30:33,160 --> 00:30:40,760 wie es ursprünglich reinkam. Das heißt, dieses Transformieren, das macht man eigentlich gar nicht, 248 00:30:40,760 --> 00:30:46,040 in eine andere Form. Man versucht immer, die Daten als Rohdaten zu behalten, weil das ja dann auch 249 00:30:46,040 --> 00:30:50,360 gleichzeitig der Beleg ist. Und da habe ich zwei Fragen jetzt. Zum einen habe ich mich gefragt, 250 00:30:50,360 --> 00:30:55,280 gibt es auch das Projekt Vigisource? Da müsste man ja sagen, also wenn man so Arbeit 251 00:30:55,280 --> 00:30:59,600 und das gerade beschrieben hat, dann müssten Tawellen eigentlich in Vigisource rein oder es 252 00:30:59,600 --> 00:31:05,240 müsste ein neues Projekt gegründet werden, wo man Tawellen im Rohformat hinterlegen kann. Und die 253 00:31:05,240 --> 00:31:11,600 zweite Frage, die ich mir gestellt habe, ist, du hast ja geschildert, dass du hauptsächlich woanders 254 00:31:11,600 --> 00:31:16,680 Daten holst. Da habe ich mich gefragt, wenn ich in der Presse mal schaue, dann sehe ich immer, 255 00:31:16,680 --> 00:31:23,560 das Problem geschildert, jede Stadt, jede Kommune, jedes Land, überall gibt es da irgendwelche 256 00:31:23,560 --> 00:31:32,120 Portal, wo man sich Daten runterladen kann. Aber man hat ja gar nicht die Lust, so viele 257 00:31:32,120 --> 00:31:38,320 Portale abzugrasen. Die Frage, die mich ja auch, gibt es inzwischen, sage ich mal, ein großes Projekt, 258 00:31:38,320 --> 00:31:44,720 wo Open Data im heutigen Datenverständnis hochgeladen, gespeichert werden oder ist es so, 259 00:31:44,720 --> 00:31:51,800 dass sie in Suche geht bei einer Stadt, Kommune oder Land oder Forschungsbehörde, die dann Rohdaten 260 00:31:51,800 --> 00:32:01,680 zum Download anbieten? Das große Portal, in das man alles stecken könnte, da hätte ich ursprünglich 261 00:32:01,680 --> 00:32:07,520 die Idee gehabt, dass Wikidata doch irgend so etwas in der Art werden sollte. Und das dann 262 00:32:07,520 --> 00:32:15,080 vielleicht tatsächlich eine Kommune entsteht, deren Spaß- und Freizeitziel es ist, dass man da so 263 00:32:15,080 --> 00:32:22,000 viele Daten wie möglich hinein steckt, alles unkoordiniert, vielleicht auch alles mit leichten 264 00:32:22,000 --> 00:32:31,600 Fehlern behaftet, aber dann doch ein gigantisches Werk. Und das dem nicht so ist, das hat halt nicht 265 00:32:31,600 --> 00:32:40,160 den Nachteil, dass es im Internet dutzende Datenbanken gibt, von denen manche verschwinden 266 00:32:40,160 --> 00:32:46,440 und es hat halt da niemand einen Mirror erstellt, was ja auch eine wichtige Eigenschaft einer solchen 267 00:32:46,440 --> 00:32:50,480 zentralen Datenbank wäre, dass, wenn irgendeine einzelne Seite abgeschaltet wird, die Daten nicht 268 00:32:50,480 --> 00:32:56,440 verloren gehen. Da gibt es ein paar wirklich, ein paar Fälle, in denen es wirklich sehr schade ist, 269 00:32:56,440 --> 00:33:05,320 weil es dafür keine andere Quelle gibt. Das wäre eine Rolle, die Wikidata einnehmen könnte oder 270 00:33:05,320 --> 00:33:11,600 vielmehr sollte, weil es ja nicht nur das Problem gibt, dass man sich erst den Überblick schaffen 271 00:33:11,600 --> 00:33:18,040 muss und die Bezugsnöigkeit finden muss. Es geht ja einfach sehr viel auch im Internet einfach verloren. 272 00:33:18,040 --> 00:33:26,840 Als Internetarchiv für Daten sozusagen, ja. 273 00:33:26,840 --> 00:33:42,160 Das meinte ich, das hat er gesagt, ob man nicht eher in Wikisource Richtung denken müsste dann. 274 00:33:42,160 --> 00:33:51,520 Ja, wobei da hat man das dann halt auch wieder zersplittert und irgendwie als das ganze 2013 275 00:33:51,520 --> 00:33:56,320 und nun im Vorjahr verkündet wurde, hatte ich schon die Hoffnung, dass man da jetzt irgendwas hat und 276 00:33:56,320 --> 00:34:00,640 da gibt es jetzt nur und da kann man sich dann wirklich alles rausziehen, was man für die Enzyklopädie 277 00:34:00,640 --> 00:34:06,680 und vielleicht auch sonstiges braucht und das Wikidata da doch irgendwie so dazwischenstecken 278 00:34:06,680 --> 00:34:12,960 geblieben ist, wo es zur Anwendung für die Enzyklopädie gibt, aber auch nicht so viele. 279 00:34:12,960 --> 00:34:16,320 Das finde ich sehr schade und da wird auch Potenzial vergeben. 280 00:34:16,320 --> 00:34:27,200 Da hake ich jetzt mal ein. Ich bin seit 2014 bei Wikimedia und habe angefangen, 281 00:34:27,200 --> 00:34:32,080 Wikidata zu programmieren. Deswegen stecke ich mit dem Kopfdativ drin und habe wahrscheinlich, 282 00:34:32,480 --> 00:34:37,680 mein Blick ist vielleicht ein bisschen verstellt, aber der Vortrag, die letzte vorher jetzt, 283 00:34:37,680 --> 00:34:43,400 irritiert mich ein bisschen, weil, wie ganz am Anfang hier, haben wir gerade vergessen, gesagt hat, 284 00:34:43,400 --> 00:34:49,240 das ist gar nicht das Ziel von Wikidata eigentlich. Ja klar, man kann hingehen und sich Mühe geben, 285 00:34:49,240 --> 00:34:54,040 irgendwie eine Modellierung zu finden, um Wetterdaten, den historischen Verlauf von 286 00:34:54,040 --> 00:34:58,040 Wetterdaten abzubilden, um dann die Wetterdiagramme in den Wikipedia-Artikeln, 287 00:34:58,040 --> 00:35:04,440 wie ein Lua-Code, der sehr kompliziert wird, dann wahrscheinlich zu generieren. Theoretisch 288 00:35:04,440 --> 00:35:10,640 denkbar, aber dafür ist es gar nicht gedacht. Wikidata hat verschiedene Zwecke. Einer ist, 289 00:35:10,640 --> 00:35:19,080 in Centrala Hub, im Netzwerk von Open Data und auf die Quelle, wo die Wetterdaten herkommen, 290 00:35:19,080 --> 00:35:22,880 zu verlinken. Diese Verlinkungen sind vielleicht noch nicht gut genug. Vielleicht gibt es noch 291 00:35:22,880 --> 00:35:26,440 zu wenig Standards. Vielleicht sind die, das ist das, was man da dort findet, nur ein paar 292 00:35:26,440 --> 00:35:31,640 bescheuerte PDFs, wie Open Data, bedeutet ja leider heutzutage, oft hast du einen PDF, 293 00:35:31,640 --> 00:35:37,880 kümmer dich. Ist ja leider so. Aber Wikidata wird das nicht lösen können und wird auch nicht die 294 00:35:37,880 --> 00:35:42,120 Datenmüllhalde für jeden Kram sein, den man vielleicht brauchen könnte. Das wird nicht 295 00:35:42,120 --> 00:35:47,960 funktionieren. Wer pflegt das denn dann? Dann hat man alles doppelt in der Original-Datenbank und 296 00:35:47,960 --> 00:35:54,600 in Wikidata nochmal. Das kann nicht funktionieren. Und auch wenn man jetzt in Wikidata reinschaut, 297 00:35:54,600 --> 00:35:58,600 sieht man, dass die Art von Daten, die du jetzt demonstriert hast, die man in R 298 00:35:58,600 --> 00:36:04,680 verrechnen kann, das macht nur ein paar Prozent der Daten aus in Wikidata. Das allermeiste sind 299 00:36:04,680 --> 00:36:10,560 andere Daten. Verknüpfungen zwischen Konzepten, Menschen, wo sie geboren sind, das kann man nicht 300 00:36:10,560 --> 00:36:19,560 verrechnen mit R. Also was ist eigentlich die Frage, die du hier in den Raum stellst? Ich habe die 301 00:36:19,560 --> 00:36:24,040 ehrlich gesagt nicht ganz verstanden. Wikidata ist offensichtlich nicht die Lösung. Aber was 302 00:36:24,040 --> 00:36:30,800 ist eigentlich die Frage? Die Frage war vielmehr eine Beobachtung, nämlich dass ich im Rahmen eines 303 00:36:30,800 --> 00:36:34,640 Volksgesellschaftslehrstudiums, das ja zu weitenteilender Statistik besteht, 304 00:36:34,640 --> 00:36:41,760 etwa noch mal festgestellt habe, dass weder ich noch Kompletonen noch Lehrende eine 305 00:36:41,760 --> 00:36:48,840 Anwendungsmöglichkeit von Wikidata gefunden haben. Das ist eigentlich schade, weil wir da 306 00:36:48,840 --> 00:36:57,000 auch eine gewisse Einstiegsmöglichkeit in Open Source und Open Science verstehen, würde ich jetzt sagen. 307 00:36:57,000 --> 00:37:13,880 Vielleicht noch zwei Hinweise. Die erste Frage ist, welche Programmiersprachen Wikifunctions haben 308 00:37:13,880 --> 00:37:20,520 könnten. Beispiele waren zumindest für die Programmiersprache Palchen und ich gehe mal davon aus, 309 00:37:20,520 --> 00:37:26,640 dass es prinzipiell auch möglich wäre, was anderes zu integrieren. Aber weil ich es vorhin schon sagte, 310 00:37:26,640 --> 00:37:32,800 es gibt unterschiedliche Datenbanken für unterschiedliche Zwecke und für das reine 311 00:37:32,800 --> 00:37:41,400 Abspeichern von Tabellen ist Wikidata so ziemlich das ungeeignete Werkzeug, was man dazu einsetzen kann. 312 00:37:42,080 --> 00:37:47,480 Ich habe auch schon gesagt, dass man das schon längst in der Wikimedia-Community erkannt hat und 313 00:37:47,480 --> 00:37:54,520 deswegen Tabellendaten natürlich nicht in Wikisource speichert, sondern in Wikimedia Commons. 314 00:37:54,520 --> 00:38:02,760 Da sind extra Tabellenfunktionen dafür eingeführt worden und da gehören die Daten auch hin. Und 315 00:38:02,760 --> 00:38:08,040 wenn man die so nehme, dann würden sich wahrscheinlich viele Probleme oder Fragen, 316 00:38:08,040 --> 00:38:17,000 die du gestellt hast, in Luft auflösen. Das ist ein guter Punkt. Natürlich Wikisource mit einem 317 00:38:17,000 --> 00:38:22,520 CSV zum Nahtfall ist möglich. Da fehlt auch die Oberfläche für eine explorative Betrachtung der 318 00:38:22,520 --> 00:38:28,200 Daten. Das gleich ein wichtiger Faktor, dass man den Einstieg in die World Bank Database wesentlich 319 00:38:28,200 --> 00:38:32,840 einfacher macht. Die Oberfläche ist letztlich auch einer der Punkte an Wikidata, der relativ 320 00:38:32,920 --> 00:38:36,360 gut gelungen ist. Da gibt es auch nicht so viele Sachen. 321 00:38:36,360 --> 00:38:58,520 Eine Frage, kommst du jetzt von der Seite auf Wikipedia oder Wikidata? Weil du gesagt hast, 322 00:38:58,520 --> 00:39:03,480 du wirst es jetzt aus deinem Studium nicht, wofür man es benutzen kann. In Wikidata gibt es den 323 00:39:03,480 --> 00:39:12,920 Query Editor, den du vorhin gezeigt hast. Und da sind nur ein paar Beispiele. Die sind zwar nur 324 00:39:12,920 --> 00:39:21,800 spielerisch, aber da sind ein paar Beispiele aufgezählt, wozu man es nutzen kann. Das hat 325 00:39:21,800 --> 00:39:26,360 nichts mit dem Studium zu tun oder hat vielleicht nichts mit der Wirtschaft zu tun. Aber er zeigt 326 00:39:26,440 --> 00:39:36,280 mir alle Bürgermeister, die im Jahr 2012 aktiv waren. Ich kann jetzt nicht auswendig, 327 00:39:36,280 --> 00:39:40,360 aber da sind ein paar schöne Beispiele. Wenn man sich die mal anguckt, dann findet man für sich 328 00:39:40,360 --> 00:39:47,800 auch eigene Beispiele, die dafür Verwendung finden. Das ist sicherlich ein Punkt. Wikidata hat 329 00:39:47,800 --> 00:39:52,760 strukturierte Daten wie Wer ist Bürgermeister von dieser Stadt und dieser Stadt. Wenn es jetzt 330 00:39:52,760 --> 00:39:59,320 zum Beispiel um Zeitrein geht, da habe ich wirklich wenig gefunden, dass man da in irgendeiner Weise 331 00:39:59,320 --> 00:40:04,280 verwenden könnte. Beispiele waren Europäische Länder wie Frankreich, Datmen, HDI und BIP, 332 00:40:04,280 --> 00:40:11,800 aber sonst auch nicht wirklich etwas. Der Sinn von Datenbanken ist, dass sie mit Inhalten gefüllt 333 00:40:11,800 --> 00:40:20,360 sein sollten. Wenn man aus meiner Perspektive da reingeht, dann finde ich da irgendwie wenig, 334 00:40:20,440 --> 00:40:28,120 dass ich mit Wikidata machen könnte. Das ist schade, weil es eine große Open Source Datenbank 335 00:40:28,920 --> 00:40:30,120 nicht wirklich gibt.