German subtitles for clip: File:WikiCon 2023 - Wikidata und der Sinn von Datenbanken.webm

1
00:00:00,000 --> 00:00:07,960
[Untertitel wurden automatisch mit Whisper Medium erzeugt.] Vorweg danke ich für das zahlreiche Erscheinen. Worum es in dieser Präsentation geht, ist eine

2
00:00:07,960 --> 00:00:13,920
kritische Auseinandersetzung mit Wikidata aus meiner hauptsächlich aus ökonomischen Anwendungen

3
00:00:13,920 --> 00:00:19,760
geprägten Perspektive. Wer R verwendet, wird jetzt wahrscheinlich nicht sehr viel neues hören oder

4
00:00:19,760 --> 00:00:26,600
sich einige der Probleme, die ich im folgenden darstelle schon selbst gestellt haben. Es ist

5
00:00:26,600 --> 00:00:34,320
auch meine Situation die, dass ich relativ oft Daten aus relativen Datenbanken zusammenklaube

6
00:00:34,320 --> 00:00:40,480
und irgendwann aber festgestellt habe, dass ich noch nie Wikidata als Datenquelle verwendet habe.

7
00:00:40,480 --> 00:00:47,640
Und ich habe mir überlegt, warum dem eigentlich so ist. Wikidata ist jetzt eigentlich schon ein

8
00:00:47,640 --> 00:00:53,080
relativ altes Projekt. Das gibt es seit 2013, wenn ich das richtig in Erinnerung habe, das wären jetzt

9
00:00:53,080 --> 00:01:00,360
zehn Jahre. Es wird in der Enzyklopädie auch halbwegs zahlreich verwendet. Es gibt relativ

10
00:01:00,360 --> 00:01:06,400
viele Vorlagenanwendungen die auf Wikidata aufbauen. Diese funktionieren so weit so gut, werden zwar

11
00:01:06,400 --> 00:01:11,760
nicht allzu häufig verwendet, aber grundsätzlich funktioniert es. Warum gelingt es Wikidata also

12
00:01:11,760 --> 00:01:17,600
nicht, über das enzyklopädische Publikum hinaus Verwendung zu finden, wo es doch an sich in den

13
00:01:17,600 --> 00:01:23,400
letzten zehn Jahren, unter Schlagworten wie Big Data, einen ungeahmten Boom an Datenanalyse in

14
00:01:23,400 --> 00:01:30,680
allen Qualitäten und Ausbringungen gegeben hat. Fangen wir mal mit den Grundlagen an.

15
00:01:30,680 --> 00:01:36,400
Jetzt noch einmal hier. Jetzt bleibt es im Modus. Ich habe später einige kleine Schriften.

16
00:01:36,400 --> 00:01:45,040
Die werden vielleicht schwer zu lesen sein, aber gut, kann man nichts machen. Es gibt im

17
00:01:45,040 --> 00:01:49,840
Wesentlichen zwei Zweige der Statistik. Die erste ist die deskriptive Statistik, die sich hauptsächlich

18
00:01:49,840 --> 00:01:55,920
auf das Angeben von Maßzahlen wie den Durchschnitt, im besten Fall auch ein paar Varianten beruft und

19
00:01:55,920 --> 00:02:02,520
weder sonderlich spektakulär noch schwer ist. Die zweite ist die Inferenzstatistik, in deren

20
00:02:02,520 --> 00:02:08,480
Feld Tests, Prognosemethoden und die Konstruktion von Schätzernfallen. Diese ist ungleich

21
00:02:08,480 --> 00:02:14,440
komplexer und interessanter. Im Folgenden geht es mir darum, wie man Wiki Data für

22
00:02:14,440 --> 00:02:22,360
Inferenzstatistische Anwendungen verwenden kann und woran das scheitert. Es gibt ein paar Grundlagen,

23
00:02:22,360 --> 00:02:27,040
die zu beachten sind. Das ist jetzt auch das Komplexere, was hier folgt. Man muss das nicht

24
00:02:27,040 --> 00:02:33,040
verstehen. Ein sehr grundlegendes Modell ist das Linear Regressionsmodell. Wir haben ja eine zu

25
00:02:33,040 --> 00:02:40,480
klärende Variable, einen Intercept, an dem die Regressionskurve in diesem Fall die Y-Achse

26
00:02:40,480 --> 00:02:49,640
schneidet. Wird mit Beta0 angegeben. Wir haben Beta1, den Parameter für die Variable, die in diesem Fall

27
00:02:49,640 --> 00:02:54,640
eines einfachen Linearen ist, sonst wäre es nur X. Das habe ich hier leider nicht drin, warum auch immer.

28
00:02:54,640 --> 00:03:02,400
Und anschließend den Fehlerterm. Soweit so gut, das ist nicht sonderlich komplex. Etwas erweitern

29
00:03:02,400 --> 00:03:08,760
könnte man das Regressionsmodell für Zeitreihen. Hier hat man eine zweite Variable, einen zweiten

30
00:03:08,760 --> 00:03:18,480
für die Zeitdimension. Das heißt, man hat nach wie vor eine Beobachtung für jedes X, aber das ist

31
00:03:18,480 --> 00:03:24,400
halt hier auch die Zeit. Das kann man auch immer komplexer machen, indem es doch rastische Prozesse

32
00:03:24,400 --> 00:03:30,360
gibt, in denen es eine Zufallskomponente gibt, die das Ergebnis willkürlich beeinflusst.

33
00:03:33,360 --> 00:03:42,720
Sehr häufig oder eigentlich unumgänglich sind Modelle. Man wird sehr wenig Statistik betreiben

34
00:03:42,720 --> 00:03:48,560
können, ohne irgendeine Ahnung zu haben, wie die Grundgesandtheit, mit der man es zur

35
00:03:48,560 --> 00:03:52,640
Turmler organisiert sein könnte. Es gibt zwei Notationen, eine sehr einfache, in der man

36
00:03:52,640 --> 00:03:59,640
zum Beispiel versucht, das Lohnniveau zu erklären, als eine Funktion aus Bildung, Erfahrung und

37
00:04:29,640 --> 00:04:49,280
Wissenheit zu machen. Ich habe jetzt aber das hier. Wo waren wir denn? Ich habe jetzt interessanterweise

38
00:04:49,280 --> 00:05:08,520
was anderes. Ja, sonst zurück und ich arbeite dann dort jeweils auf die Tastatur. Ja, wir waren bei

39
00:05:08,520 --> 00:05:13,200
den Notationen und statistisch korrigiert die ökonometrischen Notationen, in der man bereits

40
00:05:13,200 --> 00:05:19,800
versucht, die Gleichung entsprechend zu modellieren und sich gewahr ist, dass man hier für das Lohnniveau

41
00:05:19,800 --> 00:05:24,160
einen Schätzerkonstellismus durch das Dach hier oben angegeben wird.

42
00:05:24,160 --> 00:05:47,760
Ich habe hier ganz einfach was anderes. Ich habe jetzt mal eine kurze Frage. Die Fondle ist doch richtig,

43
00:05:47,760 --> 00:05:59,760
wie 1 mal Education. Ich wollte nur mal fragen, weil es da nicht steht. Ja, also drei Faktoren,

44
00:05:59,760 --> 00:06:06,760
Wetter 1, 2 und 3. Aber der Wetter 2 ist für Experience, aber nicht für Education.

45
00:06:06,760 --> 00:06:35,840
Das ist jetzt das, was ich hier habe. Relevant ist auch die Struktur der Daten. Wir haben einerseits

46
00:06:35,840 --> 00:06:40,160
Querschnittsdaten, wir haben mehrere Parameter oder Messungen pro Individuum. Wir haben Zeiterein,

47
00:06:40,160 --> 00:06:45,440
wie schon immer erwähnt. Das sind Beobachtungen eines Individuums und Einzel- oder Mehrparameter

48
00:06:45,440 --> 00:06:50,920
über die Zeit und Panel-Daten, Querschnittsdaten im Wesentlichen über die Zeit. Das ist im Folgenden

49
00:06:50,920 --> 00:06:58,720
nicht ganz unwichtig. Sagt aber vielleicht eher mehr aus über die Betrachtung für die Datate,

50
00:06:58,720 --> 00:07:03,760
die wir im Folgenden kommen. Und hier stellen wir uns in einem Problemkomplex ein. Das ist ein

51
00:07:03,760 --> 00:07:09,400
ScreenShot der World Bank Database. Das ist eine Datenbank, die man, wenn man Daten für

52
00:07:09,400 --> 00:07:14,760
ökonomitische Modellehrerinnen sucht, sehr häufig verwendet. Ganz einfach, weil sie nicht nur unter

53
00:07:14,760 --> 00:07:21,560
einer freien Lizenz steht, sondern auch ziemlich vollständig ist. Was wir hier unten dann hätten,

54
00:07:21,560 --> 00:07:27,000
ist ein Ausfallfenster für diverse Länder. Man macht hier meistens Ländervergleiche.

55
00:07:27,000 --> 00:07:34,080
Klickt dann hier oben auf Download, unter diesen drei Strichen, oder hier unten,

56
00:07:34,080 --> 00:07:39,200
kann sich dann auch noch ein Format aussuchen und versucht das dann selbst meistens ganz brutal in

57
00:07:39,200 --> 00:07:45,920
Excel in eine Datei zusammenzubasteln. Jetzt sehen wir uns das Äquivalent in Vigidata an.

58
00:07:45,920 --> 00:07:55,680
Ich habe in Vigidata nicht wirklich eine Möglichkeit auf zum Beispiel das Bruttoinlandsprodukt aller

59
00:07:55,680 --> 00:08:02,600
Länder im Vergleich auf der Website zuzugreifen. Vigidata ist eine dokumentenorientierte Datenbank.

60
00:08:02,600 --> 00:08:12,080
Als solche sehe ich da halt immer nur das einzelne Item in all seinen Ausprägungen. Es gibt auf

61
00:08:12,080 --> 00:08:16,080
Vigidata gar nicht so viele Zeiterien. Das Beispiel Bruttoinlandsprodukt habe ich deshalb gewählt,

62
00:08:16,080 --> 00:08:20,760
weil das eine der wenigen Zeiterien ist, die auf Vigidata ziemlich flächendeckend eingetragen ist.

63
00:08:20,760 --> 00:08:26,760
Natürlich kann ich jetzt auch auf Vigidata ganz einfach zu einer Tabelle kommen. Ich hoffe,

64
00:08:26,760 --> 00:08:29,160
man kann jetzt teilweise den Code hier lesen.

65
00:08:50,760 --> 00:08:59,120
Hier sehen wir bereits die Zugangshürde, die Vigidata stellt. Weiß jemand, was,

66
00:08:59,120 --> 00:09:04,840
jetzt abgesehen von den Themen und Properties, kann jemand schätzen, was diese Folger gemacht

67
00:09:04,840 --> 00:09:18,120
oder dieser Befehl? Okay, dann seid ihr schon relativ weit. Das Problem ist einfach,

68
00:09:18,360 --> 00:09:22,920
das Ganze abzuschätzen. Das Ganze zu konstruieren ist ein relativ langweger Prozess. Ich muss hier

69
00:09:22,920 --> 00:09:32,200
diese Befehlsteile schreiben. Ich muss wissen, welche Properties und Eigenschaften die ganzen

70
00:09:32,200 --> 00:09:40,840
Themen haben, die ich abrufen will. Wir haben hier zum Beispiel Q8932. Das sind Ökonomien

71
00:09:40,840 --> 00:09:51,320
der einzelnen Länder. Propertet 361 ist Teil von, und hier im Anschluss erhalte ich,

72
00:09:51,320 --> 00:10:00,640
jetzt gehe ich wieder hinaus, eine Tabelle für das Bruttoinlandsprodukt und die Bevölkerung

73
00:10:00,640 --> 00:10:07,240
aller Länder. Das ist natürlich eine sehr spezialisierte Abfolge. Wenn ich das für

74
00:10:07,240 --> 00:10:11,440
US-Bundestaten machen würde, dann hätte ich hier oben eine erste Zeile zur Bildung

75
00:10:11,440 --> 00:10:20,360
von Property 361, sondern wieder etwas anderes, weil das nicht Eigenschaften von Wirtschaft aller

76
00:10:20,360 --> 00:10:26,080
Länder der Welt ist, sondern es hier ganz einfache Redundanzen und Parallelen gibt,

77
00:10:26,080 --> 00:10:32,160
die man als Line-Anwender niemals finden wird, wenn man sich nicht 30 Minuten dazusetzt und so

78
00:10:32,160 --> 00:10:39,520
eine Befehlabfrage schreibt. Wir sehen hier meinen ersten Kritikpunkt. Wikidata stellt

79
00:10:39,520 --> 00:10:45,760
wahnsinnig hohe Eingangshürden. Ich habe hier irgendwo den Folder zur Wikidata, den es oben

80
00:10:45,760 --> 00:10:55,560
gibt. Da wird eine einsteigerfreundliche Nutzung beworben, aber ganz ehrlich, das ist nicht

81
00:10:55,560 --> 00:11:01,240
einsteigerfreundlich. Das ist etwas für sehr spezialisierte Nutzer. Die Wikidata sicher nicht

82
00:11:01,240 --> 00:11:08,400
zum ersten Mal verwenden und wer als Laie, auch mit sehr viel Ahnung von Statistik und Expertise

83
00:11:08,400 --> 00:11:16,920
in der Nutzung von Datenbanken, Wikidata bekommt, der wird schnell verzweifeln. Was ich dann im

84
00:11:16,920 --> 00:11:24,440
Wesentlichen habe, ist eine Tabelle. Man kann es nicht lesen, aber es ist ja noch das Beispiel,

85
00:11:24,440 --> 00:11:29,080
hier soll es rühren, es ist ja noch nicht damit getan, dass man eine schöne Tabelle mit Eindringer

86
00:11:29,240 --> 00:11:36,480
muss. Man muss diese noch reinigen. Würde man jetzt über diesen Weg einer Ausgabe über den

87
00:11:36,480 --> 00:11:43,560
Wikidata-Quel-Befehl geben, dann wird man ziemlich lange dabei sitzen, ohne zu einem möglichen

88
00:11:43,560 --> 00:11:48,760
Ergebnis zu kommen. Das ist ein Problem, weil man hat ja noch relativ viel anderes zu tun,

89
00:11:48,760 --> 00:11:55,720
bevor man zu irgendeinem Ergebnis kommt, als sich mit dem Data Wrangling das Quetschen und

90
00:11:55,720 --> 00:12:03,120
Ausquetschen von Datensätzen in eine brauchbare Form zu befassen. Nachdem das der Hauptpunkt

91
00:12:03,120 --> 00:12:07,920
für die Wikidata ist, muss ich als ersten großen Erdekung feststellen, das ist nicht nur nicht

92
00:12:07,920 --> 00:12:16,760
einstögerfreundlich, es ist auch für Laien sehr mühsam. Dabei gäbe es auch aus dem Open-Source

93
00:12:16,760 --> 00:12:23,160
Milieu zahlreiche Werkzeuge, mit denen man Ökonometrie betreiben kann. Die Programmiersprache R ist

94
00:12:23,680 --> 00:12:29,400
das Standardwerkzeug, sie steht unter einer freien Lizenz. Aber es gibt zur Wikidata eigentlich

95
00:12:29,400 --> 00:12:35,960
keinerlei Bezugspunkte. Es gibt ja sehr viele, was sogenannte Laborays, mit denen man einzelne

96
00:12:35,960 --> 00:12:43,920
Aufgaben ausführen kann und die erweiterte Befehle zu RStudio hinzufügen. Das ist die Oberfläche,

97
00:12:44,120 --> 00:12:52,840
über die man idealerweise auf R zugreift. Aber es gibt, oder habe ich bis an die Wikidata und

98
00:12:52,840 --> 00:12:57,240
der zugehenden Kommune noch nicht gesehen, keinen wirklich großen Bezugspunkt zu diesem

99
00:12:57,240 --> 00:13:03,960
sehr verbreiteten Projekt. Das ist mein großer Kritikpunkt. 2. Wikidata schafft es nicht,

100
00:13:03,960 --> 00:13:09,680
auch im Open-Source-Bereich eine gewisse Verbreitung außerhalb der Wikipedia zu finden.

101
00:13:09,680 --> 00:13:20,480
Großer Kritikpunkt Nummer 3 und hier komme ich auf einige Beispiele. Das ist ein Beispiel für das,

102
00:13:20,480 --> 00:13:27,320
was man dann haben möchte. Das sind Daten aus einem relativ bekannten Datensatz. Das habe ich

103
00:13:27,320 --> 00:13:34,160
nicht aus Wikidata herausgenommen. Das ist von Cardan Kruger 1994 und befasst sich mit der

104
00:13:34,160 --> 00:13:38,240
Rentabilität von Bildung. Gehen wir da einmal kurz hinein. Das sind hoffentlich nicht ganz

105
00:13:38,240 --> 00:13:46,480
uninteressante Beispiele. Ich habe hier die ID des Individuums, das Alter, die Bildung insoweit ich

106
00:13:46,480 --> 00:13:53,280
weiß Schuljahre nach US-amerikanischen Systemen, die Schule der Eltern, hier noch ein paar Parameter,

107
00:13:53,280 --> 00:14:05,680
das Gewicht in einer obskuren imperialen Maßeinheit, ein paar Namevariablen, ob die Eltern in

108
00:14:05,680 --> 00:14:12,160
gemeinsame Ehe leben, alleinerziehende Eltern, ob es Geschwister gibt, noch ein paar weitere

109
00:14:12,160 --> 00:14:21,040
Namevariablen, Hautfarbe, bestimmte statistische Bezirke, Einkommen, IQ, ob es eine Bücherei-Karte

110
00:14:21,040 --> 00:14:29,360
im Alter von 14 Jahren gab. Das ist ein relativ komplexer Datensatz, den man dann sich auch ohne

111
00:14:29,360 --> 00:14:35,920
die Mühen von Wikidata erst einmal erarbeiten muss. Das erste, was wir machen, ist, wenn wir uns das

112
00:14:35,920 --> 00:14:41,320
näher anschauen wollen, wir skizzieren ein Regressionsmodell. Das ist ein relativ einfacher

113
00:14:41,320 --> 00:14:46,560
Befehl und ich schaue, dass ich jetzt die Kommentare zur Programmkarte kurz zeige. Wenn ich ein

114
00:14:46,560 --> 00:14:54,160
Linearser Regressionsmodell erstellen will, das ist der Befehl lm. Hier spezifiziere ich die zu

115
00:14:54,160 --> 00:15:00,520
erklärende Variable als Logarithmus, L-Wage, das ist bereits vorher gemacht worden, für Bildung in

116
00:15:00,520 --> 00:15:07,280
Jahren, Alter und das Quadrat der Erfahrung am Arbeitsmarkt. Hier bekomme ich dann die

117
00:15:07,280 --> 00:15:16,880
Ergebnis-Tabelle. Sieht soweit einmal halbwegs brauchbar aus, also die Parameter sind alle

118
00:15:16,880 --> 00:15:23,440
signifikant bis auf Education und die erzählt zum Beispiel ein negatives Vorzeichen. Das ist

119
00:15:23,440 --> 00:15:29,160
erst einmal sehr unlogisch, denn man nimmt der Gemeinden an, dass Bildung letztlich zu einem

120
00:15:29,160 --> 00:15:43,320
höheren Einkommen führt. Hier hintersteckt ein recht einfaches Problem. Wir haben hier Variable,

121
00:15:43,320 --> 00:15:48,560
die nicht erfasst sind. Die Bildung kann von persönlichen Fähigkeiten beeinflusst werden, das heißt,

122
00:15:48,560 --> 00:15:54,800
wir haben Endogenität im Modell. Diesen muss man korrigieren und das wird durch Instrumentenvariable

123
00:15:54,800 --> 00:16:01,160
gemacht und in diesem Fall kann man eine Instrumentenvariable, die den Bildungsgrad der Eltern erfasst.

124
00:16:01,160 --> 00:16:06,600
Dadurch kann man im Niveau das Problem lösen. Sehen wir uns das Ganze noch einmal an.

125
00:16:06,600 --> 00:16:17,160
Hier, das ist der Befehl, mit dem wir das Modell konstruieren und hier haben wir dann letztlich

126
00:16:17,440 --> 00:16:23,520
einen positiven Quotienten für Bildung und konnten letztlich schließen, dass Bildung wie erwartet zu

127
00:16:23,520 --> 00:16:34,760
einem höheren Einkommen führt. Zweites Beispiel, Zeitreihen. Wir klemmen der Durchschnitt der CO2-Konstruktion

128
00:16:34,760 --> 00:16:44,240
die Messreifen Monoloa Observatorium in Hawaii, die seit 1958 den CO2-geilten Atmosphäre erfasst und

129
00:16:44,240 --> 00:16:51,200
damit die älteste CO2-Messreihe ist, die es gibt. Wir sehen hier, der Gehalt steigt kontinuierlich an,

130
00:16:51,200 --> 00:16:56,520
aber wir haben hier immer wieder eine Schwankung. Auch das ist ein einfaches Problem zu lösen. Man

131
00:16:56,520 --> 00:17:02,400
versucht zu erfassen, welcher Prozess hier stattfindet und es gibt ja im Wesentlichen zwei Modelle,

132
00:17:02,400 --> 00:17:08,120
einen autogressiven Prozess, einen Moving Averages Prozess oder Mischformen. Hier sehen wir relativ

133
00:17:08,120 --> 00:17:14,360
einfach die Kurve flach nicht wirklich ab, das ist die Autokoalitionsfunktion, also ist es ein

134
00:17:14,360 --> 00:17:23,160
Moving Averages Prozess und hier sehen wir dann Zyklicität dieses Prozesses. Wir sehen hier alle

135
00:17:23,160 --> 00:17:29,040
zwölf Zählungen, haben wir einen signifikanten Lack und das heißt, wir können schätzen,

136
00:17:29,040 --> 00:17:36,080
das ist ein Prozess, der sich jährlich wiederholt. Mit dieser Information ist das Problem einfach zu

137
00:17:36,080 --> 00:17:41,760
lösen. Für den Gleitender Durchschnitt mit Erholung nach zwölf Züchlen ermittelt. Man kann mit

138
00:17:41,760 --> 00:17:48,040
dieser Information die Zufallskomponente, also den White Noise ermitteln, den man hier links hat.

139
00:17:48,040 --> 00:17:55,160
Das ist die Messung ohne Trend und das ist die Information mit Trend, aber ohne Saisonalität.

140
00:17:55,160 --> 00:18:01,760
Beispiel zu Ende, der Teil ist durchgestanden. Man kann das auch noch letztlich mit dem Boxtest

141
00:18:01,760 --> 00:18:06,320
machen, das hat mich hier weit oben zu besprechen. Mit dieser Information können wir bestätigen,

142
00:18:06,320 --> 00:18:11,640
dass der Durchschnitt des CO2-Galz-Atmosphäres steigt und dass die Variation, das war letztlich

143
00:18:11,640 --> 00:18:17,400
in den 1950er und 1960er, dass das Thema des Klimawandels erstmals aufgekommen ist, feststellen,

144
00:18:17,400 --> 00:18:25,800
dass saisonale Variationen, die jeden Mai auftreten, nicht darauf hindeuten, dass der höhere

145
00:18:25,800 --> 00:18:32,280
Moving Average ganz einfach auf lokale Störungen, wie sie bei ersten Versuchen solcher Messungen

146
00:18:32,280 --> 00:18:38,000
durch Autos, die irgendwo in der Nähe gelaufen sind oder Abgase aus nahen Zielungsgebieten sehr

147
00:18:38,000 --> 00:18:42,840
oft verursacht wurden, sondern man konnte mit dieser Messung, mit dieser Methode tatsächlich

148
00:18:42,840 --> 00:18:51,240
feststellen, dass der Durchschnitt steigt und dass Variationen saisonal sind. Das waren jetzt

149
00:18:51,240 --> 00:18:57,960
zwei kurze Beispiele. Deshalb möchte ich meine Kritik an Wikidata abschließen. Ist Wikidata

150
00:18:57,960 --> 00:19:04,800
eine Datenbank? Ja und nein, denn Wikidata ist eigentlich Structured Data. Wikidata wird oft

151
00:19:04,800 --> 00:19:10,240
als Datenbank vermarktet, aber Wikidata ist eigentlich Structured Data, das heißt, es bereitet

152
00:19:10,240 --> 00:19:15,400
Daten in einer strukturierten Weise auf und diese Struktur ist dann wieder genau auf die Struktur der

153
00:19:15,400 --> 00:19:24,440
Wikipedia angepasst. Dass wir hier eine relativ mühsame Methodik durch das Wikidata-Quality haben,

154
00:19:24,440 --> 00:19:31,320
um diese Daten exportieren zu können, ist darauf zurückgeführt, dass eben die Wikipedia Ursprung

155
00:19:31,320 --> 00:19:38,880
des Designs war. Das ist eigentlich schade, weil wir so wenig Möglichkeit nahe mit einfachen

156
00:19:38,880 --> 00:19:45,200
Mitteln in forensisch-stratistischen Analysen durchzuführen, die, wenn wir jetzt als Beispiel

157
00:19:45,200 --> 00:19:53,560
hier keine CO2-Messungen anführen würden, sondern zum Beispiel Klimadaten durchaus von einer

158
00:19:53,560 --> 00:19:59,600
interessanten Relevanz für Artikel wären. Man könnte zum Beispiel mit einer einfachen Berechnung

159
00:19:59,600 --> 00:20:06,720
angeben, wie viele Grad die Durchschnittstemperaturen seit Messbeginn in einem bestimmten

160
00:20:06,720 --> 00:20:09,680
Gebiet gestiegen sind und das wäre durchaus eine interessante Information.

161
00:20:09,680 --> 00:20:18,120
Probleme der Nutzung von Wikidata, noch einmal zusammengefasst, das Datenbankformat,

162
00:20:18,120 --> 00:20:25,640
das letztlich exportunfreundlich ist, erlädt sich auch, dass Inhalte fehlen. Ich habe jetzt lange

163
00:20:25,640 --> 00:20:32,320
Zeit noch Beispiele gesucht, meine erste Gedanke war ursprünglich, dass ich Inhalte aus Wikidata

164
00:20:32,320 --> 00:20:36,560
nehmen kann und da dann einfach zeigen kann, was könnte man mit ihnen machen, aber wir haben in

165
00:20:36,560 --> 00:20:44,480
Wikidata die Zeitereinheit in sehr spärlicher Form. Wir haben bestenfalls das Bruttoinlandsprodukt

166
00:20:44,480 --> 00:20:50,080
einzelner Länder, das man aber auch meistens über recht längere Zeitereinheit zusammengefasst.

167
00:20:50,080 --> 00:20:56,760
Woran liegt das? Es fehlen letztlich einfach die Ressourcen. Wo Wikipedia über Autorenknappheit

168
00:20:56,760 --> 00:21:01,520
klagt, so ist dieser Mangel auf Wikidata schon lange allgegenwärtig. Die Nutzungsszahlen von

169
00:21:01,520 --> 00:21:07,440
Wikidata sind gering und das dürfte auch daran liegen, dass Datenbanken einfach kein motivierendes

170
00:21:07,440 --> 00:21:16,400
Bearbeitungsfeld sind. Tabellen zu kopieren ist nicht nur von der Datenbank Schutzes nicht ganz

171
00:21:16,400 --> 00:21:22,840
rechtlich einfach. Das ist ein größeres überrechtliches Problem, aus dem z. B. die Open Street mehr

172
00:21:22,840 --> 00:21:30,520
bei einer eigenen Datenbank Lizenz hat. Es ist einfach völlig unmotivierend. Niemand wird

173
00:21:30,520 --> 00:21:37,680
der Daten aus Tabellen in eine andere Datenbank hinüber kopieren. Das Beispiel Open Street

174
00:21:37,680 --> 00:21:45,680
zeigt letztlich, dass auch gar nicht so viele große Teile der Inhalte aus händischen Messungen

175
00:21:46,520 --> 00:21:54,440
und GPX-Tracks zustande gekommen sind. Da wurde sehr viel kopiert und importiert. Und so bleibt

176
00:21:54,440 --> 00:22:01,160
letztlich als Frage für Wikidata nicht nur, was Wikidata eigentlich sein soll, ob das ein

177
00:22:01,160 --> 00:22:05,600
Datenrepositorium für Wikipedia sein soll, das dann aber auch für einen breiteren Nutzerkreis

178
00:22:05,600 --> 00:22:14,840
kaum erschlossen werden kann, weil das ganz einfach dafür die falsche Struktur hat. Man wird

179
00:22:15,360 --> 00:22:23,840
auch in Wikidata nie den großen Zustrom an Inhalten sehen, weil das erste Problem irgendeine

180
00:22:23,840 --> 00:22:31,360
weitere Entwicklung ausschließt. Und das ist eigentlich sehr schade, weil es sehr viele mögliche

181
00:22:31,360 --> 00:22:38,240
Entwicklungen verhindert. Wie vorher gezeigt, die Zeitereien werden ein sehr interessantes

182
00:22:38,240 --> 00:22:44,360
Ding. Und es hat ja letztlich auch, es haben auch letztlich sehr viele Städteartikel als Beispiel

183
00:22:44,360 --> 00:22:51,600
Angaben zu den Klimadaten der jeweiligen Region. Das wären Zeitereien, die nicht nur von den

184
00:22:51,600 --> 00:22:59,040
Quellen ja so gut verfügbar sind. Das wären auch relevante Informationen, wie sich das Klima im

185
00:22:59,040 --> 00:23:05,560
Lauf der Zeit verändert. Und es geht ja nicht nur um diese zusätzlichen Informationen. Man könnte,

186
00:23:05,560 --> 00:23:10,600
wenn man solche Zeitereien ordentlich in Wikidata importiert, sich sehr viel Arbeit in den Artikel

187
00:23:10,600 --> 00:23:19,640
sparen. Conclusio, Wikidata ist ein Mittelding aus Datenbank und ausgelagerten Stelle der Wikipedia,

188
00:23:19,640 --> 00:23:27,560
dass in dieser Halben Form auch in weiteren zehn Jahren zu keinem rechten Ergebnis kommen wird. Und

189
00:23:27,560 --> 00:23:33,880
dass aus diesem Grund auch den Nutzern der Wikipedia letztlich großes verschlossen bleiben wird,

190
00:23:34,360 --> 00:23:41,200
auch die Nutzerkreise der Wikipedia, die etwas Erfahrung mit Data Science und verwandten Anwendungen

191
00:23:41,200 --> 00:23:49,480
haben, stehen großteils neben Wikidata und fragen sich, wie verwende ich das und warum

192
00:23:49,480 --> 00:23:55,440
soll ich Wikidata verwenden, wenn ich andernorts nutzende, einfacher zu verwenden,

193
00:23:55,440 --> 00:24:01,160
Anwendungsmöglichkeiten und Datenbanken habe? Gibt es so weit Anmerkungen?

194
00:24:01,160 --> 00:24:22,880
Die erste Frage oder Anmerkung, die ich habe, ist Wikidata ist niemals dafür konzipiert worden,

195
00:24:22,880 --> 00:24:31,200
relationale Datenbanken abzubilden. Es sollte ein Werkzeug sein für das Abspeichern sehr

196
00:24:31,200 --> 00:24:39,960
unstrukturierter Daten. Deswegen gibt es auch im Wikimedia Imperium auch eine zweite Datenbank,

197
00:24:39,960 --> 00:24:46,760
die die meisten gar nicht kennen. Und zwar die zweite Datenbank, die dann das klassische

198
00:24:46,760 --> 00:24:54,480
relationale Datenbankmodell viel besser abbilden kann, ist Wikimedia Commons. Das heißt, dort kann

199
00:24:54,480 --> 00:25:01,040
man da Daten in klassischer Form abspeichern, die sich dann halt auch für andere Anwendungen

200
00:25:01,040 --> 00:25:13,240
eignet. Und die zweite Kommentar ist, die Entwickler haben nicht unbedingt im Auge gehabt, dass die

201
00:25:13,240 --> 00:25:19,520
Daten dann sofort in einer statistischen Analyse verwendet werden sollen, weil das ist erst einmal

202
00:25:19,520 --> 00:25:25,960
nicht Ziel, weder von Wikidata noch Wikimedia Commons gewesen. Das war als Kommentar.

203
00:25:30,960 --> 00:25:37,680
Das Ziel von Wikidata ist natürlich ein wichtiger Punkt. Das ist jetzt die große Frage, kann man,

204
00:25:37,760 --> 00:25:44,800
wenn man jetzt in einem Artikel, in einer sehr hypothetischen Einbindung von R in Wikipedia,

205
00:25:44,800 --> 00:25:53,480
wäre es eine valide Quelle, wenn man das selbst statistische Analysen durchführt? Anwendungen

206
00:25:53,480 --> 00:25:57,440
würden mir genug einfallen, denn die beiden Beispiele, die ich hier gewählt habe,

207
00:25:57,440 --> 00:26:06,000
die sind relativ bekannten Veröffentlichungen entnommen worden. Das heißt, die Methodik bei

208
00:26:06,040 --> 00:26:15,520
diesen Anwendungsfällen ist völlig unumstritten, aber es gibt andere Anwendungen, die auf wesentlich

209
00:26:15,520 --> 00:26:26,960
spekulativeren Methodiken beruhen. Was mir dazu einfällt, ist ein Versuch, das Wachstum von

210
00:26:26,960 --> 00:26:35,560
Siedlungsgebieten in Nordamerika durch Bahnstrecken und deren Konstruktion zu erklären. So weit ein

211
00:26:35,560 --> 00:26:41,280
kurzer Kommentar dazu. Wenn man jetzt einfach mal die Länge von Bahnstrecken in einem Land mit

212
00:26:41,280 --> 00:26:46,720
Daten aus Wirtschaft und Entwicklung vergleicht, dann wird man keinen wirklichen Zusammenhang

213
00:26:46,720 --> 00:26:52,520
feststellen. Das heißt, man weiß nicht, ob Bahnstrecken ursächlich für das Wachstum waren oder ob es

214
00:26:52,520 --> 00:27:00,120
Bahnstrecken gibt, weil die Länder wirtschaftlich gewachsen sind. Natürlich, Bahnstrecken waren seit

215
00:27:00,120 --> 00:27:06,360
dem 19. Jahrhundert mit Handelsrouten verknüpft worden, wegen diesen gebaut haben ältere Handelsrouten

216
00:27:06,360 --> 00:27:13,800
ersetzt. Das ist ein bisschen ein Hände-Ei-Problem. Wenn man jetzt solche Analysen irgendwo in dem

217
00:27:13,800 --> 00:27:21,760
Artikel Eisenbahn packt, man kann nicht eindeutig nachweisen, dass Eisenbahnen ursächlich für die

218
00:27:21,760 --> 00:27:26,840
wirtschaftliche Entwicklung von Ländern waren. Das wäre wahrscheinlich sehr spekulativ. Aber der

219
00:27:26,840 --> 00:27:33,840
Use-Case, den ich tatsächlich sehen würde, das wären Klimadaten. Das ist eigentlich auch nicht

220
00:27:33,840 --> 00:27:42,200
sonderlich spekulativ, denn dass es einen Moving Average gibt, das ist ja soweit bekannt, das ist ja

221
00:27:42,200 --> 00:27:47,560
auch nachgewiesen. Und hätten wir jetzt die Möglichkeit, diesen Moving Average für bestimmte

222
00:27:47,640 --> 00:27:54,680
Regionen im Rahmen einer Vorlage zu berechnen, was im Rahmen von Lua vielleicht händisch noch möglich

223
00:27:54,680 --> 00:28:01,000
sein dürfte, wäre das Original Research, wenn man das in einen Artikel packt, dass man da in einem

224
00:28:01,000 --> 00:28:06,640
Klimadiagramm unten hinschreibt. Seit 1960 ist die Durchschnittstemperatur um so und so viele Grad

225
00:28:06,640 --> 00:28:13,520
geschrieben. Das ist zum Beispiel eine Frage, die ich mir stellen würde und bei der ich eine konkrete

226
00:28:13,520 --> 00:28:24,440
Anwendungsmöglichkeit finde. Ich habe gestern einen Vortrag über Wikifunctions gehört und ich denke,

227
00:28:24,440 --> 00:28:29,800
wenn man so eine Datenbank intelligent mit Wikifunctions kombinieren würde oder vielleicht auf

228
00:28:29,800 --> 00:28:33,520
Toolforge eine benutzerfreundliche Oberfläche schaffen würde, also wenn da irgendwer ein Hobby

229
00:28:33,520 --> 00:28:40,280
Programmierer sagt, okay, ich mache, du kannst die Länder eintippen und du kriegst das Bruttoinlassprodukt

230
00:28:40,280 --> 00:28:46,680
oder so immer oder die Einwohnerzahlen oder so immer, kann dann Wikidata besser funktionieren?

231
00:28:46,680 --> 00:28:52,600
Also wenn die Benutzeroberfläche, Beispiel das auf Toolforge, die Functions oder wo immer,

232
00:28:52,600 --> 00:29:01,080
benutzerfreundlicher implementiert würde. Wikifunctions wäre dafür wahrscheinlich eine

233
00:29:01,080 --> 00:29:07,560
gute Möglichkeit. Ich weiß jetzt aber nicht, ob Wikifunctions abseits grundsätzlicher mathematischer

234
00:29:07,640 --> 00:29:13,000
Fähigkeiten, die man ja in allen Programmiersprachen hat, zum Beispiel die Möglichkeit bürte, dass man

235
00:29:13,000 --> 00:29:21,120
R dort hinein integriert, dass man eine angepasste Version von R verwendet. Wenn dem so möglich wäre,

236
00:29:21,120 --> 00:29:30,040
dann würden wir uns für statistische Daten auch rein diskretive statistische Maßzahlen sehr viel

237
00:29:30,040 --> 00:29:35,280
Arbeit ersparen. Und das wäre etwas, wofür ich sehr großes Potenzial sehen würde,

238
00:29:35,280 --> 00:29:44,040
bei dem aber wieder ich noch andere Leute ohne Einarbeitungszeit wirklich durchblicken würden.

239
00:29:44,040 --> 00:29:50,920
Das wäre ein Punkt, wo ich hoffe, dass sich das darin entwickelt.

240
00:29:50,920 --> 00:29:56,640
Ja, zu mir erstmal vielen Dank für diesen Vortrag. Hat mir vor allem geholfen,

241
00:29:56,880 --> 00:30:02,400
über den Griff Open Data nachzudenken, weil mir aufgefallen, es gab es eigentlich jetzt in den letzten

242
00:30:02,400 --> 00:30:08,400
15 Jahren Bedeutungswandel. Heute verstehen wir unter Open Data hauptsächlich Tawellen,

243
00:30:08,400 --> 00:30:13,240
die man sich im Rohformat wieder runterladen kann, importieren kann, wie du das im Vortrag

244
00:30:13,240 --> 00:30:21,560
beschrieben hast. Und ganz früher haben wir das mehr so gesehen, wie Wikipedia Autoren versuchen,

245
00:30:21,560 --> 00:30:30,160
alles, was sie von draußen finden, in ein Format reinzubringen. Und gerade bei Tawellen

246
00:30:30,160 --> 00:30:33,160
und so etwas oder Rohdaten ist es wichtig, vor allem die Quellen noch zu wissen,

247
00:30:33,160 --> 00:30:40,760
wie es ursprünglich reinkam. Das heißt, dieses Transformieren, das macht man eigentlich gar nicht,

248
00:30:40,760 --> 00:30:46,040
in eine andere Form. Man versucht immer, die Daten als Rohdaten zu behalten, weil das ja dann auch

249
00:30:46,040 --> 00:30:50,360
gleichzeitig der Beleg ist. Und da habe ich zwei Fragen jetzt. Zum einen habe ich mich gefragt,

250
00:30:50,360 --> 00:30:55,280
gibt es auch das Projekt Vigisource? Da müsste man ja sagen, also wenn man so Arbeit

251
00:30:55,280 --> 00:30:59,600
und das gerade beschrieben hat, dann müssten Tawellen eigentlich in Vigisource rein oder es

252
00:30:59,600 --> 00:31:05,240
müsste ein neues Projekt gegründet werden, wo man Tawellen im Rohformat hinterlegen kann. Und die

253
00:31:05,240 --> 00:31:11,600
zweite Frage, die ich mir gestellt habe, ist, du hast ja geschildert, dass du hauptsächlich woanders

254
00:31:11,600 --> 00:31:16,680
Daten holst. Da habe ich mich gefragt, wenn ich in der Presse mal schaue, dann sehe ich immer,

255
00:31:16,680 --> 00:31:23,560
das Problem geschildert, jede Stadt, jede Kommune, jedes Land, überall gibt es da irgendwelche

256
00:31:23,560 --> 00:31:32,120
Portal, wo man sich Daten runterladen kann. Aber man hat ja gar nicht die Lust, so viele

257
00:31:32,120 --> 00:31:38,320
Portale abzugrasen. Die Frage, die mich ja auch, gibt es inzwischen, sage ich mal, ein großes Projekt,

258
00:31:38,320 --> 00:31:44,720
wo Open Data im heutigen Datenverständnis hochgeladen, gespeichert werden oder ist es so,

259
00:31:44,720 --> 00:31:51,800
dass sie in Suche geht bei einer Stadt, Kommune oder Land oder Forschungsbehörde, die dann Rohdaten

260
00:31:51,800 --> 00:32:01,680
zum Download anbieten? Das große Portal, in das man alles stecken könnte, da hätte ich ursprünglich

261
00:32:01,680 --> 00:32:07,520
die Idee gehabt, dass Wikidata doch irgend so etwas in der Art werden sollte. Und das dann

262
00:32:07,520 --> 00:32:15,080
vielleicht tatsächlich eine Kommune entsteht, deren Spaß- und Freizeitziel es ist, dass man da so

263
00:32:15,080 --> 00:32:22,000
viele Daten wie möglich hinein steckt, alles unkoordiniert, vielleicht auch alles mit leichten

264
00:32:22,000 --> 00:32:31,600
Fehlern behaftet, aber dann doch ein gigantisches Werk. Und das dem nicht so ist, das hat halt nicht

265
00:32:31,600 --> 00:32:40,160
den Nachteil, dass es im Internet dutzende Datenbanken gibt, von denen manche verschwinden

266
00:32:40,160 --> 00:32:46,440
und es hat halt da niemand einen Mirror erstellt, was ja auch eine wichtige Eigenschaft einer solchen

267
00:32:46,440 --> 00:32:50,480
zentralen Datenbank wäre, dass, wenn irgendeine einzelne Seite abgeschaltet wird, die Daten nicht

268
00:32:50,480 --> 00:32:56,440
verloren gehen. Da gibt es ein paar wirklich, ein paar Fälle, in denen es wirklich sehr schade ist,

269
00:32:56,440 --> 00:33:05,320
weil es dafür keine andere Quelle gibt. Das wäre eine Rolle, die Wikidata einnehmen könnte oder

270
00:33:05,320 --> 00:33:11,600
vielmehr sollte, weil es ja nicht nur das Problem gibt, dass man sich erst den Überblick schaffen

271
00:33:11,600 --> 00:33:18,040
muss und die Bezugsnöigkeit finden muss. Es geht ja einfach sehr viel auch im Internet einfach verloren.

272
00:33:18,040 --> 00:33:26,840
Als Internetarchiv für Daten sozusagen, ja.

273
00:33:26,840 --> 00:33:42,160
Das meinte ich, das hat er gesagt, ob man nicht eher in Wikisource Richtung denken müsste dann.

274
00:33:42,160 --> 00:33:51,520
Ja, wobei da hat man das dann halt auch wieder zersplittert und irgendwie als das ganze 2013

275
00:33:51,520 --> 00:33:56,320
und nun im Vorjahr verkündet wurde, hatte ich schon die Hoffnung, dass man da jetzt irgendwas hat und

276
00:33:56,320 --> 00:34:00,640
da gibt es jetzt nur und da kann man sich dann wirklich alles rausziehen, was man für die Enzyklopädie

277
00:34:00,640 --> 00:34:06,680
und vielleicht auch sonstiges braucht und das Wikidata da doch irgendwie so dazwischenstecken

278
00:34:06,680 --> 00:34:12,960
geblieben ist, wo es zur Anwendung für die Enzyklopädie gibt, aber auch nicht so viele.

279
00:34:12,960 --> 00:34:16,320
Das finde ich sehr schade und da wird auch Potenzial vergeben.

280
00:34:16,320 --> 00:34:27,200
Da hake ich jetzt mal ein. Ich bin seit 2014 bei Wikimedia und habe angefangen,

281
00:34:27,200 --> 00:34:32,080
Wikidata zu programmieren. Deswegen stecke ich mit dem Kopfdativ drin und habe wahrscheinlich,

282
00:34:32,480 --> 00:34:37,680
mein Blick ist vielleicht ein bisschen verstellt, aber der Vortrag, die letzte vorher jetzt,

283
00:34:37,680 --> 00:34:43,400
irritiert mich ein bisschen, weil, wie ganz am Anfang hier, haben wir gerade vergessen, gesagt hat,

284
00:34:43,400 --> 00:34:49,240
das ist gar nicht das Ziel von Wikidata eigentlich. Ja klar, man kann hingehen und sich Mühe geben,

285
00:34:49,240 --> 00:34:54,040
irgendwie eine Modellierung zu finden, um Wetterdaten, den historischen Verlauf von

286
00:34:54,040 --> 00:34:58,040
Wetterdaten abzubilden, um dann die Wetterdiagramme in den Wikipedia-Artikeln,

287
00:34:58,040 --> 00:35:04,440
wie ein Lua-Code, der sehr kompliziert wird, dann wahrscheinlich zu generieren. Theoretisch

288
00:35:04,440 --> 00:35:10,640
denkbar, aber dafür ist es gar nicht gedacht. Wikidata hat verschiedene Zwecke. Einer ist,

289
00:35:10,640 --> 00:35:19,080
in Centrala Hub, im Netzwerk von Open Data und auf die Quelle, wo die Wetterdaten herkommen,

290
00:35:19,080 --> 00:35:22,880
zu verlinken. Diese Verlinkungen sind vielleicht noch nicht gut genug. Vielleicht gibt es noch

291
00:35:22,880 --> 00:35:26,440
zu wenig Standards. Vielleicht sind die, das ist das, was man da dort findet, nur ein paar

292
00:35:26,440 --> 00:35:31,640
bescheuerte PDFs, wie Open Data, bedeutet ja leider heutzutage, oft hast du einen PDF,

293
00:35:31,640 --> 00:35:37,880
kümmer dich. Ist ja leider so. Aber Wikidata wird das nicht lösen können und wird auch nicht die

294
00:35:37,880 --> 00:35:42,120
Datenmüllhalde für jeden Kram sein, den man vielleicht brauchen könnte. Das wird nicht

295
00:35:42,120 --> 00:35:47,960
funktionieren. Wer pflegt das denn dann? Dann hat man alles doppelt in der Original-Datenbank und

296
00:35:47,960 --> 00:35:54,600
in Wikidata nochmal. Das kann nicht funktionieren. Und auch wenn man jetzt in Wikidata reinschaut,

297
00:35:54,600 --> 00:35:58,600
sieht man, dass die Art von Daten, die du jetzt demonstriert hast, die man in R

298
00:35:58,600 --> 00:36:04,680
verrechnen kann, das macht nur ein paar Prozent der Daten aus in Wikidata. Das allermeiste sind

299
00:36:04,680 --> 00:36:10,560
andere Daten. Verknüpfungen zwischen Konzepten, Menschen, wo sie geboren sind, das kann man nicht

300
00:36:10,560 --> 00:36:19,560
verrechnen mit R. Also was ist eigentlich die Frage, die du hier in den Raum stellst? Ich habe die

301
00:36:19,560 --> 00:36:24,040
ehrlich gesagt nicht ganz verstanden. Wikidata ist offensichtlich nicht die Lösung. Aber was

302
00:36:24,040 --> 00:36:30,800
ist eigentlich die Frage? Die Frage war vielmehr eine Beobachtung, nämlich dass ich im Rahmen eines

303
00:36:30,800 --> 00:36:34,640
Volksgesellschaftslehrstudiums, das ja zu weitenteilender Statistik besteht,

304
00:36:34,640 --> 00:36:41,760
etwa noch mal festgestellt habe, dass weder ich noch Kompletonen noch Lehrende eine

305
00:36:41,760 --> 00:36:48,840
Anwendungsmöglichkeit von Wikidata gefunden haben. Das ist eigentlich schade, weil wir da

306
00:36:48,840 --> 00:36:57,000
auch eine gewisse Einstiegsmöglichkeit in Open Source und Open Science verstehen, würde ich jetzt sagen.

307
00:36:57,000 --> 00:37:13,880
Vielleicht noch zwei Hinweise. Die erste Frage ist, welche Programmiersprachen Wikifunctions haben

308
00:37:13,880 --> 00:37:20,520
könnten. Beispiele waren zumindest für die Programmiersprache Palchen und ich gehe mal davon aus,

309
00:37:20,520 --> 00:37:26,640
dass es prinzipiell auch möglich wäre, was anderes zu integrieren. Aber weil ich es vorhin schon sagte,

310
00:37:26,640 --> 00:37:32,800
es gibt unterschiedliche Datenbanken für unterschiedliche Zwecke und für das reine

311
00:37:32,800 --> 00:37:41,400
Abspeichern von Tabellen ist Wikidata so ziemlich das ungeeignete Werkzeug, was man dazu einsetzen kann.

312
00:37:42,080 --> 00:37:47,480
Ich habe auch schon gesagt, dass man das schon längst in der Wikimedia-Community erkannt hat und

313
00:37:47,480 --> 00:37:54,520
deswegen Tabellendaten natürlich nicht in Wikisource speichert, sondern in Wikimedia Commons.

314
00:37:54,520 --> 00:38:02,760
Da sind extra Tabellenfunktionen dafür eingeführt worden und da gehören die Daten auch hin. Und

315
00:38:02,760 --> 00:38:08,040
wenn man die so nehme, dann würden sich wahrscheinlich viele Probleme oder Fragen,

316
00:38:08,040 --> 00:38:17,000
die du gestellt hast, in Luft auflösen. Das ist ein guter Punkt. Natürlich Wikisource mit einem

317
00:38:17,000 --> 00:38:22,520
CSV zum Nahtfall ist möglich. Da fehlt auch die Oberfläche für eine explorative Betrachtung der

318
00:38:22,520 --> 00:38:28,200
Daten. Das gleich ein wichtiger Faktor, dass man den Einstieg in die World Bank Database wesentlich

319
00:38:28,200 --> 00:38:32,840
einfacher macht. Die Oberfläche ist letztlich auch einer der Punkte an Wikidata, der relativ

320
00:38:32,920 --> 00:38:36,360
gut gelungen ist. Da gibt es auch nicht so viele Sachen.

321
00:38:36,360 --> 00:38:58,520
Eine Frage, kommst du jetzt von der Seite auf Wikipedia oder Wikidata? Weil du gesagt hast,

322
00:38:58,520 --> 00:39:03,480
du wirst es jetzt aus deinem Studium nicht, wofür man es benutzen kann. In Wikidata gibt es den

323
00:39:03,480 --> 00:39:12,920
Query Editor, den du vorhin gezeigt hast. Und da sind nur ein paar Beispiele. Die sind zwar nur

324
00:39:12,920 --> 00:39:21,800
spielerisch, aber da sind ein paar Beispiele aufgezählt, wozu man es nutzen kann. Das hat

325
00:39:21,800 --> 00:39:26,360
nichts mit dem Studium zu tun oder hat vielleicht nichts mit der Wirtschaft zu tun. Aber er zeigt

326
00:39:26,440 --> 00:39:36,280
mir alle Bürgermeister, die im Jahr 2012 aktiv waren. Ich kann jetzt nicht auswendig,

327
00:39:36,280 --> 00:39:40,360
aber da sind ein paar schöne Beispiele. Wenn man sich die mal anguckt, dann findet man für sich

328
00:39:40,360 --> 00:39:47,800
auch eigene Beispiele, die dafür Verwendung finden. Das ist sicherlich ein Punkt. Wikidata hat

329
00:39:47,800 --> 00:39:52,760
strukturierte Daten wie Wer ist Bürgermeister von dieser Stadt und dieser Stadt. Wenn es jetzt

330
00:39:52,760 --> 00:39:59,320
zum Beispiel um Zeitrein geht, da habe ich wirklich wenig gefunden, dass man da in irgendeiner Weise

331
00:39:59,320 --> 00:40:04,280
verwenden könnte. Beispiele waren Europäische Länder wie Frankreich, Datmen, HDI und BIP,

332
00:40:04,280 --> 00:40:11,800
aber sonst auch nicht wirklich etwas. Der Sinn von Datenbanken ist, dass sie mit Inhalten gefüllt

333
00:40:11,800 --> 00:40:20,360
sein sollten. Wenn man aus meiner Perspektive da reingeht, dann finde ich da irgendwie wenig,

334
00:40:20,440 --> 00:40:28,120
dass ich mit Wikidata machen könnte. Das ist schade, weil es eine große Open Source Datenbank

335
00:40:28,920 --> 00:40:30,120
nicht wirklich gibt.

German subtitles for clip: File:WikiCon 2023 - Wikidata und der Sinn von Datenbanken.webm

Navigation menu

Search