Durch das Auge der Daten

Viele unserer digitalen Aktivitäten produzieren Daten, die gesammelt und ausgewertet werden. Wir werden durch Daten sichtbar, sie zeichnen ein Bild von uns. Wie kommt dieses Bild zustande?
In diesem Workshop generieren wir einen Datensatz aus unseren eigenen Fotos auf unseren Mobilgeräten. Wir lernen dabei, wie aus Dateien Daten werden, wie diese Auskunft über uns geben und was die Grenzen dieser automatisierten Interpretation sind.
Sehen Maschinen durch Daten dasselbe wie wir?

Wenn wir digital kommunizieren und digitale Artefakte (Fotos, Videos, Suchverläufe, E-Mails etc.) herstellen, werden neben den Daten dieser Artefakte und Kommunikation immer auch weitere Daten produziert, sogenannte Metadaten. Diese “Daten über Daten” werden aufgezeichnet und ausgewertet. Z. B. kann man mit Smartwatches den eigenen Puls und Bewegungen tracken. Aus diesen Informationen wird dann ein Gesundheitsprofil erstellt, das immer auf dem neuesten Stand ist und uns helfen soll, auf unsere Gesundheit zu achten. Dieselben Daten sind aber auch für andere interessant, z. B. für Krankenversicherungen, die damit das Krankheitsrisiko ihrer Versicherten abschätzen wollen. In der EU ist der Handel von Gesundheitsdaten zwar verboten, aber es gibt immer wieder Leaks, durch die sensible Daten in Umlauf kommen. Das Geschäft mit Daten und Metadaten nennt man die Datenwirtschaft.

In diesen kontinuierlich fließenden, von uns kaum zu beeinflussenden, Datenströmen wird über Daten ein Bild von uns gezeichnet, das wir nie zu sehen bekommen: wir werden durch Daten sichtbar.

Der Künstler Simon Weckert hat 2007 ein Wägelchen voller Smartphones (99 Stück) langsam eine Berliner Straße entlang gezogen. Google Maps hat die Bewegung dieser Smartphones registriert – und als Stau interpretiert. Die Straße wurde darum auf Google Maps als Stau markiert, was wiederum den Verkehr auf die umliegenden Straßen umleitete. (Video)

Simon Weckert: Google Maps Hack (2007)

Dieses Beispiel zeigt, wie Daten funktionieren: sie bilden zwar etwas ab, aber sie stehen nicht für die Realität. Und dieser Zwischenraum ist wichtig, denn in ihm lebt sowohl der Witz von Simon Weckert, als auch die politische Dimension von Daten.

A1 – Mein Datensatz (30 Min)

Material:

  • Persönliche Smartphones / mobile Endgeräte der Teilnehmenden
  • Arbeitsblatt ausgedruckt pro Teilnehmer*in
  • Schreibzeug

Arbeitsauftrag:

Datensätze erstellen (individuell):

Datensätze sind die Basis der Datenauswertung. Nur was erfasst wurde, kann für eine Auswertung benutzt werden.
Wir erstellen einen Datensatz auf der Basis der Fotografien auf eurem Smartphone.

Vorgehen:

Die Teilnehmenden schauen sich auf ihrem persönlichen Smartphone ihre letzten 30 Fotos an, die in der Galerie gespeichert sind.

  • Verwende das Arbeitsblatt und erfasse, wie viele Fotos du an welchem Tag in der letzten Zeit gemacht hast, bis du die Gesamtzahl von 30 Fotos erreicht hast.
  • Trage jeden Tag mit Datum auf dem Arbeitsblatt ein (linke Spalte), auch diejenigen, an denen du nicht fotografierst hast.
  • Male neben dem Datum zur Visualisierung einen horizontalen Balken (pro Bild 1 Kästchen).

Regeln:

  • Wir nehmen in dieser Aufgabe einen technischen Blickpunkt ein: Wir wollen einfach eine Aufzeichnung von dem haben, was in letzter Zeit auf unseren Geräten passiert ist.
  • Also: keine Auswahl machen, keine Fotos unterschlagen.
  • Es ist egal, was auf den Fotos zu sehen ist. (Niemand wird sie zeigen müssen und die Arbeitsblätter sind ebenfalls anonymisiert).

Datensätze auswerten (Plenum)

Danach werden alle analogen Datensätze der Teilnehmenden nebeneinandergelegt. Wir haben jetzt ein “big data” Dataset von [Anz. TN] Quellen mit je 30 Datenpunkten. Wir haben diese individuell aufgezeichnet, und werten diese nun als Gruppe aus.
Daten werden immer statistisch ausgewertet. Darum interessieren uns jetzt nicht die Fotos, sondern nur die Statistik über die Fotos.
Bei der Auswertung geht es darum, Muster in der Gesamtheit der Datensätze zu erkennen.

  • Legt alle Arbeitsblätter nebeneinander, so dass ihr sie alle sehen könnt.
  • Vergleicht: welche sind sich ähnlich? Inwiefern?
  • Bildet Gruppen von ähnlichen Datensätzen.
  • Versucht, diesen Gruppen einen Namen zu geben: z.B. “Vielfotografierer*in” für die Gruppe, welche 30 Fotos in wenigen Tagen zusammen hat.
  • Schreibt individuell die Kategorie, in die ihr eingeteilt worden seid, ins Feld “Auswertung > Muster”

Diskussion (Plenum):

  • Überlegt: Passt die Kategorie zu euch? Wenn nicht: warum nicht?
  • Wo seid ihr schon Kategorien begegnet, in die ihr eingeteilt wurden? Online, aber gibt es solche Kategorien auch offline?
  • Diskutiert: von wem wird Kategorisierung benutzt, und wozu?

A2: Profiling (30 Min)

Das Erstellen von Profilen ist eine weitere Methode, wie Unternehmen und Institutionen versuchen uns durch das Sammeln und Auswerten von Daten zu beschreiben.
Profile werden erstellt, um uns interessante Dinge vorzuschlagen, z.B. von Suchmaschinen, Plattformen wie Spotify und Netflix, und natürlich auch von Social Media.
Wie geht dies genau? Wir probieren das aus.
Wir machen ein Profil von uns auf der Basis der 30 letzten Fotos.

Material:

  • Persönliche Smartphones / mobile Endgeräte der Teilnehmenden
  • Ausgefülltes Datenblatt aus A1
  • kleine Post-its in 5 verschiedenen Farben
  • Schreibsachen und Schere

Arbeitsauftrag (individuell):

Geht noch einmal alle eure Fotos auf euren Smartphones durch, die ihr für Aufgabe 1 benutzt habt, und ordnet diese in 5 Gruppen beziehungsweise Kategorien ein. Die Gruppen könnt ihr selbst bestimmen. Es können inhaltliche Gruppen (z.B. “Freunde”, “Ausflug”, “Schule”), aber auch formale Gruppen sein (“Selfie”, “Notiz”), oder sich an etwas orientieren, das euch wichtig ist.

Regeln:

  • Es dürfen maximal fünf Kategorien sein.
  • Jedes Foto muss mindestens einer Kategorie zugeordnet sein (es darf auch zu mehreren Kategorien gehören).

Vorgehen:

  • Geh deine 30 Fotos durch und teile sie in Gruppen ein.
  • Gib den Gruppen einen Namen, schreibe sie auf einen Notizblock.
  • Wenn du mehr als 5 Gruppen hast, lege ähnliche Gruppen zusammen und finde dafür wiederum einen Namen, bis du nur noch 5 Gruppen hast.
  • Wähle für jede Gruppe eine Post-it-Farbe.
  • Schreibe für jede Gruppe den Namen und die Anzahl Fotos auf ein Post-it (z.B.: “Kunst (7)”. Du kannst auch Hashtags dafür verwenden, wie man das auf Social Media mit Kategorisierungen macht (“#Kunst (7)”).
  • Klebe die Post-its zu den jeweiligen Tagen auf das Arbeitsblatt.

Zusammentragen

  • Übertrage die 5 Kategorien in den Bereich “Bild Kategorien” unten im Arbeitsblatt.
  • Addiere alle dieser Kategorie zugeordneten Bilder und übertrage das Total ins Feld unter der Kategorie.

Du siehst jetzt, welche Kategorien in deinem Datensatz am meisten vorkommen.
Vielleicht hast du eine Kategorie, die du auch noch gerne verwendet hättest, aber die es doch nicht unter die ersten 5 geschafft hat? Trage diese ebenfalls noch ein.

Auswertung:

  • Überlege, wie du eine Person beschreiben würdest, die du dir unter den Stichworten deiner Kategorien vorstellst.
    B. wenn deine meistgenutzten Kategorien “Freunde”, “Sport” und “Graffiti” sind, könnte man daraus schließen, dass diese Person sozial und sportlich ist und in einem städtischen Raum lebt. Wichtig: es geht nicht darum, dass die Interpretation wahr ist, es geht nur darum, dass sie wahrscheinlich ist.
  • Schreibe diese Charakterisierungen ins Feld “Auswertung > Profil”.

Diskussion im Plenum:

  • Was waren eure Erfahrungen mit den Kategorien? Was war schwierig, was einfach?
  • Fühlt ihr euch gut beschrieben? Wenn ja, was passt? Wenn nein, warum passt das nicht?
  • Wie ist das mit den Kategorien von Plattformen, die für Empfehlungen verwendet werden: findet ihr die Empfehlungen, die ihr auf digitalen Plattformen bekommt, hilfreich und passend?

A3: Abschluss (15 Min)

Zum Abschluss noch eine künstlerische Arbeit, die das ganze Thema nochmal umdreht, und Daten auf eine berührende und menschliche Art “auswertet”:

Material:

  • Projektor oder Screen um ein Video zu zeigen, mit Tonausgabe.
  • Internetverbindung (oder das Video vorher lokal herunterladen).

Bild: Eva & Franco Mattes: Hannah Uncut (2021)

Eva & Franco Mattes: Hannah Uncut (2021)
#Data, #Mobile, #Photography
Das Künstler*innen-Duo hat ein Mobiltelefon einer Privatperson gekauft, um die darauf vorhandenen Fotos zu nutzen. Sie haben damit ein Video-Portrait in Form einer Slideshow mit Musik gestaltet. Dabei haben sie keine Fotos verändert oder gelöscht, sondern nur die Anzeigedauer variiert. (Video-Auszug)

Diskussion (Plenum):

  • Wer ist Hannah? Was können wir über sie wissen, nach diesem kleinen Ausschnitt? Warum wissen wir das?
  • Wie unterscheidet sich diese Interpretation von der Art, wie wir sie mit unserer Datenauswertung gemacht haben?
  • Sehen Maschinen durch Daten dasselbe wie wir?

Der Workshop besteht aus zwei praktischen Teilen mit jeweils rund 30 Min. Dauer und einem Abschlussteil, der die Themen nochmal zusammenfasst und zurückführt auf die Ausgangslage. Jeder Teil beinhaltet eine kurze Reflektion und Diskussion im Plenum.
Hier folgen genauere Informationen zur Führung des Ablaufes und zur Leitung der Diskussionen.

Einführung

Als Einführung kann das Video “Google Street Map Hack” des Berliner Künstler Simon Weckert gezeigt werden.
Diese Arbeit zeigt exemplarisch, wie Daten funktionieren: sie bilden zwar etwas ab, aber sie stehen nicht für die Realität.

Dieser Workshop will diesen Zwischenraum erkunden. Wie wird aus Daten Bedeutung? Und was passiert in diesem Schritt alles, was geht unter, vergessen, wird nicht mitgenommen? Wo liegt der Unterschied zwischen den Begriffen „Daten“ und „Informationen“?
In diesem Workshop werden wir ein eigenes kleines Datenset erstellen und untersuchen, was dieses Datenset für Rückschlüsse über uns erlaubt. Genauso werden wir aber auch untersuchen, wo die Grenzen sind, und welche Probleme sich sowohl in den Rückschlüssen, als auch in den blinden Flecken der Datenerfassung verstecken.

Input: Daten und Metadaten (5 Min)

Als erstes ist es wichtig, zwischen verschiedenen Arten von Daten zu unterscheiden

 


Daten: Das können Dateien auf unseren Geräten sein, z.B. Fotos, aber auch Mitteilungen in SMS oder Messenger, Posts auf Social Media. Daten sind der Inhalt dieser Dinge: also die Bildinformation des Fotos, die Buchstabenfolge der Nachricht.

Metadaten hingegen sind Daten über Daten: z.B. der Zeitpunkt der Aufnahme des Fotos, der Zeitpunkt des Verschickens der SMS, die Länge des Telefonats, der Adressat der Nachricht. Metadaten entstehen über den Kontext der Handlung, sie sind nicht die Handlung selbst. Und: Metadaten können wir sehr viel weniger kontrollieren als Daten. Je nach Gerät, System und verwendeten Programmen werden unterschiedliche Metadaten aufgezeichnet und mitgespeichert. Beim Versenden einer Datei werden diese Metadaten immer mitgeschickt. Das heißt, wenn man ein Foto auf einer App teilt, dann hat diese App Zugriff auf alle Metatdaten. Im Bild z. B. weiß die App jetzt, welches Mobiltelefon ich verwende (Samsung SM-A5260).
Große Teile der Datenwirtschaft operieren mit Metadaten, die aufgezeichnet, in sogenannten Datasets gespeichert, vereinheitlicht, angereichert und ausgewertet werden.

A1 – mein Datensatz

Im ersten Teil des Workshops sammeln wir exemplarisch Metadaten und erstellen daraus einen Datensatz.
Jede*r Teilnehmer*in erstellt einen sehr kleinen Datensatz über die letzten 30 Fotos, die in seiner*ihrer Smartphone-Galerie gespeichert sind (Falls nicht alle Teilnehmenden Smartphones besitzen oder jemand nicht mit den eigenen Daten arbeiten möchte, kann die Workshop-Leitung auch im Voraus Beispieldatensätze erstellen, mit denen anstelle gearbeitet werden kann).
Anschließend werden diese individuellen Datensätze zu einem “big data” Datensatz zusammengeführt und ausgewertet.

Beispiele der Auswertung:

Beispiel A:
Muster: Es gibt zwei Gruppen von Datensätzen: die eine Gruppe hat 30 Fotos in 3 oder wenigen Tagen gemacht, die andere Gruppe hat wenig Fotos über viele Tage verteilt. Die meisten sind in der ersten Gruppe.
Schluss: User*innen lassen sich in 2 Kategorien einteilen:
1) Viel-Fotografierer*innen
2) Gelegenheitsfotografierer*innen
Ein*e durschnittliche User*in ist ein Vielfotografierer*in.

Beispiel B:
Muster: Es gibt eine Häufung von Fotografien an Wochenenden.
Interpretation: Menschen haben an den Wochenenden frei. Sie verbringen ihre Zeit mit Familie und Freund*innen, und fotografieren diese Aktivitäten.
Schluss: Auf den Fotos sind Familie und Freunde, das soziale Umfeld der Fotografierenden zu sehen.
Kategorien:
1) Soziale Fotografierer*innen
2) allgemeine Fotografierer*innen

Diskussion / Auswertung im Plenum (15 Min)

  • Überlegt: passt die Kategorie auf euch? Wenn nicht: warum nicht?
    Es ist wahrscheinlich, dass Teilnehmer*innen bemerken, dass diese Auswahl von Fotos nicht repräsentativ ist für ihr allgemeines Verhalten. Z. B. war gerade ein spezieller Event mit sehr vielen Fotos, ansonsten fühlen sie sich aber eher als Gelegenheitsfotografierer*innen. Das Problem ist in dem Fall, dass der Datensatz zu klein ist, um wirklich aufschlussreich zu sein.
  • Wo seid ihr schon Kategorien begegnet, in die ihr eingeteilt wurden? Online, aber gibt es solche Kategorien auch offline?
    Online werden diese Kategorien v.a. dazu verwendet, um Inhalte auszuwählen und anzuzeigen, z.B. für Werbung.
  • Diskutiert: von wem wird Kategorisierung benutzt, und wozu?
    Kategorisierung wird immer zum Zweck von automatisierbarer Einteilung verwendet: Online-Werbung, aber auch die Abschätzung von Kaufkraft, Interessen, Gesundheit und so weiter. Für weitere Infos siehe Kapitel Weiterführendes.

A2 – Profiling

Im ersten Teil ging es um eine vergleichende Auswertung der individuellen Datensätze im Vergleich zu einer Gruppe. Dagegen geht es im zweiten Teil um die Interpretation der Daten innerhalb eines einzelnen Datensatzes. Profiling ist eine Art automatischer Charakterisierung durch die Interpretation einzelner Datensätze.

Diskussion im Plenum:

  • Was waren eure Erfahrungen mit den Kategorien? Was war schwierig, was einfach?
    Kategorisierung ist nie einfach: Was sind gute Kategorien?

In der Diskussion sollte darauf hingearbeitet werden, dass Kategorien nicht von denen bestimmt werden, welche Daten zur Verfügung stellen, sondern von denen, die Daten nutzen wollen.

Nachfragen: was sind gute Kategorien für

  • Firmen: Alter, Geschlecht, Interessen, Kaufkraft / Einkommen…
  • Politiker*innen: Weltanschauung, politische Einstellung, Staatsbürgerschaft, Alter, Geschlecht, Vermögen…
  • Versicherungen: Gesundheit, Aktivitäten, Risikobereitschaft, Konsumgewohnheiten (rauchen etc.), mentale Gesundheit…
  • Wer könnte weiter noch interessiert sein an persönlichen Daten?
  • Fühlt ihr euch gut beschrieben? Wenn ja, was passt? Wenn nein, warum passt das nicht?
    Hier können Erfahrungen abgefragt werden. Wichtig ist hier, dass sich Gefühle der Unsicherheit artikulieren können. Wir machen viele solche Erfahrungen von Misinterpretation und es ist unangenehm, weil wir uns nicht gesehen fühlen. Oft ist es auch unmöglich zu wissen, was genau der Grund für diese Fehlinterpretation ist, weil die Algorithmen und Kategorien geheim sind.
  • Wie ist das mit den Kategorien von Plattformen, die für Empfehlungen verwendet werden: findet ihr die Empfehlungen, die ihr auf digitalen Plattformen bekommt, hilfreich und passend? Was ist gut und was nervt?
    Beispiele von Plattformen, die Empfehlungsalgorithmen verwenden: Netflix, Spotify, Google Search, alle Social Media Plattformen, YouTube Empfehlungen…

Bekannte Probleme mit diesen Algorithmen sind:

  • Sackgassen (Netflix zeigt irgendwann nur noch sehr ähnliche Filme an)
  • Eskalation (YouTube empfiehlt immer brutalere oder polarisierende Inhalte)
  • Manipulierbarkeit (Google Suche bringt nur noch bezahlte Inhalte)

Abschluss

Zum Abschluss schauen wir ein Video der italienischen Künstler*in Eva und Franco Mattes, in dem sie die Fotos einer jungen Frau als Diashow zeigen. Nach dem Video gehen wir der Frage nach, was wir als Menschen in den Fotos sehen. Wer ist Hannah? Und wie fühlen wir uns von unseren Daten gesehen?

  • Private Mobiltelefone der Teilnehmenden
  • Arbeitsblatt (schwarz-weiß, ausgedruckt pro Person)
  • Lesezeichen-Post-its (z. B. Page Marker oder Index Tabs) in 5 verschiedenen Farben für jede teilnehmende Person
  • Schreibsachen und Schere
  • Projektor (zum Zeigen der künstlerischen Beispiele)

Weitere Kunstwerke

  • Der Künstler zeichnet die Aufnahmen von offenen ungesicherten Kameras im öffentlichen Raum auf und durchsucht Social Media nach Fotos, die mit deren geografischen Standort und Zeitraum der Aufzeichnung übereinstimmen, und schneidet dann den Teil der Aufnahme heraus, der die Entstehung des Fotos dokumentiert.
    Wenn sehr viele Datenquellen verbunden werden, können vielfältige Informationen gewonnen werden.

  • Der Künstler verwendet machine learning- Systeme, um vorherzusagen, wo die nächsten Finanzverbrechen in den USA begangen werden. Dieser Vorgang von automatisierter Vorhersage von Verbrechen ist das Prinzip von „Predictive Policing“ (vorausschauende Polizeiarbeit) – Systemen, die auch von der Stadtpolizei Zürich eingesetzt werden. Die gängigen Systeme erfassen vor allem Kleinkriminalität aufgrund ihrer Häufigkeit und führen oft zu zunehmender Überwachung von bereits benachteiligten Stadtvierteln. Der Künstler kehrt diese Logik mit seiner App um, und mit dem Fokus auf hohe Deliktsummen statt der Menge an Delikten erscheint der Finanzdistrikt in Manhattan als Hochrisikozone – ein völlig ungewohntes Bild.

  • Die Künstlerin fragt, welche Datensätze eigentlich im gesellschaftlichen Leben fehlen. Sie spricht damit an, dass nur bestimmte Daten erhoben werden, und oft der Einfachheit halber einfach alles zur Verfügung Stehende ausgewertet wird, ohne dass nachgefragt wird, was man eigentlich zu welchem Zweck wissen möchte.
    Die Künstlerin legt darum in dieser Arbeit einen Aktenschrank für fehlende Datensätze an: von Gewehrregistrationen bis zu nicht-erfassten Toten durch Umweltkatastrophen. Sie macht dadurch sichtbar, wie viel wir nicht wissen, und wirft damit auch die Frage auf, warum wir das nicht wissen.

  • Die Künstlerin nimmt Fotografien aus ihrem Familienarchiv und stellt sie neben Fotos, die durch den Google-Algorithmus als “ähnlich” klassifiziert wurden. Ursprünglich eine Webseite, ist es nun als Video dokumentiert und zeigt auf sehr poetische Weise die Eigenheiten algorithmischer Bildklassifizierung.

  • FB Demetricator:
    https://bengrosser.com/projects/facebook-demetricator/

    Twitter Demetricator:
    https://bengrosser.com/projects/twitter-demetricator/

    Instagram Demetricator:
    https://bengrosser.com/projects/instagram-demetricator/

    Der Künstler Ben Grosser programmiert kleine Browser-Erweiterungen, welche die Zahlenangaben von Interaktionen wie zum Beispiel Likes ausblenden. Er kritisiert damit das andauernde Zählen und dadurch implizite Bewerten von sozialer Interaktion und den daraus entstehenden psychologische Stress. Wenn alles gezählt wird, wird alles vergleichbar und bekommt dadurch implizit eine Wertung. Der Künstler weiß, dass die Plugins das Zählen selber nicht verhindern, und auch den Algorithmus nicht verändern, aber er möchte die eigene Wahrnehmung schützen: vor der Annahme, dass Posts mit hohen Zahlen wichtiger sind als andere, und vor dem Stress, das eigene Verhalten auf Reaktionen hin optimieren zu müssen.

Weitere Informationen und Materialien

Dokfilm

  • Coded Bias, 2020 (Regie: Shalini Kantayya): Die Wissenschaftlerin Joy Buolamwini findet heraus, dass Gesichtserkennung mit Gesichtern von Schwarzen Menschen nicht umgehen kann und macht sich auf, ein Gesetz gegen algorithmische Diskriminierung zu fordern.

Erweiterung / Nachbearbeitung

Zur Nachbearbeitung kann das DataDetoxKit Youth von Tactical Tech verwendet werden.
Ein Arbeitsbuch zu digitaler Privatsphäre, Sicherheit, Zufriedenheit und Falschinformation speziell für junge Menschen, entwickelt vom Berliner Aktivistenkollektiv Tactical Tech.
Mit diesem Guide können Jugendliche ihre Geräte, Einstellungen und ihr Verhalten selbständig überprüfen und ggf. korrigieren.

Dauer

75-90 min

Zielgruppen

Schüler*innen

Erster Einsatzkontext

Grimme Forschungskongress, AIA (Awareness in Art) Zürich als Teil des Vermittlungsangebotes für Schulen.

Social