Wie Algorithmen aus 144 Metadaten das Leben der Nutzer rekonstruiert

„Wir konnten anhand der Metadaten jeden von 10.000 Nutzern mit einer Genauigkeit von 96,7 Prozent identifizieren.“ So steht es in der Studie „You are your Metadata“, die das Forschertrio Beatrice Perez, Mirco Musolesi und Gianluca Stringhini vom University College London und dem Alan Turing Institut veröffentlicht hat. Die Wissenschaftler wollen mit ihrer Studie mit dem Vorurteil aufräumen, dass Metadaten keine Rückschlüsse auf die Nutzer erlauben würden – dafür haben sie sich den Kurznachrichtendienst mit Sitz in San Francisco ausgeguckt. Demnach übermittelt ein jeder Nutzer mit jedem Tweet, den er in die digitale Welt entsendet, automatisch 144 Datenfelder, die einen einwandfrei und von einem auf Algorithmen basierenden maschinellen System mit Leichtigkeit identifizierbar machen. Unter diese Metadaten fallen Informationen wie Account-Name, Zeit und Ort des Inhalts, favorisierte Accounts, Follower, Links, Hashtags und viele weitere.

„Leute glauben, das sei keine große Sache“

Die Informationsdichte ist jedenfalls derart hoch, dass drei verschiedene auf maschinellem Lernen basierende Systeme, die Identität der Nutzer ermitteln konnten. Das beste schaffte es auf 96,7 Prozent Genauigkeit. Trainiert wurden die drei Systeme mit Tweets aus einem finalen Datensatz von rund 5,4 Millionen Nutzern. Dass in der Arbeit durchweg von 140-Zeichen-Tweets die Rede ist, liegt übrigens nicht an der Uninformiertheit der Forscher, sondern schlicht am Zeitpunkt der Untersuchung. Denn die Daten haben die drei zwischen Oktober 2015 und Januar 2016 gesammelt, also bevor das US-Unternehmen die Zeichenbegrenzung im November 2017 auf 280 hochgesetzt hat.

Gegenüber dem Online-Portal Wired UK sagte die beteiligte Wissenschaftlerin Beatrice Perez, Leute würden fälschlicherweise annehmen, dass Online-Daten keine Rückschlüsse auf die Identität zuließen. Dabei kann ein Durchschnittsnutzer mit Leichtigkeit über die vermittelten Metadaten ausgemacht werden. Die Krux dabei: Kein vernünftiger Mensch würde einem Fremden auf der Straße verraten, wo er wohnt. Womöglich würde er ihm aber auf Nachfrage mitteilen, wann in seinem Schlafzimmer das Licht ein- und ausgeschaltet wird. Und das sei die Mentalität im Umgang mit Metadaten, so Perez. „Die Leute glauben, das sei keine große Sache. Aber sobald ich diese Information mit den Meta-Informationen koppele, weiß ich genau, wann du zu Hause bist.“

Die verblüffende Erkenntnis der Studie: Selbst wenn die Forscher versuchsweise einzelne Datenfelder leer ließen, um es dem System schwerer zu machen, gelang dies nur bedingt. So mischten sie 60 Prozent der Metadaten einfach durch und das System schaffte es dennoch, die Identität der Versuchspersonen mit 95-prozentiger Genauigkeit herauszufinden. „After perturbing 60% of the training data, it is possible to classify users with an accuracy greater than 95%“, heißt es dazu wörtlich im Fazit der Studie. Verschleierungsmethoden seien deshalb ineffektiv, ebenso wie die Anonymisierung von Datensätzen, wie Perez betont.

Die Urheber der Studie schreiben, dass es ihnen nicht um Twitter im Speziellen geht, denn die genutzte Methode könne genauso auf andere Plattformen wie Facebook, Flickr & Co angewandt werden. Ziel sei es, das Bewusstsein für den Datenschutz und dem damit verbundenen Risiko in Zusammenhang mit Metadaten zu erhöhen. Es handle sich wegen der steigenden Anzahl offen zugänglicher Datensätze und Metadaten sowie der Popularität der sozialen Netzwerke samt deren Schnittstellen (APIs) um ein drängendes Problem, so der Schlussappell.

Algorithmus / Datenanalyse / Maschinelles Lernen / Twitter