Big Data (Bild: DARPA (Defense Advanced Research Projects Agency) [Public domain], via Wikimedia Commons)

Anonymität in einer Welt mit Big Data ist unmöglich

Die Anonymität, die uns Statistiker und Computerwissenschaftler im Bezug auf Big Data immer wieder versprechen, ist gar nicht möglich. // von Daniel Kuhn

Big Data (Bild: DARPA (Defense Advanced Research Projects Agency) [Public domain], via Wikimedia Commons)

Big Data ist eines der aktuellen Buzzwords. Jeder nutzt es, oftmals ohne es wirklich zu begreifen – kein Wunder, bei der Komplexität des Themas. Also ist die Meinung von Experten gefragt. Diese versprechen uns immer wieder, dass Big Data, wie für Studien und Statistiken genutzt wird, anonym ist. Doch diese Anonymisierungsprozesse sind nicht unumkehrbar und so lassen sich einzelne Personen aus den großen Datensätzen heraus identifizieren.


Warum ist das wichtig? Wenn einzelne Personen doch aus der angeblichen Anonymität von Big Data heraus identifiziert werden können, kann dies für das Individuum schwerwiegende Folgen haben.

  • Große Datenmengen werden durch bestimmte Prozesse anonymisiert, bevor die Daten weiterverarbeitet werden.
  • Diese Anonymisierungsprozesse sind allerdings fehleranfällig und nicht so sicher, wie Experten immer behaupten.
  • Zwar ist es nicht einfach, aus einem gut anonymisierten Datensatz einzelne Personen heraus zu identifizieren, aber es ist auch nicht unmöglich.

Datensammlung

Es ist üblich für Statistiker und Computerwissenschaftler, sensible Daten wie Krankenakten oder Einkaufshistorien in großen Mengen für Studien und Statistiken anzuhäufen um diese dann auszuwerten. Zuvor werden diese Datenmengen aber durch einen De-Identifikationsprozess gejagt um die Daten zu anonymisieren um den Datenschutzbestimmungen zu entsprechen und die Persönlichkeitsrechte des Einzelnen zu wahren. Soweit die Theorie zur bisher gängigen Praxis – wie sich nun allerdings herausstellt, scheinen diese de-identifizierten Daten doch nicht so anonym zu sein, wie jeder glaubt.

Dies zumindest behauptet Arvind Narayanan, ein Computerwissenschaftler an der Princeton Universität. Bereits 2006 hat Narayanan für Schlagzeilen gesorgt, als er an einer Veröffentlichung mitgearbeitet hat, die zeigte, dass Netflix-Nutzer in den USA samt ihrer gesamten Ausleihhistorie identifiziert werden können, indem man die angebliche anonymen Netflix-Bewertungen der IMDB kreuzreferenziert. Zusammen mit Princeton Professor Edward Felten hat Narayanan nun zu einem weiteren Schlag ausgeholt. In einer weiteren Veröffentlichung behaupten sie, dass die De-Identifikation nicht funktionieren kann, weder in der Theorie, noch in der Praxis, und alle die dies behaupten ein falsches Gefühl der Sicherheit verbreiten.


Podcast des Innovation Hub mit dem Titel „Our Big Data Future: the Good, the Bad, and the Ugly“:


Better safe than sorry

Diese drastische Behauptung wird von den beiden natürlich auch mit Argumenten untermauert. Zum einen sind personenbezogene Ortsdaten niemals wirklich anonym. Eine Studie zeigte 2013, dass nur vier Punkte, wie etwa Check-Ins oder geteilte Fotos die in den Metadaten die Geo-Location enthalten, ausreichen, um aus einer großen Menge von Smartphone-Daten, 95 Prozent aller Individuen zu identifizieren. Selbst eingefleischte Anhänger der De-Identifikation mussten darauf eingestehen, dass es keine verlässliche Methode gibt, Location-Daten zu anonymisieren.

Außerdem können Experten nach wie vor nicht genau einschätzen, wie empfindlich Daten sind. Im Fall einer Studie des penibel anonymisierten Heritage-Health-Prize-Datensatzes, der Krankenakten von 113.000 Patienten umfasst, war De-Identifikationsexperte Khaled El Emam, Professor an der University of Ottawa der Meinung, dass weniger als 1 Prozent der Patienten re-identifiziert werden können. Die Schätzung von Narayanan fällt dagegen mit über 12 Prozent deutlich höher aus. Seiner Meinung nach könnte es um ein Zehnfaches einfacher sein, ein Individuum aus dem Datensatz herauszufischen, wenn man zudem noch zusätzliche spezifische Informationen besitzt.

Außerdem ist das De-Identifizieren von Daten schwierig und fehleranfällig. In einem Datensatz mit 173 Millionen Taxifahrten in New York, konnten nicht nur die individuellen Taxis, sondern auch ihre Fahrer identifiziert werden, weil das eingesetzte Hashing (eine mathematische Funktion zum Verdecken von Nummern) der Nummernschilder schlampig umgesetzt war.


Khaled El Emam diskutiert mit Roger Magoulas über die Anonymisierung von Gesundheitsdaten:


Fehler mit schwerwiegenden Folgen

Wenn ein Datenleck ein Unternehmen trifft, sind die Folgen zwar unangenehm, lassen sich aber meist wieder beseitigen. Üblicherweise reicht es, das Leck zu flicken, die Kunden zu benachrichtigen und zu warten, bis Gras über die Sache gewachsen ist. Deutlich schwerwiegender können die Folgen allerdings sein, wenn die Anonymität einer Person kompromittiert wurde.

Aber müssen wir nun unsere Smartphones zerstören, unsere Krankenversicherung kündigen und in die Wildnis ziehen? Nicht wenn es nach El Emam geht, der darauf hinweist, dass Narayanan nicht einen einzigen Patienten aus dem Heitage-Health-Prize-Datensatz tatsächlich identifiziert hat. Dies sieht El Emam als deutlichen Beweis, dass die De-Identifikation, wenn sie richtig angewandt wird, sicher ist. Doch letztendlich heißt das nur, dass wenn die Anonymität von Big Data bisher noch nicht gebrochen werden kann, dass sie generell undurchdringlich ist.


Teaser & Image by Defense Advanced Research Projects Agency (Public Domain)


Schlagwörter: , , , , , ,
Daniel Kuhn

Daniel Kuhn

ist Wahl-Berliner mit Leib und Seele und arbeitet von dort aus seit 2010 als Tech-Redakteur. Anfangs noch vollkommen Googles Android OS verfallen, geht der Quereinsteiger und notorische Autodidakt immer stärker den Fragen nach, was wir mit den schicken Mobile-Geräten warum anstellen und wie sicher unsere Daten eigentlich sind.

More Posts - Website - Twitter - Facebook - Google Plus