Algorithmen über kriminelles Verhalten – Daten sind der neue Ölsand

Als Clive Humby im Jahr 2006 den Satz prägte: "Data is the new Oil", konnte er nicht ahnen, wieviele Berater diese Erkenntnis für sich in Anspruch nehmen würden. Seltsam nur, dass Humby zu einer Zeit Personalisierung propagierte, als Google+ noch nicht einmal in der Planung war. Und so verwundert es auch nicht, dass die Nachplapperer des Satzes, den Kontext, in dem er fiel, nie aufschlüsselten. Angesichts der wundersamen Verkürzung der Problematik auf individualisierte Werbung, wird es Zeit für eine kleine Rundreise durchs Dorf namens Daten und ihre Atome namens Zeichen. Denn uns allen droht etwas Schlimmeres als Empfehlungsalgorithmen zum vielleicht besseren Einkaufen: Empfehlungsalgorithmen über kriminelles Verhalten (INDECT).
Wie Humby schon 2006 publizierte, sind Daten keine Einsichten. Das klingt plausibel. Daten an sich ohne Kontext sind dasselbe wie der Ölsand in den kanadischen Wäldern. Nur unter Einsatz eines enormen technischen Aufwands und unter Anhäufung von viel Müll wird daraus Öl respektive wichtige Bedeutungen. Es braucht also Raffinerien und Vorstufen dazu. Um die kümmert sich leider niemand. Sie werden in pseudomagischen Diskussionen als Algorithmen bezeichnet und damit aus dem Wirkungsbereich der Internetnutzer ausgeschlossen, weil alles eine hochmathematische Angelegenheit ist. Aber darunter gibt es noch etwas viel Grundlegenderes:
In der Zeichenlehre (Semiotik) gibt es eine Unterkategorie namens Sigmatik, die im Kern eine Referenztheorie ist. Denn die Zeichen (Symbole, ikonische Zeichen oder Indices) gelten als Übersetzung eines vorgefundenes Objekts. Die abbildende Beziehung zwischen beiden wird als Referenz bezeichnet. Wir bekommen von dem gesamten zeichentheoretischen Vorgang in vielen Diskussionen nur die Ebene der Semantik mit (semantische Suche). Die Ebene der Pragmatik untersucht jedoch die Verwendung von Zeichen. Und die Strukturebene der Syntax wird zwar genannt, jedoch meistens ganz ausgeblendet. Viele kritische Beiträge zum Thema Nutzerdaten zielen auf das Argument ab, diese Daten seien die neue Währung des nicht mehr ganz neuen öffentlichkeitsproduzierenden Kanals namens Internet.
Nun echauffieren sich Zeitgenossen darüber, dass sie Werbung auf der Grundlage personalisierter Daten bekommen. Die Basis dafür sind Metadaten, die zu den Kontaktdaten ihrer Person abgespeichert werden. Das sind Eigenschaften, wie "verheiratet" oder "Firmengründer". Kredit- und Rabattkarten verbinden die persönlichen Daten mit den gekauften Produkten. Das kenne wir seit Jahrzehnten. Im Internet tut man aber noch mehr als Einkaufen. Und diese Aktivitäten werden gespeichert und analysiert. Da aber die Zuordnung des Zeichens "Hotel" zu einem Ort ungleich dem System bereits bekannten eigenen Wohnort, auf eine Reise schließen läßt, bombardiert das innovative Werbesystem den Kunden nun mit Hotelangeboten - auch und gerade wenn der Kunde dort gerade schon ein Zimmer gebucht hat.
Der Fehler liegt eben darin, dass der Ölsand nicht raffiniert wurde. Es wäre ein Leichtes für ein System eine kluge Mustererkennung vorzunehmen, wenn das Problem der Pragmatik sowie der Sigmatik schon von Informatikern gelöst wäre. Im Moment können sie Sätze erkennen und einigermaßen sinnvoll produzieren (Syntax). Sie können auch Worte und Bedeutungen mithilfe von festen Verbindungen erkennen (Semantik): "Peter" (Vorname) "wohnt" (besitzen einer Adresse) in "Hamburg" (Ort). Und dann schließt das System daraus, dass Hamburg der Wohnort ist. Aber nur, wenn es vorher gefüttert wurde mit Eigenschaften zu Orten, Adressen und Menschen. Ein umfangreiches Unterfangen, dass insgesamt noch rund 2763 Jahre lang dauern dürfte, um die grundlegenden Zusammenhänge unseres komplexen Lebens zu erfassen. Bei Fachthemen wie Biologie oder Chemie klappt das mit den festen Kontexten (Ontologien und Taxonomien) ganz gut. Ironie oder gar Witze würde so ein automatisches System natürlich außer Kraft setzen. Aber: Wie gesagt, an Pragmatik und Sigmatik hat sich noch kein Informatiker getraut. Insofern können sie ruhig Computer mit weit über 4 Milliarden CPUs und sechzehn Terabyte RAM installieren. Sie wühlen noch im Schlamm und suchen den Ölsand.
Aber mit INDECT meinen die Datenspezialisten sogar eine supranationale-wissenschaftliche Basis zu haben, mit der sie weiterhin die beiden wesentlichen theoretischen Ebenen der Zeichenzuordnung ignorieren können. Denn dann haben sie Kameras, die sie mit den Einkaufs- und Surfgewohnheiten der erkannten Individuen abgleichen wollen. Das ist dann in etwa so, wie wenn man sagt, dass man den Ölsand direkt in den Ferrari kippt. Der würde das dann schon irgendwie in seinem Motor trennen können, schließlich ist er ja auf Hochleistungsbenzin ausgelegt. Man verlegt die Raffinerie kurzerhand in den Endverbraucher. Der tiefere Sinn? Sie wollen mit INDECT verstehen lernen, wie diejenigen ticken, die schlechtes Öl auf den Markt schmeißen (Kriminelle).
Wie war noch der Satz über Platons Schule: Gnothi seauton! (Erkenne Dich selbst)
Leider gibt es noch keinen Algorithmus für Selbsterkenntnis, aber mit INDECT sind sie verdammt nahe dran.
Foto: penywise
Über den Autor
Jörg Wittkewitz ist seit 1999 als Freier Autor und Freier Journalist tätig für nationale und internationale Zeitungen und Magazine, Online-Publikationen sowie Radio- und TV-Sender. (Redaktionsleiter Netzpiloten.de von 2009 bis 2012)