All posts under analyse

Tech-Check: 2001: Odyssee im Weltraum

Wer sich mit der Geschichte der Science Fiction beschäftigt, kommt um den Film 2001: Odyssee im Weltraum nicht herum. Wenn auch von der Regie für heutige Standards übermäßig träge, beeindruckt der Blick fürs Detail in der Darstellung auch heute noch. Doch wie präzise war die Darstellung der damaligen Raumfahrt-Technologie? Welche Zukunftsvisionen hatten Regisseur Stanley Kubrick und Drehbuch Co-Autor Arthur C. Clarke und wie halten sie der heutigen Realität stand? Unser Tech-Check nimmt den Klassiker aus dem Jahr 1968 unter die Lupe.

Die Stille des Weltraums

Was die Geräuschkulisse angeht, ist der mittlerweile schon 50 Jahre alte Film vielen modernen Produktionen voraus. Einer der größten Kritikpunkte von Science Fiction-Produktionen ist das Ignorieren der Stille im Weltall. Der soundverwöhnte Kinogänger kennt es fast schon nicht anders, als dass bassiges Brummen die Bewegung gigantischer Raumschiffe untermalt. Doch im All gibt es keinen Schall oder zumindest nicht für uns wahrnehmbar. Odyssee im Weltraum ist einer der wenigen Filme, die dieser Stille gerecht werden und es sogar als Stilmittel verwenden.

Dazu muss man sagen, dass der Film langsam, wenn nicht gar regelrecht träge ist. Mechanische Funktionen werden in aller Genauigkeit gezeigt, lange und statische Einstellungen sorgen für ein Gefühl von Einsamkeit in den Weiten des Weltalls. Überhaupt sind im 143 Minuten langen Epos nur etwa 40 Minuten mit Dialog gefüllt. Am Anfang und dann nochmal in einer Intermission wird der Zuschauer sogar mit einem Schwarzen Bildschirm und Orchesteruntermalung „allein gelassen“.

Um die Schwerelosigkeit möglichst realistisch darzustellen, ließ Kubrick übrigens für 750.000 US-Dollar eine zwölf Meter hohe Zentrifuge bauen.

HAL 9000: Sinnbild für Künstliche Intelligenz

Einer der wichtigsten Figuren auf der Discovery One ist die künstliche Intelligenz HAL 9000. Aufgrund einer möglichen Fehlanalyse, beratschlagt die Besatzung, HAL 9000 abzuschalten. HAL 9000 liest diesen Plan von den Lippen der Astronauten David Bowman und Frank Poole ab. Um sich selbst zu retten und seinen Auftrag zu beenden, beschließt die KI, die Besatzung des Raumschiffes zu töten. HALs Fähigkeit zu fühlen wird spätestens deutlich, als er am Ende doch noch abgeschaltet werden kann. Während des Abschaltungsvorgangs gesteht HAL, dass er Angst hat. HAL entwickelt sich nach und nach zurück in den Zustand seiner „Kindheit“. Zum Schluss singt er noch das Lied „Daisy Bell“, dass ihm sein Schöpfer beigebracht hat. Dabei handelt es sich um eine Hommage an den IBM 704 Computer, der 1962 als erster Computer ein Lied sang – Daisy Bell.

Der Supercomputer HAL 9000 war eine der ersten Darstellungen künstlicher Intelligenz. Obwohl unsere heutige KI sich deutlich von der im Film unterscheidet, steht HAL 9000 noch immer sinnbildlich für all unsere Visionen und Ängste zu künstlicher Intelligenz. HAL 9000 ist klug, berechnend und kontrolliert sämtliche Systeme des Raumschiffs Discovery One. Und er entwickelt ein eigenes Selbstbewusstsein.

Die Erfindung des Tablets

Zu Zeiten des Filmes sahen Computer noch ganz anders aus, als wir sie kennen. Sie hatten die Ausmaße von Schränken und erste grafische Benutzeroberflächen gab es erst ein paar Jahre nach 2001: Odyssee im Weltraum. Mit diesem Kenntnisstand ist es umso beeindruckender, dass die Vision tragbarer Computer im Film extrem nah an unseren heutigen Tablets ist. Zwar zollen einige Konsolen-Ausgaben der damaligen Zeit Tribut, doch das grobe Design und die Art der Nutzung während des Essens ist so zutreffend, wie es nach 50 Jahren nur sein kann. Denn nach dem damaligen Stand der Technik waren tragbare Computer eine geradezu wahnwitzige Idee.

Fehlende Konsequenz zeigt die Idee in Form der Videotelefonie. Statt einer Integration in die Tablets oder mobile Kommunikatoren sitzt Dr. Heywood R. Floyd in einer Telefonzelle und tippt die Nummer sogar noch händisch ein. Dafür trifft die generelle Nutzung flacher Bildschirme den Nagel wieder überraschend auf den Kopf.

Raumfahrt noch nicht so weit

2001: Odyssee im Weltraum spielt 18 Jahre vor unserer Zeit. Und auch wenn unsere Gesellschaft in den letzten Jahrzehnten durch die Technologie einen noch nie dagewesenen Wandel erlebt, ist unsere Raumfahrt nicht annähernd so weit, bemannte Missionen zum Jupiter zu schicken, der nochmal weiter entfernt ist, als der Mars.

Heutzutage ist die Faszination Weltraum nicht mehr ganz so groß und die Gesellschaft kritischer, wohin die Milliarden geschossen werden. Mit der zunehmenden Konkurrenz durch private Unternehmen wie SpaceX oder Blue Origin, erlebt die Raumfahrt derzeit jedoch eine kleine Renaissance.

Ein wahrer Klassiker

Zugegeben, 2001: Odyssee im Weltraum ist nicht für jeden geeignet. Als ich den Film vor wenigen Jahren erstmals sah, musste ich mich regelrecht durchquälen. Obwohl ich kein Freund der aktuellen Hollywood-Standards bin, war mir die Entschleunigung dann doch deutlich zu viel. Trotzdem hinterließ der Film nachbleibenden Eindruck. Dieser alte Film, noch vor der Mondlandung uraufgeführt, macht wissenschaftlich so vieles besser, als die millionenschweren Produktionen unserer Zeit.

Der Film zelebriert seine Genauigkeit, indem wir minutenlang zusehen, wie sich Personen langsam durch die Schwerelosigkeit bewegen oder Mechaniken der Raumschiffe funktionieren. Man spürt in jeder Szene, wie akribisch Kubrick auf jedes kleine Detail achtete. Auch HAL 9000 ist noch immer ein Sinnbild für Hoffnungen und Ängste bezüglich künstlicher Intelligenz – auch abseits der philosophischen Frage über Selbstbewusstsein und Leben.

Man muss den Film als solchen nicht zwingend mögen, um ihn für seine Genauigkeit und den visionären Blick in die damalige Zukunft zu würdigen. Auch die Qualität seiner Produktion ist so herausragend, dass 2001: Odyssee im Weltraum jüngst sogar als erster Film in 8K ausgestrahlt wurde.

2001: Odyssee im Weltraum 50th Anniversary Edition auf Amazon kaufen (Provisionslink)


Image by PublicDomainPictures via pixabay

Weiterlesen »

FollowUs – Die Netzpiloten-Tipps aus Blogs & Mags

Follow me
  • WAHL googlewatchblog: Google Trends & 2Q17: Google startet neues Trends-Portal zur Bundestagswahl 2017: Welche Suchanfragen machen die Deutschen em häufigsten zur Bundestagswahl? Welche Partei ist online am beliebtesten? Wo liegen ihre Interessen? Google hat ein Trendportal redaktionell aufgearbeitet und stellt nun diese Daten zur Verfügung. Erst kurz davor hatte Google angekündigt, dass Politiker zur Bundestagswahl selbstverfasste Politikerinformationen in den Suchergebnissen anzeigen lassen können. In einem andren Portal zeigt Google auch an, mit welchen Suchbegriffen die Spitzenkandidaten verknüpft sind. Damit kann die Suchmaschine zu einem aktiven Wahl-Werkzeug werden.

  • GAMING heise: Studie: Computerspiele könnten die Gedächtnisbildung beeinflussen: Eine kanadische Studie hat nun den Einfluss von Videospielen auf die Gehirnentwicklung haben. Ergebnisse sind unter anderem, dass Spiele weder einen rein negativen oder rein positiven Einfluss haben. Die Veränderungen hängen davon ab, welche Art von Lernen die Spieler bevorzugen. Die Forscher sind zuversichtlich, dass sie mit den Ergebnissen, die sie aus dieser Studie gewonnen haben, weitere Phänomene erklären zu können.

  • WATCH zeit: Reality TV statt Hochglanzdrama: Facebook ist jetzt auch im Fernsehmarkt. Denn das Netzwerk finanziert mit „Watch“ nun eigene Fernsehinhalte. Über Facebook Watch sollen Mitglieder von Facebook demnächst exklusive Serien und Filme streamen können – direkt aus der App. Der Service soll kostenlos sein. Die Videos in Facebook Watch sind momentan noch empfehlungen von abbonierten Freunden, soll allerdings um ein breites Angebot erweitert werden. Gemessen werden die Empfehlungen an der Anzahl der Reaktionen, beispielsweise des Lach-Smileys. In einem Blogeintrag stellen Produzenten des Dienstes auch Livestream Möglichkeiten und ständige Kontaktaufnahme mit den Videomachern in Aussicht.

  • UBER handelsblatt: Großaktionär verklagt Ex-Chef Kalanick: Angesichts fallender Bewertungen am Kapitalmarkt verklagt Benchmark Capital, einer der größten Investoren des Fahrdienstvermittlers Uber, das Unternehmen und seinen früheren Vorstandschef Travis Kalanick. Die Vorwürfe seien Betrug, Verletzung der Sorgfaltspflicht und Vertragsmissbrauch. Der Investor fordert aufgrund der vielen Skandale und Ereignisse innerhalb von Uber Schadensersatzzahlungen. Uber hatte zuletzt große Einschnitte in den gehandelten Bewertungen hinnehmen müssen, so dass Benchmark Capital mit 20 Prozent Stimmrecht anhand ihrer Aktien ein sehr wichtiger Investor für die Zukunft von Uber ist.

  • SNAPCHAT spiegel: Snap-Aktie stürzt ab: War der Weg an die Börse doch nicht das Richtige? Snapchats Mutterfirma Snap Inc. Enttäuscht auch mit dem zweiten Quartalsbericht an der Wall Street. Trotz wachsender Nutzerzahlen konnte das Unternehmen keine hohen Umsätze verzeichnen. Der Verlust stieg drastisch von 116 Milliarden auf 443 Milliarden US-Dollar. Diesen Verlust konnte auch der um 150 Prozent gestiegene Umsatz nicht ausgleichen. Der Grund für die fallenden Zahlen sind Konkurrenzdienste wie Instagram, die einst einzigartige Funktionen von Snapchat kopieren.

Weiterlesen »

So entschlüsselt die Strafverfolgung eure Fotos

St. Jones, Canada (adapted) (Image by Zach Meaney) (CC0 Public Domain) via Unsplash

Solange wir Menschen Fotos machen, wurden sie von uns auch manipuliert. Um Bilder zu verändern, musste man früher in der Dunkelkammer komplizierte Operationen ausführen, wohingegen heute jeder mit einem Smartphone in der Lage ist, hunderte von frei verfügbaren Tools dafür zu nutzen. Während dieser Umstand für den eigenen Instagram-Feed praktisch sein kann, stellt es eine besondere Herausforderung für die Strafverfolgung dar. Bildern kann man nicht immer vertrauen, denn sie stellen nicht immer exakt dar, was tatsächlich geschehen ist.

So habe ich beispielsweise vor Kurzem mehrere Fotos für die RSPCA (Royal Society for the Prevention of Cruelty to Animals, dt.: königliche Gesellschaft zur Verhütung von Grausamkeiten an Tieren, eine Tierschutzorganisation in England und Wales) analysiert, auf denen eine Ente zu sehen war, der ein Messer im Kopf steckte. Wir sollten feststellen, ob das Bild mit Photoshop manipuliert wurde. Auch die Behörden verlangen immer öfter, Bilder von Kriminaltechnikern verifizieren zu lassen – wie aber wird das gemacht und wo führt es hin?

Die Bildverarbeitungskette

Analysten verlassen sich derzeit auf Kenntnisse der „Bildverarbeitungskette“, um Bilder zu untersuchen und zu validieren. Diese Kette ist oft in sechs Hauptbereiche unterteilt:

  1. Physik: Schatten, Beleuchtung und Reflexionen
  2. Geometrie: Fluchtpunkte, Entfernungen im Bild und 3D-Modelle
  3. Optisch: Linsenverzerrung oder Abweichungen
  4. Bildsensor: Grundrauschen und Farbfilterfehler
  5. Dateiformat: Metadaten, Dateikomprimierung, Miniaturansicht und Marker
  6. Pixel: Skalieren, Zuschneiden, Klonen oder Zurücksetzen
Bildkette (Image by Richard Matthews)
Das Flussdiagramm wie Eigenschaften von Bildern, numerisch aufgelistet von Strafverfolgern untersucht werden. Image by Richard Matthews.

Anstelle des Sichtbaren ist es oft das Unsichtbare, mit dem unsere Untersuchungen beginnen. Hier konzentrieren wir uns auf die in den Bildern aufgenommenen Metadaten (Ebene 5 im Schema oben).

Dateiformat-Spurensuche: Metadaten

Wenn ein Bild gespeichert wird, enthält die Datei typischerweise Daten über das Bild, die als Metadaten bekannt sind. Es gibt mehr als 460 Metadaten-Tags innerhalb des austauschbaren Bilddateiformats für digitale Standbildkameras (EXIF 2.3). Diese Angaben unterstützten Kameras dabei, Formate zu verwenden, die zwischen Geräten ausgetauscht werden können – zum Beispiel, dass ein iPhone-Foto korrekt auf einem Samsung-Gerät angezeigt wird. Tags können Bildgröße, Standortdaten, eine kleinere Vorschau des Bildes und sogar die Marke und das Kameramodell enthalten.

Herausfinden, welche Kamera welche Fotos aufgenommen hat

In einer kürzlich durchgeführten Untersuchung konnten wir eine Bildersammlung überprüfen, die als die „Byethorne-Ente“ bekannt ist. Die Bilder, die von der RSPCA an „The Advertiser” geliefert wurden, zeigen eine Ente, in deren Kopf ein Messer steckte. Es kam rasch die Vermutung auf, dass die Bilderreihe mittels Photoshop verfälscht worden sei.

Die Byethorne-Ente (Images provided by RSPCA)
Bilder der Ente aus dem Byethorne Park. Images by RSPCA.

Wir untersuchten die Bilder mit dem ExifTool von Phil Harvey und konnten feststellen, dass vier der Bilder (links oben) von einer Kamera aufgenommen wurden, wobei der Rest von einer anderen aufgenommen wurde.

Dieses wurde anhand von Sensormustergeräuschen und statistischen Methoden bestätigt. Wir haben mit Signalverarbeitungsfiltern einen einzigartigen Fingerabdruck aus jedem Bild extrahiert und verglichen, wie sehr sie sich ähneln. Ein hoher Wert zeigt an, dass sie sich sehr ähnlich sind und wahrscheinlich miteinander korrelieren, während ein niedriger Wert darauf hindeutet, dass sie verschieden sind und es unwahrscheinlich ist, dass sie in Verbindung miteinander stehen.

Als wir vier der fünf Dateninformationspakete der Bilder verglichen, erhielten wir weit über 2.000 Merkmale. Vorausgesetzt, sie korrelieren miteinander, können wir sagen, dass die Bilder vermutlich von der gleichen Kamera stammen. Als wir das fünfte Bild testeten, war der Ähnlichkeitswert, den wir erhielten, nahezu bei Null angekommen.

Metadaten Entenbilder (Image by Richard Matthews
Die Metadaten verschiedener Bilder der Byethorne Ente im Vergleich. Sie zeigen zwei verschiedene einzigartige Bildidentifikatoren, die mit einer Smarphone Firmware verknüpft werden konnten. Image by Richard Matthews.

Das spezifische Bild-ID-Feld enthielt auch die Kamera-Firmware-Nummer. Durch Querverweise zur Bild- und Sensorgröße, die ebenfalls in den Metadaten enthalten sind, nahmen wir an, dass entweder ein Samsung Galaxy S7 oder S7 Edge verwendet wurde, um die ersten vier Bilder aufzunehmen und ein Samsung Galaxy S5 für das fünfte Bild genutzt wurde.

In den Metadaten wird außerdem der Zeitpunkt angezeigt, an dem die Bilder aufgenommen wurden. So kann eine Zeitleiste erstellt werden, die besagt, wann die Bilder aufgenommen wurden und von wem sie stammen.

Frequency of PhotosTaken (Image by Richard Matthews)
Die Zeiten, an denen die Bilder gemacht wurden, der jeweiligen Smartphone-Kamera zugeordnet. Image by Richard Matthews

Da die Fotos von zwei verschiedenen Kameras über einen Zeitraum von etwa einer Stunde aufgenommen wurden, ist es höchst unwahrscheinlich, dass die Bilder hätten gefälscht sein können. Ein RSPCA-Sprecher bestätigte, dass er Bilder von der Ente von zwei unterschiedlichen Leuten erhalten hat. Das passt ins Bild. Bisher gab es jedoch nicht genügend Beweise, um die Identität eines Täters zu bestimmen.

Aus einem Bild den Standort einer Person feststellen

Das Kameramodell ist nicht das einzige, was aus den Metadaten bestimmt werden kann. Wir können sehen, wo sich mein Büro befindet, indem ich dieses Bild analysiere, das jemand von einem Stapel Bücher gemacht hat, die sich an meinem Arbeitsplatz befinden.

Bücherregal (Image by Richard Matthews)
Bücherregal (Image by Richard Matthews)
Metadaten Buecherregal (Image by Richard Matthews)
Die Metadaten des Fotos im ExifTool. Image by Richard Matthews.

Die GPS-Koordinaten sind direkt in die Bildmetadaten eingebettet. Durch das Platzieren dieser Koordinaten in Google Maps wird der genaue Standort meines Büros angezeigt. Diese offensichtliche Datenschutz-Angelegenheit erklärt, warum beispielsweise Facebook üblicherweise Metadaten aus hochgeladenen Bildern entfernt.

GPS Daten (Screenshot by Richard Matthews)
Die genaue Standort des Büros von Richard Matthews an der Universität von Adelaide kann durch die Analyse der Metadaten, die das Bild des Bücherregals enthält, herausgefunden werden. Screenshot by Richard Matthews.

Laut einem Facebook-Sprecher werden Informationen, einschließlich der GPS-Daten, automatisch aus den hochgeladenen Fotos entfernt, um Menschen davor zu schützen, „versehentlich private Informationen wie ihren Standort zu teilen“.

Die Zukunft der Bildforensik

Metadaten werden niemals isoliert verwendet. Um sicherzustellen, dass das Bild nicht modifiziert wurde und um die Beweismittelkette aufrechtzuerhalten, ist die Dokumentation oder die Herkunftsangabe, die mit einem Beweisstück zusammenhängt, für die Beglaubigung des Bildes essentiell. Dies wird immer wichtiger für die Polizei.

Zukünftig könnten Werkzeuge, die der Unterstützung der Polizei dienen, beispielsweise Audioaufnahmen (die direkt in die Kamera eingebaut sind), oder ein Wasserzeichen enthalten. Ich baue derzeit die Forschungserkenntnisse aus, die darauf hindeuten, dass jeder Bildsensor (die elektronische Einheit, die das eigentliche Bild aufnimmt) aufgrund der Art, wie er auf Licht reagiert, einen einzigartigen Fingerabdruck hat. Wer das nächste Mal ein Foto macht, sollte dies im Hinterkopf haben.

Und was war nun mit der Ente passiert? Ein Sprecher der RSPCA sagte: „Wir nehmen an, dass das Messer kurz nach Aufnahme der Fotos entfernt wurde. Ein anderes Tier, von dem man dachte, dass sie der Vogel von dem Foto sein könnte, wurde wenige Tage später quicklebendig aufgefunden. Dieser Umstand ließ uns in dem Glauben, dass das Messer nicht tief genug eingedrungen war, um erhebliche Verletzungen zu verursachen.“

Dieser Artikel erschien zuerst auf „The Conversation“ unter CC BY-ND 4.0. Übersetzung mit freundlicher Genehmigung der Redaktion.


Image (adapted) „St. Johns, Canada“ by Zach Meaney (CC0 Public Domain)

Images by Richard Matthews


The Conversation

Weiterlesen »

So klingt DNA: Wie Musik den genetischen Code knacken kann

dna-1811955 (adapted) (Image by qimono) (CC0 Public Domain) via Pixabay

Seit einigen Jahren beschäftige ich mich in meinen Forschungen mit Molekularbiologie. Außerdem interessiere ich mich für Musik und habe mit den Hummingbirds, einer Pop-Band aus Sydney, gespielt. Normalerweise ist die Schnittmenge zwischen diesen beiden Interessen nicht besonders groß. Aber kürzlich habe ich erfahren, dass man mit der DNA sogar Musik machen kann.
Dieses Phänomen nennt man Sonifikation. Hier werden DNA-Sequenzen wie zufällige Muster genutzt, um harmonische Musik zu komponieren. Aber was geschieht, wenn wir die Töne benutzen würden, etwas Nützliches über DNA-Sequenzen herauszufinden – beispielsweise bei Mutationen?

Ich habe daher meine Programmierkenntnisse genutzt und ein Werkzeug entwickelt, mit der DNA-Sequenzen in Audio-Streams konvertiert werden können. Die Ergebnisse wurden vor Kurzem in dem Magazin BMC Bioinformatics veröffentlicht.

Den Unterschied hören

Die DNA dient in unserem Körper als Vorlage für die Herstellung von Proteinen. Eine DNA-Sequenz ist eine lange, ununterbrochene Kette, die aus vier chemischen Basen besteht, die G, A, T oder C genannt werden. Diese wiederholen sich in vielen bestimmten Mustern, die dann ein Gen ausmachen. Viele Gene haben identische Sequenzen innerhalb einer Spezies; also gleichen sich diese von Person zu Person oder von Virus zu Virus.

Manchmal allerdings unterscheidet sich eine der chemischen Basen in einer Sequenz von dem üblichen Muster – eine Mutation entsteht. Diese kann auf einen Fehler, der der betroffenen Person oder dem betroffenem Mikroorganismus Probleme bereiten könnte, hinweisen. In meinem Online-Audio-Programm verursachen Veränderungen in einer sich wiederholenden DNA-Sequenz sehr auffällige Veränderungen des Klangs.

Um einen Eindruck davon zu vermitteln, habe ich hier eine künstliche DNA-Testsequenz in meinem Online-Audio-Programm vorbereitet, das aus einer Reihe von G-Sequenzen besteht:

Zum Vergleich eine DNA-Sequenz mit einer Mutation:

Die natürliche DNA-Sequenz verdeutlicht eine Veränderung des sich wiederholenden Klangs mit einem ungefähren Wert von 0,13. Hier findet eine subtile Veränderung (eine Mutation) der Sequenz statt:

 

Die Codone verschlüsseln

Im wirklichen Leben sind DNA-Abfolgen natürlich komplexer als das. Zunächst beinhalten echte DNA-Abfolgen Codone. Ein Codon ist eine Abfolge von drei Basen, die zu einer Gruppe von DNA-Information zusammengefasst werden. Ein Codon lenkt eine Baueinheit in einem Protein, auch unter dem Namen “Aminosäure” bekannt. In der Natur zeigen spezielle Codone die Start- und Endpunkte von Genen an. In meinem Ansatz werden diese Codone dazu verwendet, die Audiodatei zu starten und zu beenden.

Es ist nicht beabsichtigt, dass man einen Ton hören und sie einem bestimmten Codon zuordnen kann, auch wenn die Umgebung der Audiodatei charakteristisch für die zugrundeliegende Sequenz ist (wie man in den Beispielen hören kann).

Wie klingt es also, wenn man mein Sonifikationssystem auf ein echtes Stück DNA anwendet, das ein Protein ausmacht? Man nehme beispielsweise eine menschliche DNA-Abfolge, die ein Protein verschlüsselt (für die Experten unter den Lesern handelt es sich dabei um das RAS-Protein, das teilweise für eine Krebserkrankung verantwortlich ist). So würde es in der traditionellen geschriebenen Form aussehen:

Image The sound of DNA by Mark Temple via The Conversation
Eine Menschliche RAS-Seqzenz. DNASonification/Mark Temple

Und so klingt es in meinem Online-Audio-Programm:

In der obigen Kodierungssequenz spielt immer ein Instrument (dasjenige, das tatsächlich das Protein verschlüsselt). Als ich einige Sequenzen “sonifiziert” habe, die wichtige RNA-Bestandteile von Zellen (keine Proteine) entschlüsseln, sind zum Teil nur Abschnitte zu hören, in denen man nichts hört. Oft sind hier Klopfgeräusche zu hören, die anzeigen, an welcher Stelle ein Codon entdet:

Normalerweise vertrauen wir Wissenschaftler stark auf die optische Kontrolle der DNA-Abfolgen, um ihre Geheimnisse zu entschlüsseln. Die Sonifikation allein ist nicht dafür gedacht, die optische Kontrolle zu ersetzen, sondern eher, um sie zu erweitern, genau wie Farben genutzt werden, um die Eigenschaften von DNA-Abfolgen hervorzuheben.

Neben der Genauigkeit der DNA-Forschung gibt es ein starkes Interesse innerhalb der Gesellschaft, besser zu verstehen, wie DNA-Abfolgen unsere physische Gestalt festlegen und Mutationen, die sich in unserer DNA ansammeln, unsere Gesundheit auf lange Sicht beeinflussen. Es ist zu hoffen, dass das Anhören von DNA-Audiodateien der Forschung dabei hilft, besser zu verstehen, wie Zellbiologie funktioniert.

Dieser Artikel erschien zuerst auf „The Conversation“ unter CC BY-ND 4.0. Übersetzung mit freundlicher Genehmigung der Redaktion.


Image (adapted) „dna-1811955“ by qimono (CC0 Public Domain)


The Conversation

Weiterlesen »

Das kollektive Gedächtnis verstehen: Das Netz macht’s möglich

Mini Wikipedia globe at the Wikimedia Foundation offices (adapted) Image by Lane Hartwell CC3.0 Share Alike via Wikipedia

Das Internet hat sämtliche Bereiche unseres Lebens umgekrempelt. Genauer gesagt hat sich die Art und Weise, wie wir Wissen erwerben, signifikant verändert – zum Teil durch Wissensquellen im Netz wie die Wikipedia. Genau genommen hat es sogar die Art der Wissenschaft verändert. Sozialwissenschaftler verwenden immer häufiger Daten aus dem Netz, um unsere individuellen und kollektiven Verhaltensweisen zu studieren – und das tun sie mit einer Genauigkeit, die man sonst nur aus den Naturwissenschaften kennt.

Sicherlich sind wir immer noch weit davon entfernt, im Internet große experimentelle sozialwissenschaftliche Datensätze vergleichbar zu denen, die im CERN produziert werden, zu finden, doch zumindest haben wir digitale empirische Daten, wie beispielsweise die aufgrund von Beobachtung gewonnenen Daten der Astrophysik. Millionen Menschen nutzen tagtäglich Online-Tools. So wird beispielsweise Wikipedia rund 500.000 Mal am Tag aufgerufen.

Das “Kollektive Gedächtnis”, wie es von Wissenschaftlern genannt wird, ist eines der Schlüsselthemen, um soziales Verhalten zu verstehen: Es verdeutlicht, wie sich Mitglieder einer sozialen Gruppe gemeinsam an ein Event in ihrer Vergangenheit erinnern. Obwohl es sich beim kollektiven Gedächtnis um einen Grundbegriff in der Soziologie handelt, gab es nur ein paar wenige empirische Studien über dieses Thema, hauptsächlich aufgrund fehlender Datensätze. Wissenschaftler, die erforschen, wie das Publikum vergangene Ereignisse abruft, hatten klassischerweise viel Zeit in Interviews und Aufwand in die Datensammlung investiert.

Flugzeugabstürze

Im Rahmen einer aktuellen Studie, die im Science Advances veröffentlicht wurde, verwendete unser Team, bestehend aus einem Soziologen, einem Computeringenieur und zwei Physikern, Daten aus der Wikipedia. Ziel war es, durch die in aller Öffentlichkeit zugänglichen Statistiken der täglichen Seitenabrufe aller Artikel der Enzyklopädie das kollektive Gedächtnis zu studieren.

Wir suchten in unserem Beispiel nach Flugzeugabstürzen in der gesamten Geschichte der Luftfahrt. Dies taten wir, weil solche Vorfälle gut dokumentiert sind und weil bedauerlicherweise einegroße Anzahl solcher Vorfällen existiert, die die statistische Analyse stabil gestalten. Wir unterteilten die Ereignisse in die Zeiträume “vor nicht allzu langer Zeit” (2008-2016) und “früher” (alle Vorfälle vor 2008). Beispiel für die neulich stattgefundenen Vorfälle sind Flug MH370, Flug MH17, Flug AF447 und der Germanwings-Flug 9525. Bei den vorhergehenden Unfällen handelt es sich zum Beispiel um den Flug AF587 und den Flug IR 655.

Um die steigenden Seitenabrufe für Artikel vergangener Ereignisse, eine Woche nachdem ein Ereignis eintrat, zu messen, verwendeten wir statistische Methoden. Wir nannten diesen Anstieg den “Aufmerksamkeits-Strom”. Wir waren daran interessiert, herauszufinden, ob der Anstieg der Aufmerksamkeit bezüglich des vergangenen Ereignisses in Korrelation zu den zeitlichen Abständen und der Ähnlichkeit der neulich stattgefundenen und der vergangenen Ereignissen steht. Darüber hinaus waren wir daran interessiert, herauszufinden, ob wir den Anstieg des “Aufmerksamkeit-Stroms” zu vergangenen Ereignissen verhindern können, indem ein neues Ereignis eintritt.

Wir haben herausgefunden, dass die Menschen nach dem Absturz der Germanwings-Maschine im Jahr 2015 in der Wikipedia Informationen über den American-Airlines-Flug außerhalb von New York City im November 2001 suchten. Tatsächlich gab es einen dreifachen Anstieg der Seitenabrufe in der Woche nach dem Germanwings-Absturz.

Es scheint hier ein Muster zu geben. Wir haben kontinuierlich einen signifikanten Anstieg der Seitenabrufe vergangener Ereignisse als Folge zu Vorfällen, die vor Kurzem geschahen, beobachtet. Im Durchschnitt wurden vergangene Ereignisse 1,4 mal öfter aufgerufen als die Ereignisse aus der vergangenen Woche. Das lässt vermuten, dass die Erinnerung an ein Ereignis mit der Zeit wichtiger werden kann, und auch, dass dem Ereignis mit der Zeit mehr Bedeutung zugetragen wird, als es ursprünglich der Fall gewesen ist.

Wir haben dann versucht, dieses Muster abzubilden. Unter Berücksichtigung aller Faktoren, wie den Einfluss der Ereignisse aus der kürzer zurückliegenden Vergangenheit und derer, die weiter zurück lagen, zudem die Ähnlichkeit zwischen den Ereignissen und ob ein Hyperlink existiert, der die beiden Ereignisse direkt miteinander auf Wikipedia verlinkt.

Was unsere Erinnerung beeinflusst

Beispielsweise lässt sich im Fall der Germanwings- und American-Airlines-Flüge sagen, dass beide Vorfälle im Zusammenhang mit dem Piloten standen. Dieser könnte ein wichtiger Kopplungsfaktor sein. Die Maschine der American Airlines stürzte aufgrund eines Pilotenfehlers ab, während der Germanswings-Pilot das Fluzgeug absichtlich abstürzen ließ. Dies wurde umso interessanter, als wir herausfanden, dass es keinen Hyperlink gab, der diese beiden Artikel auf Wikipedia miteinander verlinkt. Tatsächlich blieben unsere Daten sogar dann stabil, als wir alle Paare entfernten, die durch Hyperlinks in direkter Verbindung zueinander standen.

Der wichtigste Faktor des Musters war die ursprüngliche Auswirkung des vergangenen Ereignisses, die durch ihre durchschnittlichen täglichen Seitenabrufe gemessen wurde, bevor das Ereignis eintrat. Das heißt, dass manche vergangenen Ereignisse einprägsamer sind und unsere Erinnerung daran leichter ausgelöst werden können als andere. Als Beispiel hierfür können die Flugzeugabstürze am 11. Semptember genannt werden.

Statistik Seitenaufrufe Wikipedia
Drei Flugzeugabstürze aus der jüngeren Vergangenheit (genauer: aus dem Jahr 2015) und ihre Auswirkung auf die Seitenaufrufe vergangener Ereignisse. Die Abstürze aus der jüngeren Vergangenheit haben einen Anstieg in Seitenaufrufen bei den Ereignissen, die bereits längere Zeit vergangen sind, verursacht.

Die zeitliche Trennung zwischen zwei Ereignissen spielt ebenso eine wichtige Rolle. Je näher zwei Ereignisse beieinander liegen, desto stärker ist ihre Verbindung. Wenn ein Ereignis mehr als 45 Jahre zurück liegt, ist es unwahrscheinlich, dass es noch eine Erinnerung an ein vergangenes Ereignis auslöst.

Die Ähnlichkeit zwischen zwei Ereignissen hat sich ebenso als einen wichtiger Faktor ergeben. Dies lässt sich am Beispiel der IR 655 erklären. Die Maschine wurde im Jahr 1988 von einem US-Kriegsschiff mittels einer Rakete abgeschossen. Hierbei handelte es sich eigentlich um kein Ereignis, an das sich die Menschen gut erinnern konnten. Allerdings wurde diesem Ereignis wieder große Aufmerksamkeit zugetragen, als im Jahr 2014 der Malaysia-Airlines-Flug 17 von einer Rakete über der Ukraine getroffen wurde. Der Unfall mit der Iran-Air-Maschine hatte vor den Geschehnissen in Malaysia eine durchschnittliche tägliche Quote von 500 Aufrufen und stieg kurz danach auf 120.000 Aufrufe täglich.

Es ist wichtig, festzuhalten, dass wir die tieferliegenden Mechanismen hinter diesen Beobachtungen nicht wirklich verstehen. Die Rolle der Medien, die individuellen Erinnerungen oder die Struktur der Kategorisierung von Artikeln auf Wikipedia können alle ein Teil dessen sein und werden ein Thema in zukünftigen Beobachtungen darstellen.

In traditionelleren Theorien wird vermutet, dass die Medien die zentrale Rolle in der Formung unseres kollektiven Gedächtnisses spielen. Dennoch ist eine wichtige Frage, inwiefern der Wandel zu Onlinemedien und vor allem sozialen Medien diesen Mechanismus verändern wird. Heutzutage erhalten wir oft Neuigkeiten durch unsere Facebook-Freunde. Kann dies erklären, warum Ereignisse, die seit Jahren nicht in den Nachrichten erschienen sind, auf einmal so nah an unserer Gegenwart sind?

Zu wissen, wie diese Fragen zu beantworten sind – und um zu verstehen, wie das kollektive Gedächtnis gebildet wird, ist nicht nur aus der wissenschaftlichen Perspektive heraus interessant. Das Verständnis über das kollektive Gedächtnis könnte darüber hinaus Anwendung im Journalismus, in der Medienentwicklung, in der Politik und sogar in der Werbung finden.

Dieser Artikel erschien zuerst auf „The Conversation“ unter CC BY-ND 4.0. Übersetzung mit freundlicher Genehmigung der Redaktion.


Image (adapted) „Wikipedia_mini_globe_handheld“ by Lane Hartwell (CC BY-SA 3.0)


The Conversation

Weiterlesen »

FollowUs – Die Netzpiloten-Tipps aus Blogs & Mags

Follow me

  • FACEBOOK wired: So verhalten sich die deutschen Parteien auf Facebook (INFOGRAFIK): Alle paar Jahre findet in Deutschland ein Großereignis statt, welches viele Bürger und vor allem Politiker sehr bewegt: Die Bundestagswahl. Ein Ereignis bei dem nicht nur viel Kraft und Geld in Werbung und Präsenz gesetzt wird, sondern seit einigen Jahren auch sehr viel Wert auf Facebook und Co. gelegt wird. Doch wie sieht der Status Quo aus, welche Parteien setzen voll und ganz auf Facebook und welche sehen darin immer noch den Teufel? WIRED Germany hat zusammen mit der Digitalmarketing-Plattform Online Marketing Rockstars und dem Social-Media-Analytics-Anbieter quintly die Aktivitäten deutscher Parteien auf Facebook untersucht.

  • POLITIK faz: Meinungsfreiheit im Neuland: Das Jahr 2017 wird in die Annalen als dasjenige eingehen, in dem die deutsche Medienpolitik und die Medienaufsicht das Internet entdeckten. Bis heute wird über die Bundeskanzlerin gewitzelt, die das Netz einmal als „Neuland“ bezeichnete. Dabei hatte sie recht: Politik und Behörden schauten ins Internet und staunten, was auf dieser terra incognita alles vor sich geht – wer dort die Agenda bestimmt und das große Geschäft macht.

  • OPEN DATA heise: Bundestag beschließt halbgares Open-Data-Gesetz: Das Parlament hat einen Gesetzentwurf verabschiedet, mit dem digitale Behördendaten maschinenlesbar und entgeltfrei öffentlich zugänglich gemacht werden sollen. Einen Anspruch darauf gibt es aber nicht, die Ausnahmen sind groß. Elektronisch gespeicherte unbearbeitete Daten von Bundesbehörden sollen maschinenlesbar, entgeltfrei sowie transparent der Öffentlichkeit zugänglich gemacht werden. Einen entsprechenden Entwurf für ein Open-Data-Gesetz hat der Bundestag nach einem längeren Anlauf ohne weitere Aussprache in der Nacht zum Freitag beschlossen. Die große Koalition stimmte für das Vorhaben, Linke und Grüne enthielten sich.

  • POLITIK II handelsblatt: Hass im Internet beschäftigt den Bundestag: Der Bundestag befasst sich am Vormittag in erster Lesung mit dem umstrittenen Gesetzentwurf der schwarz-roten Regierung gegen Hass und Hetze im Internet. Bundesjustizminister Heiko Maas (SPD) will damit die sozialen Netzwerke zwingen, Hassbotschaften konsequenter zu entfernen. Offenkundig strafbare Inhalte sollen innerhalb von 24 Stunden gelöscht werden. In komplizierteren Fällen bekommen die Internetkonzerne sieben Tage Zeit. Wer dem nicht nachkommt, muss mit Bußgeldern von bis zu 50 Millionen Euro rechnen.

  • EMOBILITÄT augsburger-allgemeine: Was wird aus der E-Mobilität?: Angela Merkel verabschiedete sich bei einem Kongress des CDU-Arbeitnehmerflügels von dem Ziel der Bundesregierung, bis 2020 rund eine Million Elektroautos auf die Straßen zu bringen. Die SPD reagierte mit Kritik. Man sollte die Pläne nicht einfach aufgeben, sagte Wirtschaftsministerin Brigitte Zypries. Wie geht es mit der Zukunftstechnologie weiter? Ist Merkels Eingeständnis eine Überraschung?

Weiterlesen »

FollowUs – Die Netzpiloten-Tipps aus Blogs & Mags

Follow me
  • DATENSCHUTZ golem: Gibt es 2017 den ersten Internetminister?: Die SPD nennt neben dem Breitbandausbau noch die Themen Gute Arbeit 4.0, digitale Bildung, Datensicherheit und Datensouveränität, die Internationale Charta „Digitale Grundrechte“ sowie Netzneutralität. Die FDP hat auf ihrem Parteitag im April 2016 schon ein recht ausführliches Papier zu den Chancen der digitalen Gesellschaft vorgelegt. Die zentralen Themen darin lauten Bildung, Arbeit, Datenschutz, Wirtschaft und Mobilität, Gesundheit und E-Government. Die CSU nennt ähnliche Politikfelder.

  • DIGITALISIERUNG nzz: Willkommen in der digitalen Diktatur: Vor kurzem weigerte ich mich am Berliner Flughafen, durch einen sogenannten «Nacktscanner» zu gehen. Ich bestand auf einer manuellen Kontrolle und wurde von den leicht verärgerten Security-Mitarbeitern sofort belehrt, dass es so etwas wie „Privatsphäre“ hier nicht gebe, schliesslich wolle ich ja fliegen. Inzwischen sehe ich diesen Fall eher als ein Beispiel für rührende Alltagsnaivität an.

  • ALEXA zeit: Alexa kriegt sie alle: Alexa ist überall. Mal taucht sie im Kühlschrank auf, mal wartet sie im Auto. Sie kann richtig laut werden, sitzt aber auch ganz leise im Kinderzimmer, und wenn man sie höflich bittet, passt sie auf, dass niemand zu Hause einbricht. Zwischendurch wirft sie noch die Waschmaschine an und dimmt das Licht, damit die Stromrechnung nicht zu hoch wird. Alexa ist ein Multitalent – und deshalb wie schon im vergangenen Jahr ein Star auf der Consumer Electronics Show (CES) in Las Vegas.

  • GOOGLE googlewatchblog: Detroit Auto Show: Google-Schwester Waymo zeigt die neuen selbstfahrenden Chrysler Pacifica [Galerie]: Bei der Google-Schwester Waymo geht es weiterhin Schlag auf Schlag: Vor nicht einmal einem Monat wurde die Gründung des Unternehmens bekannt gegeben und wenige Tage später hatte man einen ersten Blick auf die neuen Fahrzeuge erlaubt. Jetzt wurde verkündet, dass die ersten Fahrzeuge der neuen Flotte noch in diesem Monat auf die Straßen kommen. Außerdem hat CEO John Krafcik das Geschäftsmodell des Unternehmens noch einmal klar gestellt.

  • MARKETING horizont: „Marketing muss heute keine dominante Führungsfunktion mehr einnehmen“: Auch mit seinen knapp 80 Jahren steigt Heribert Meffert, emeritierter Professor am Marketing Center Münster (MCM), noch regelmäßig die vier Stockwerke zu seinem Schreibtisch hoch – und scherzt: „Je höher man im Leben kommt, desto kleiner wird das Büro.“ Im Interview mit HORIZONT spricht der „Marketingpapst“ über die heutige Rolle der Zunft, aktuelle Buzzwörter und die Dominanz der Digitalisierung.

Weiterlesen »

Algorithmen können fairer sein als Menschen

code(image by geralt [CC0 Public Domain] via Pixabay)

Amazon hat kürzlich damit angefangen, Lieferungen am selben Tag in ausgewählten großstädtischen Gegenden anzubieten. Das mag für viele Kunden gut sein, doch die Markteinführung zeigt auch, wie computerisierte Entscheidungsfindung eine hohes Maß an Diskriminierung fördern kann.

Sinnvollerweise begann die Firma mit ihrem Service in Gegenden, in denen die Lieferkosten am niedrigsten waren, indem sie die Postleitzahlen von dicht besiedelten Orten sowie die Anzahl existierender Amazonkunden ermittelten, deren Einkommensniveau hoch genug war, um regelmäßig Produkte, für die Lieferung am selben Tag verfügbar waren, zu erwerben. Die Firma gab eine Internetseite an, auf der Kunden ihre Postleitzahl eingeben konnten, um zu sehen, ob eine Lieferung am selben Tag bei ihnen möglich wäre. Enthüllungsjournalisten bei den Bloomberg News nutzten diese Seite zur Erstellung einer Karte, die die Gegenden mit dem Amazon-Lieferangebot am selben Tag zeigt.

Die Bloomberg-Analyse zeigte, dass viele ärmere, städtische Gegenden von diesem Service ausgeschlossen waren, während in wohlhabenderen Nachbarschaften dieser Service angeboten wurde. Viele dieser ausgeschlossenen armen Gegenden wurden vorwiegend von Minderheiten bewohnt. Beispielsweise wurde in Boston das komplette Stadtgebiet abgedeckt – bis auf den Bezirk Roxbury. Der Service deckte in New York City beinahe sämtliche Bezirke ab, während die Bronx außen vor blieb. In Chicago wurde die verarmte South Side ausgelassen, während die wohlhabenderen nördlichen und westlichen Vorstädte mit einbezogen wurden.

Man ist versucht, zu denken, dass datenbasierte Entscheidungen unvoreingenommen sind. Jedoch zeigen Forschung und wissenschaftliche Diskussionen nach und nach, dass Unfairness und Diskriminierung bestehen bleiben. In meinem Onlinekurs zu Datenethik lernen die Studenten, dass Algorithmen diskriminieren können. Allerdings gibt es einen Silberstreif am Horizont: Wie auch die Bloomberg-Studie zeigt, kann es die Tatsache, die Entscheidungsfindung auf Daten zu gründen, auch einfacher machen, aufkommende Vorurteile zu entdecken.

Voreingenommenheit kann unbeabsichtigt sein

Unfaire Szenarios, wie bei der Lieferpolitik von Amazon, können aus vielen Gründen entstehen, inklusive versteckter Verzerrungen – beispielsweise der Annahme, dass die Bevölkerung einheitlich über die Stadt verteilt ist. Die Entwickler von Algorithmen haben wahrscheinlich nicht die Absicht, zu diskriminieren, und merken es möglicherweise gar nicht, dass sich ein Problem eingeschlichen hat.

Amazon erklärte Bloomberg, dass man keine diskriminierenden Absichten verfolgte, und alles spricht dafür, dass diese Aussage wahr ist. Als Antwort auf den Bloomberg-Bericht haben Stadtbeamte und andere Politiker Amazon dazu aufgerufen, dieses Problem zu beheben. Die Firma reagierte schnell darauf und fügte die ehemals ausgeschlossenen ärmeren städtischen Postleitzahlen zu ihren vom Service abgedeckten Gegenden hinzu.

Eine ähnliche Frage hat sich bei Uber gestellt. Hier sah es zunächst so aus, dass in Gegenden, die eher von einer weißen Bevölkerung bewohnt wurde, ein  besserer Service angeboten wurde. Es ist wahrscheinlich, dass noch mehr Einzelhandel- und Serviceindustriebeispiele in Zukunft gefunden werden, die unabsichtlich durch Algorithmen diskriminieren.

Wird von den Algorithmen zu viel verlangt?

Wir sollten einen Moment innehalten, um zu prüfen, ob wir übermäßige Ansprüche an die Entscheidungen von Algorithmen stellen. Firmen, die stationär arbeiten, treffen ständig standortbezogene Entscheidungen und beziehen dabei Kriterien ein, die sich nicht allzu sehr von denen Amazons unterscheiden. Solche Filialen versuchen, Standorte zu finden, die für eine große Menge potenzieller Kunden mit Geld zum Ausgeben in Frage kommen.

Konsequenterweise entscheiden sich nur wenige Geschäfte dafür, sich in ärmeren innerstädtischen Nachbarschaften niederzulassen. Vor allem im Zusammenhang mit Lebensmittelgeschäften ist dieses Phänomen ausführlich erforscht worden, und der Term „food desert“ („Lebensmittelwüste“) wird benutzt, um städtische Gegenden zu beschreiben, in denen die Einwohner keinen geeigneten Zugang zu frischen Lebensmitteln haben. Diese Standortverzerrung ist weniger gut untersucht, wenn es zu Einzelhandelsgeschäften im Allgemeinen kommt.

Als ein bezeichnendes Beispiel schaute ich mir die 55 Standorte von Target, einer großen Einzelhandelskette, in Michigan an. Als ich jede Postleitzahl in Michigan danach sortierte, ob das Durchschnittseinkommen verglichen mit dem landesweiten Durchschnittseinkommen hier in der unteren oder oberen Hälfte lag, fand ich heraus, dass nur 16 der Targetläden (29 Prozent) in den Gegenden mit Postleitzahlen aus der unteren Einkommenshälfte lokalisiert waren. Mehr als zweimal so viele, 39 Läden, befanden sich in den Gegenden mit den Postleitzahlen der reicheren Hälfte.

Diskriminierung identifizieren

Darüber hinaus findet sich keine einzige Target-Filiale in Detroit, während sich in den reicheren Vorstädten von Detroit diverse Läden befinden. Trotzdem gab es noch keinen öffentlichen Aufschrei mit dem Vorwurf, dass Target durch seine Niederlassungsentscheidungen arme Menschen diskriminiert. Es gibt zwei Hauptgründe, warum die Sorge über Amazon gerechtfertigt ist: Rigidität und Dominanz.

Rigidität hat sowohl mit dem Entscheidungsfindungsprozess des Online-Einzelhändlers als auch mit dem Ergebnis zu tun. Amazon entscheidet, welche Postleitzahlgegenden in das Servicegebiet fallen. Wenn ein Kunde nur eine Straße von der Grenze, die Amazon gesetzt hat, entfernt wohnt, liegt er außerhalb der Servicegegend und kann wenig dagegen tun. Im Gegensatz dazu kann jemand, der in einer Postleitzahlgegend ohne Target-Filiale lebt, dennoch bei Target einkaufen – auch wenn er länger braucht, um dorthin zu kommen.

Es ist außerdem wichtig, wie dominant ein Einzelhändler in den Köpfen der Verbraucher ist. Während Target nur einer von vielen Sportartikelverkäufern ist, genießt Amazon als Interneteinzelhändler Marktdominanz und zieht daher mehr Aufmerksamkeit auf sich. Solch eine Dominanz ist charakteristisch für die heutigen Internetgeschäfte, die nach dem Motto „The Winner takes it all“ funktionieren.

Während ihre Rigidität und Dominanz unsere Sorge über Onlinegeschäfte vergrößern mögen, so helfen sie uns doch auch, ihre Diskrimination besser zu entdecken als bei stationären Geschäften. Bei einer traditionellen Ladenkette müssen wir schätzen, wie lang ein Anfahrtsweg für den Kunden maximal sein darf. Wir müssen uns außerdem des Zeitfaktors bewusst sein: Fünf Meilen zur nächsten Autobahnausfahrt ist nicht das gleiche wie fünf Meilen durch vollgestopfte Straßen in Richtung der anderen Seite der Stadt. Außerdem kann die Anreisezeit selbst in Abhängigkeit von der Tageszeit stark variieren. Nachdem man identifiziert hat, in welchen Gegenden ein Geschäft wahrscheinlich seinen Service anbietet, werden diese Gegenden nicht eins zu eins deckungsgleich mit den geographischen Einheiten sein, für die uns Statistiken über Rasse und Einkommen vorliegen. Zusammengefasst ist die Analyse chaotisch und bedarf eines großen Aufwands.

Im Gegensatz dazu haben Journalisten bei Bloomberg wohl nur wenige Stunden gebraucht, um eine Karte mit der Servicegegend Amazons zu erstellen und diese mit dem Einkommen oder der Rasse in Beziehung zu setzen. Wenn Amazon das betriebsintern vollzogen hätte, hätten sie dieselbe Analyse in nur wenigen Minuten durchführen können – und sie hätten vielleicht die Probleme gesehen und schon vor der Einführung des Services der Lieferung am selben Tag behoben.

Wie vergleichen Menschen?

Lassen Sie uns einen Blick auf ein ganz anderes Beispiel werfen, um zu sehen, wie die gleichen Punkte auf viele Dinge zutreffen. ProPublica hat eine exzellente Analyse von Rassendiskriminierung durch einen Algorithmus, der die Wahrscheinlichkeit, dass ein Krimineller wieder das Gesetz bricht voraussagt, veröffentlicht. Dieser Algorithmus berücksichtigt Dutzende Faktoren und kalkuliert eine Wahrscheinlichkeitseinschätzung. ProPublicas Analyse fand signifikante systematische Rassenverzerrungen, und das, obwohl Rasse nicht einmal unter den spezifischen berücksichtigten Faktoren war.

Ohne den Algorithmus würde ein menschlicher Richter eine ähnliche Einschätzung abgeben, als Teil einer Strafzumessung oder Bewährungsentscheidung. Die menschliche Entscheidung würde vielleicht ein umfassenderes Set von Faktoren berücksichtigen, so wie beispielsweise das Auftreten des Kriminellen vor Gericht. Aber wir wissen aus psychologischen Studien, dass menschliche Entscheidungsfindung voll von Verzerrung und Vorurteilen ist, selbst wenn wir versuchen, möglichst fair zu sein.

Jegliche Fehler, die aus den Verzerrungen in Entscheidungen menschlicher Richter entstehen, sind aber voraussichtlich bei verschiedenen Richtern unterschiedlich bewertet worden – und sogar bei verschiedenen Entscheidungen, die von ein und demselben Richter getroffen werden. Insgesamt mag es Rassendiskriminierung durch unterbewusste Vorurteile geben, dies aber endgültig festzustellen, ist schwierig. Eine amerikanische Studie des Justizministeriums fand deutliche Hinweise darauf, dass bei der Verurteilung weißer und schwarzer Häftlinge Unterschiede bestehen, konnte aber nicht klar bestimmen, ob die Rasse selbst ein Faktor bei diesen Entscheidungen war.

Im Gegensatz dazu wird der Algorithmus, den ProPublica überprüft hat, bei tausenden von Fällen über viele Staaten hinweg genutzt. Seine Rigidität und das hohe Volumen erleichtern die Aufgabe, eine mögliche Diskriminierung festzustellen – und kann Wege bieten, das Problem effizient zu beheben.

Das Nutzen von Informationstechnologie scheint die Unterschiede und Daten deutlicher und leichter verfügbar zu machen. Was gestern noch unter den Teppich gekehrt werden konnte, schreit heute nach Aufmerksamkeit. Während wir immer mehr Nutzen für datengelenkte Algorithmen finden, ist es noch nicht üblich, deren Fairness zu analysieren, vor allem vor der Einführung eines neuen, datenbasierten Services. Um dies zu erreichen, muss ein langer Weg des Messens und Verbesserns der Fairness dieser immer wichtiger werdenden computerisierten Kalkulationen gegangen werden.

Dieser Artikel erschien zuerst auf „The Conversation“ unter CC BY-ND 4.0. Übersetzung mit freundlicher Genehmigung der Redaktion.


Image ”Algorithmen” by geralt (CC Public Domain)


The Conversation

Weiterlesen »

Das Analysesystem von Die Welt deutet die Klicks um

Die Welt Balloon over Berlin (Image by Thomasz Sienicki [CC BY 3.0] via Wikimedia Commons)

Das interne Bewertungssystem für Online-Artikel der Tageszeitung Die Welt erscheint etwas nervenaufreibend. Allen veröffentlichten Artikeln wird auf Basis von fünf Komponenten ein Wert zugewiesen, der bestimmt, auf welchem Platz sie im Ranking landen. Im Anschluss wird jeden Morgen eine Top-Ten-Liste an die gesamte Nachrichtenredaktion geschickt, die mit einigen Anmerkungen eines Redakteurs versehen ist. Die Redakteure argumentieren, dass dies keineswegs eine dystopische Reduktion von komplexen journalistischen Inhalten auf eine einzige Zahl sei. Vielmehr, sagen sie, werde auf diese Weise transparent gemacht, wie die Redaktion ihre online veröffentlichten Inhalte bewertet – nämlich nicht nur auf Basis von Klickzahlen auf der Seite, sondern unter anderem auch im Hinblick darauf, wie gut ein Artikel in den sozialen Medien geteilt wird.

„Der Wert wurde hauptsächlich eingeführt, um die Produktionsqualität unserer Produkte zu verbessern“, erklärt mir Oliver Michalsky, Chefredakteur von Die Welt online via Mail.

Funktioniert die Überschrift gut? Hätten wir ein Video einbinden sollen? Ist der Erzählstrang so aufgebaut, dass der Leser bis zum Schluss liest? Sind genug Links hinzugefügt worden, um den Leser auf andere relevante Artikel auf Die Welt online zu verweisen? Wir wollen außerdem in den sozialen Netzwerken stärker werden. Daher erfordert der Wert, dass die Redakteure ihre Artikel online teilen. Auf diese Weise erhalten sie ebenfalls einen Ansporn, Video-Inhalte in ihre Artikel zu integrieren.

Die fünf Kriterien, die in den finalen „Artikelwert“ einfließen, sind Seitenaufrufe, Verweildauer auf der Seite, Video-Aufrufe, Social-Media-Traffic und Bounce Rate. Ein Artikel kann bis zu zehn Punkte für den Traffic erzielen, bis zu fünf Punkte in den anderen vier Kategorien, und so einen Maximal-Wert von 30 Punkten erreichen. Diesen Herbst, wenn die Seite von einem kostenpflichtigen Paywall-Modell auf ein Freemium-Modell umgestellt wird, wird eine sechste Kategorie – wie viele Abonnenten hat der Artikel generiert? – eingeführt werden. Die Daten, die in den finalen Wert einfließen, entstammen einem Mix analytischer Tools inklusive Chartbeat (einzelne Reporter haben ebenfalls Zugriff auf Chartbeat). Kürzlich hat die Nachrichtenredaktion die Anzahl der Klicks, die ein Artikel benötigt, um den Maximalwert von zehn Punkten in der Kategorie Seitenaufrufe zu erzielen, von 20.000 auf 30.000 erhöht, doch dieser Sprung ist lediglich daher begründet, „dass wir uns in Bezug auf die Reichweite aktuell sehr gut entwickeln.

Nicht jeder Traffic ist guter Traffic und ein Leser, der nur kurzfristig auf die Seite kommt, um einen angesagten Artikel zu lesen, ist nicht die Art Leserschaft, die Die Welt sich wünscht, erklärt die Nachrichtenorganisation in einem ersten Posting nach der Einführung des Bewertungssystems. In einem im Februar erschienenen Bericht des Reuters Institute, der untersuchte, wie verschiedene Nachrichtenorganisationen analytische Methoden anwenden, schrieben die Autoren über das Bewertungssystem von Die Welt: „Die Entwicklung des Artikelwerts ist Teil eines strategischen Prozesses, der sich darauf konzentriert, sicherzustellen, dass Die Welt qualitativ hochwertige Inhalte produziert, die die Leser so spannend finden, dass sie die Inhalte nicht nur kurz anklicken, sondern tatsächlich Zeit in das Lesen des Artikels zu investieren und ihn teilen oder vielleicht sogar für ihn bezahlen. Es ist ein eindeutiges Beispiel, wie Die Welt – und Axel Springer allgemein – redaktionelle Analysetechniken entwickeln, die mit spezifischen redaktionellen Zielen (qualitativ hochwertige Inhalte) und Geschäftsmodellen (gebührenpflichtiges Paywall-System) einer spezifischen Organisation einhergehen. Eine Boulevardzeitung wie BILD (ebenfalls zu Axel Springer gehörig) mit einem größeren Schwerpunkt auf Werbung, hohes Traffic-Aufkommen und ein Freemium-Modell anstatt einer kostenpflichtigen Paywall benötigt eine andere Herangehensweise.“ 
Zwar sind Klicks noch immer wichtig im Bewertungssystem von Die Welt, allerdings werden diese durch die vier weiteren Messparameter ausbalanciert, und die Autoren haben nun einen greifbaren Maßstab, auf den sie hinarbeiten.

Dieser Artikel zum Beispiel hat sich in Bezug auf die Seitenaufrufe gut geschlagen (indem er sieben von zehn Punkten in dieser Kategorie erzielte) und rangiert auf Platz 26, wenn es um den reinen Traffic-Wert geht. Aber „wegen seiner Präsentation und der Einbindung gut gewählter Bilder“ – es geht um eine Analyse der Körpersprache berühmter Personen – „lasen ihn die meisten Leser tatsächlich bis zum Ende und schauten auch das am Ende des Artikels eingebettete Video“ (eine beeindruckende Leistung, denn man muss ziemlich lange scrollen, um zu dem zweiminütigen Video zu gelangen). Was der Artikel bei den Seitenaufrufen einbüßt, macht er in den Punkten Interaktion und Videoaufrufen (beide erzielen jeweils 5 Punkte) wieder gut, und erreichte insgesamt den achten Platz auf der Top-Ten-Liste:

Zusammenfassungen von Talkshows, die in der Nacht zuvor liefen, schlagen sich online immer gut, sagt Michalsky, aber sie haben eher selten die Top-Ten-Liste geknackt, da es rechtliche Einschränkungen den Autoren schwer machen, relevante Videos in ihren Artikeln zu verlinken. Also begann die Zeitung, kurze Video-Zusammenfassungen der Gäste und der diskutierten Themen zu produzieren, indem sie Bildmaterial aus anderen Quellen nahmen. „Und es funktioniert!„, sagt Michalsky, und verweist auf einen aktuellen Artikel über die Kritik, die EU-Parlamentsvorsitzender Martin Schulz an der Türkei und am türkischen Präsidenten Tayyip Erdo?an in einer Talkshow äußerte. Der Artikel erzielte schließlich den zweiten Platz und erreichte sogar den Maximalwert für Videoaufrufe.

Meine Kollegen sind sehr glücklich mit dem Wert, denn im Gegensatz zur bloßen Reichweite ist er fair„, meint Michalsky, als ich ihn fragte, wie die Autoren auf diese Art des konkreten Feedbacks reagierten. Gab es denn Bedenken, dass es Themenbereiche geben könnte, die einfach mehr Traffic generieren als andere, oder dass bestimmte Artikeltypen wie längere Sonntags-Features auch wirklich in der Interaktions-Komponente entsprechend belohnt werden?

Wir besprechen Artikel hinsichtlich all dieser Aspekte in unserem morgendlichen Meeting. Zum Beispiel zeigen wir die Traffic-Unterschiede zwischen einer schwachen und einer starken Überschrift für einen spezifischen Artikel. Und wir geben den Teammitgliedern Hinweise, wie sie die sozialen Medien nutzen können, um ihre Artikel zu entwickeln und ihre Inhalte zu verbreiten.

Die Themen, die in den Top Ten abgedeckt werden, sind meistens ganz unterschiedlicher Natur: „Die Stärke des Artikelwerts ist es, dass nicht nur Artikel aus der Politik oder Wirtschaft (die Schlüssel-Sektionen auf welt.de) die täglichen Reichweite-Charts stürmen„, sagt Michalsky. „Mit dem Bewertungssystem sind plötzlich Artikel aus Kultur oder Wissenschaft die Nummer Eins, selbst wenn sie auf die Reichweite bezogen nur auf dem zwölften Platz wären. Und unsere direkten Nachrichtenbeiträge erreichen sogar vergleichsweise hohe Interaktionsraten.

Die Werte der einzelnen Autoren werden nicht getrackt, wohl aber können Autoren über das CMS die spezifischen Daten für alle ihre Artikel herausfinden. Die Welt arbeitet aktuell an der Einführung eines Echtzeitwertes, um den Mitarbeitern die Überwachung der Seite zu vereinfachen.

Dieser Artikel erschien zuerst auf „Nieman Journalism Lab“ unter CC BY-NC-SA 3.0 US. Übersetzung mit freundlicher Genehmigung der Redaktion.


Image „Die Welt Balloon over Berlin“ by Thomasz Sienicki[CC by 3.0]


Weiterlesen »

Wie Computer die Wissenschaft kaputt machen

Historic Computer (image by U.S. Army Photo [CC0 Public Domain])

Die Reproduzierbarkeit ist einer der Grundpfeiler der Wissenschaft. Bekannt geworden ist die Idee durch den britischen Wissenschaftler Robert Boyle um 1660. Grundsätzlich geht es darum, dass eine Entdeckung reproduzierbar sein muss, um wissenschaftlich anerkannt zu werden. Im Grunde sollte gelten, dass jeder die gleichen Ergebnisse erhält, wenn man die vorgeschriebene Methode exakt folgt. Beispielsweise, wenn Forscher die Effektivität einer neuen medizinischen Droge reproduzieren können, dann ist das ein gutes Zeichen, dass dies für alle potenziellen Patienten gilt. Sollte dies nicht der Fall sein, dann sollte man sich wundern, ob beim Reproduzieren oder beim Originalversuch etwas anders verlief, was zu dem unterschiedlichen Ergebnis geführt hat. Damit wäre die Effektivität der Droge mindestens in Frage gestellt.

Für die meiste Zeit in der Wissenschaft haben Forscher ihre Methoden so vorgestellt, dass eine unabhängige Reproduktion der Ergebnisse möglich ist. Aber seit der Einführung des PC – und damit auch der Einführung der “Point-and-Click”-Software, die alles immer mehr benutzerfreundlich machen – ist die Reproduzierbarkeit von Forschungsergebnissen mehr als fragwürdig, wenn nicht gar unmöglich geworden. Ein zu großer Anteil des Forschungsprozesses ist verschleiert in der schwer zu durchschauenden Nutzung von Computern, von der Wissenschaftler inzwischen abhängig sind. Das macht es fast unmöglich, um im Nachhinein, als Externer, die Ergebnisse nachzuvollziehen.

In letzter Zeit haben verschiedene Gruppen einen ähnliche Lösungen für dieses Problem vorgeschlagen. Zusammen würden sie die wissenschaftlichen Daten aus der “Black Box” der undokumentierten Computeralgorithmen aufbrechen und somit unabhängigen Kritikern und Interessenten zugänglich machen, damit diese die Ergebnisse reproduzieren können. Forscher, die Öffentlichkeit und die Wissenschaft selber würden davon profitieren.

Computer arbeiten mit den Daten, verschleiern sie aber auch

Statistikerin Victoria Stodden hat den einzigartigen Platz, den PCs in der Geschichte der Wissenschaft einnehmen, gut beschrieben: Sie sind nicht nur ein Instrument, wie ein Teleskop oder Mikroskop, das neue Forschung ermöglicht. Der Computer ist in anderer Weise revolutionär; es ist eine kleine Fabrik für neue Sichtweisen und Korrelation in wissenschaftlichen Daten.

Es ist schwer einen modernen Forscher zu finden, der keinen Computer für seine Arbeit nutzt, selbst in Forschungsbereichen, die nur einen geringen Anteil an quantitativen Inhalten haben. Ökologen nutzen Computer, um Effekte von Naturkatastrophen an Tierpopulationen zu simulieren. Biologen nutzen Computer, um die enorme DNA-Datenmenge zu durchsuchen. Astronomen nutzen Computer, um ihre große Anzahl an Teleskopen zu steuern und dann die erstellten Daten entsprechend darzustellen.

Ozeanographen nutzen Computer, um Daten von Satelliten, Schiffen und Messbojen zusammenzuführen um globale Klimaveränderungen vorherzusagen. Sozialwissenschaftler nutzen Computer, um Effekte von politischen Veränderungen, z.B. durch Interviews, zu messen und vorherzusagen. Computer helfen Forschern in fast allen Disziplinen durch das Analysieren von Daten, was den Forschern hilft, Kernthesen zu bestimmen.

Computer sind auch persönliche Geräte. Gewöhnlich haben wir ein exklusives Gerät nur für die eigene Nutzung; und die Daten und Ordner auf dem Gerät sind grundsätzlich als Privatsphäre anzusehen. Die Vorbereitung der Daten, die Analyse und die Visualisierung der Ergebnisse, sind alles Aufgaben und Tätigkeiten, die privat auf dem Computer erledigt werden. Nur am Ende der Prozesskette entsteht ein öffentlich einsehbares Ergebnis, zum Beispiel als Journalartikel, welches die privaten Arbeitsergebnisse zusammenfasst.

Das Problem ist, dass die heutige Wissenschaft so kompliziert geworden ist, und die meisten Journalartikel zusätzlich sehr kurz sind, beziehungsweise sein müssen. Das macht es unmöglich, alle wichtigen Details, wie genutzte Methoden, Entscheidungen des Forschers und die Datenanalyse des Computers, mit in den Artikel aufzunehmen. Wie soll ein externer Forscher unter diesen Umständen die Zuverlässigkeit der Ergebnisse bewerten können, geschweige denn diese reproduzieren?

computer-us-army

Wie viel Transparenz müssen Wissenschaftler offenlegen?

Die Statistiker Jonathan Buckheit und David Donoho aus Stanford haben die Problematik schon 1995 beschrieben, zu einem Zeitpunkt in dem der PC noch eine relativ neue Idee war.

Ein Artikel über Computer-Ergebnisse in einem wissenschaftlichen Magazin ist keine Wissenschaft; es ist allein die Bewerbung der Erkenntnis. Die echte Leistung ist aber die komplette Entwicklung der Software und der Anweisungen, die dann die Ergebnisse generiert haben.

Sie stellen eine radikale Behauptung auf. Sie meinen, dass all die privaten Dateien auf unseren privaten Geräten und die privaten analytischen Tätigkeiten, die während der harten Arbeit für die Publikation durchgeführt worden sind, öffentlich gemacht werden sollten, wenn der Artikel erscheint.

Das wäre eine große Veränderung in der Art und Weise wie Wissenschaftler arbeiten. Wir müssten von Beginn an alles vorbereiten, so dass alles was wir am Computer durchführen später entsprechend veröffentlicht werden kann. Für viele Forscher ist die Vorstellung schon überwältigend, im negativen Sinne. Victoria Stodden nennt das stärkste Gegenargument für das Teilen aller Dateien: Es benötigt einfach zu viel Zeit, diese Daten entsprechend aufzubereiten und zu dokumentieren. Außerdem besteht das Risiko, dass die dann öffentliche Leistung von Fremden genutzt wird, ohne das der Autor kreditiert wird.

Ein neues Tool um die Reproduzierbarkeit zu verbessern

In letzter Zeit haben verschiedene Gruppen von Wissenschaftlern sich zusammengetan und sich auf Empfehlungen für Tools und Methoden geeinigt, die das grundsätzliche Dokumentieren der Methoden und die Analysen der Computer vereinheitlichen und vereinfachen. Teile der Gruppe sind Biologen, Ökologen, Nuklearforscher, Neurologen, Ökonomen und Politikwissenschaftler. Über Manifeste ähnelnde Grundsatzpapiere wird ihre Empfehlung dargelegt. Wenn Forscher aus so vielen verschiedenen Feldern sich auf eine Arbeitsgrundlage verständigen können, dann ist das ein Vorzeichen für eine grundsätzliche Veränderung in der wissenschaftlichen Arbeit.

Ein Hauptteil der Empfehlung beinhaltet die Minimierung, beziehungsweise den kompletten Austausch, der “Point-and-Click”-Prozeduren während der Datenanalyse, durch die Benutzung von Skripten, die dann durch genaue Anleitung auf dem Computer ausgeführt werden können. Das löst das Problem, dass man sonst die Maus-Aktivitäten aufnehmen müsste, welche schwer zu dokumentieren und auch anschließend zu kommunizieren sind. Sie werden aber beispielsweise bei der Datenbereinigung und beim Organisieren der Aufgaben in Microsoft Excel meistens genutzt.

Die Vorteile eines Skriptes sind zahlreich; es gibt klare Instruktionen und auch in der Zukunft kann man ohne Detailwissen die Vorgehensweise weitestgehend nachvollziehen. Diese Skripte könnten Teil der Artikel werden, da sie nicht zu groß sind. Die Automatisierung und damit auch die Reduzierung von menschlichen Fehlern sind weitere Gründe für die Einführung von Skripten in der Wissenschaft.

Beispiele dieser Anwendungen können wir schon jetzt in der Mikrobiologie, der Ökologie, den Politikwissenschaften und der Archäologie finden. Anstatt die Maus durch Menüs zu führen, Zellen in Tabellen zu editieren und Dateien zwischen verschiedenen Programmen hin- und herzuschieben, um die Ergebnisse zu erhalten, nutzen die Forscher nun Skripte. Diese automatisieren das Bewegen von Dateien, das Bereinigen von Daten, die statistische Analyse und die Erstellung von Graphen und Tabellen.

Das ganze erspart viel Zeit beim Kontrollieren der Analyse, da man diese nicht mehrfach ausführen muss. Zusätzlich kann jeder den Code des Skriptes sehen und somit jeden Schritt für sich nachvollziehen, der zu den veröffentlichen Ergebnissen geführt hat.

Andere Empfehlungen beinhalten die einheitliche Nutzung von nicht-proprietären Dateiformaten (wie CSV, oder “comma separated variables” für Tabellen) und einfachen Rubriken für systematisch organisierte Dateien, damit Externe immer noch verstehen, wie die Informationen strukturiert worden sind. Sie empfehlen frei verfügbare Software, die auf allen Computersystemen (z.B. Windows, Mac und Linux) funktionieren und die Analyse und Virtualisierung übernehmen (wie z.B. R und Python). Für die Zusammenarbeit empfehlen Sie ein kostenloses Programm namens Git, welches die Nutzer unterstützt, die Veränderungen von anderen Nutzern im gleichen Dokument zu sehen und zu verstehen.

Derzeit werden diese Tools nur von der Avantgarde genutzt; die meisten erfahrenden Forscher haben nur eine gewisse Ahnung, dass derartige Programme existieren. Bereits viele Bachelor-Studierende nutzen und lernen bereits mit diesen Tools; Master-Studierende verstehen die Vorteile des Organisierens mithilfe von offenen Formaten, freier Software und gradliniger Zusammenarbeit. Sie nehmen an freiwilligen Kursen von Organisationen teil, wie zum Beispiel Software CarpentryData Carpentry und rOpenSci, die die Marktlücken in Form von professionellen Trainings füllen.

Meine Universität hat kürzlich begonnen ein eScience-Institut zu gründen, in dem Forschern geholfen wird, die beschriebenen Empfehlungen zu adaptieren. Unser Institut ist Teil einer größeren Bewegung, welche auch andere Universitäten, wie Berkeley oder die New York University, wahrnehmen.

Dadurch, dass Studenten diese Fähigkeiten weiter erlernen und später in den Entscheidungspositionen sitzen, wird diese Veränderung, die Einführung von Standard-Protokollen und Prozeduren, in den nächsten Jahren sichtbar werden. Akademische Journals werden als Teil der Publikation, die Skripte und Dateien anfordern. Finanzielle Institutionen werden verlangen, dass auch sie in den öffentlich verfügbaren Magazinen platziert werden.

skript-zur-datenanalyse
Screenshot eines Skripts zur Datenanalyse von Ben Marwick

Offene Formate und freie Software sind ein Gewinn für alle

Die Veränderung der Art und Weise wie Forscher Computer nutzen, wird für die Wissenschaft vorteilhaft sein. Sobald die Forscher sich daran gewöhnt haben, ihre Dateien und Methoden zu teilen, werden auch Teile der Öffentlichkeit einen besseren Zugang zu der wissenschaftlichen Forschung haben. Beispielweise wird ein Gymnasiallehrer seinen Schülern die Rohdaten einer kürzlich publizierten Entdeckung zeigen und ihnen die Analyse Schritt für Schritt anhand des Skriptes erklären können.

Genauso funktioniert es für Forscher, die immer mehr freie und kostenlose Software nutzen. Teile der Öffentlichkeit werden die gleiche Software nutzen und die Ergebnisse entsprechend reproduzieren können. Derzeit nutzen viele Forscher teure kommerzielle Software, was dazu führt, dass Menschen außerhalb von Universitäten oder Unternehmen, diese nicht entsprechend analysieren können.

Natürlich ist der Computer nicht der einzige Grund für die Problematik des Reproduzierens in der Wissenschaft. Schlechtes experimentelles Design, unangebrachte statistische Methoden, eine konkurrenzbetonte Umgebung und der hohe Stellenwert für Veröffentlichungen in angesehenen Journalen, gehören ebenfalls dazu.

Das Einzigartige an der Problematik mit dem Computer ist, dass diese durchaus lösbar ist. Wir haben klare Empfehlungen für Tools, ausgeprobte Methoden aus der Computer-Wissenschaft, die die Reproduzierbarkeit stark verbessert, egal welcher Forscher aus einer Wissenschaft diese durchführt. Mit nur einem kleinen Aufwand an Zeit, um diese Tools zu erlernen, können wir die Grundpfeiler der Wissenschaft wiederaufleben lassen.

Dieser Artikel erschien zuerst auf “The Conversation” unter CC BY-ND 4.0. Übersetzung mit freundlicher Genehmigung der Redaktion.


Teaser & Images by U.S. Army Photo (CC0 Public Domain)


CHIEF-EDITOR’S NOTE: Wenn Ihnen unsere Arbeit etwas wert ist, zeigen Sie es uns bitte auf Flattr oder indem Sie unsere Reichweite auf Twitter, Facebook, Google+, Soundcloud, Slideshare, YouTube und/oder Instagram erhöhen. Vielen Dank. – Tobias Schwarz

The Conversation

Weiterlesen »

5 Lesetipps für den 2. September

In unseren Lesetipps geht es heute gleich zweimal um Geld verdienen im Journalismus, Selfies, die Tyrannei der E-Mail und Kommentare auf Süddeutsche.de. Ergänzungen erwünscht.

  • JOURNALISMUS I Fachjournalist: Journalistische Start-ups (Teil 1): Werbung macht’s möglich: Auf Fachjournalist.de schreibt unsere Autorin Katharina Brunner über journalistische Startups. Im ersten Teil ihrer zweiteiligen Artikelserie steht die Finanzierung durch Werbung im Vordergrund. Am Beispiel von Da Hog’n und Mobilbranche.de zeigt sie, dass Geld verdienen mit Journalismus sich immer noch moralischer Kritik ausgesetzt sieht, aber auch in der Nische gut funktionieren kann.

  • SELFIES BBC: Health and life expectancy revealed through analysis of a ‚Selfie‘: Die Forschungsgruppe „Face Aging Group“ der Universität von North Carolina hat ein Programm entwickelt, dass mit zusätzlichen Infos hochgeladene Selfies analysiert und Aussagen zum Alter und Gesundheitszustand macht. Wäre das ein privates Unternehmen, hätte ich dieses Projekt wohl als Datenmagnet kritisiert, aber unter dem Aspekt der Forschung ist es interessant, dass etwas, was man wirklich einmal ab und zu machen sollte, sich selber im Spiegel begutachten, mithilfe von Selfies und Algorithmen vielleicht sogar förderlich für unsere Gesundheit sein kann.

  • ARBEIT 2.0 NYTimes.com: End the Tyranny of 24/7 Email: Gestern war in den USA der Tag der Arbeit, also Zeit für einen Artikel, der vor allem mit dieser Überschrift auch im Feuilleton der F.A.Z. hätte stehen können: Beendet die Tyrannei der 24/7 E-Mail. Worum es aber Clive Thompson geht, ist ein ähnliches Schutzniveau von modernen Arbeitern, wie es unsere Vorfahren in der Vergangenheit erkämpft haben. Gewerkschaftliche Errungenschaften wie die 35-Stunden-Woche sind in Zeiten von E-Mails alles andere als praktikabel durchzusetzen. Sie sind aber wichtig, denn Forschungen zeigen, dass wir ohne genügend Ruhephasen ganz einfach kaputt gehen. Solche sozialdemokratischen Forderungen aus dem letzten Jahrtausend mögen in Zeiten der digitalisierten und globalisierten Arbeitswelt unpassend klingen, sie sind aber wichtig, weshalb wir uns mehr mit unserem Arbeitsalltag auseinandersetzen sollten.

  • KOMMENTARE Süddeutsche.de: Lassen Sie uns diskutieren: Auf Sueddeutsche.de stellt Daniel Wüllner, Redakteur für den Leserdialog, die kommende Umgestaltung der Diskussionsforen und des Leserdialogs vor. Direkter, konzentrierter und besser moderiert will die SZ künftig ins Gespräch mit ihren Lesern kommen. Statt der klassischen Kommentarfunktion unter Artikeln soll es Debatten zu drei Themen des Tages geben. Neue Debattenwege sollen ebenso ausprobiert werden. Eine spannende Entwicklung, denn die Kommentarkultur im Internet ist etwas, dass wirklich sehr viele Schattenseiten haben kann, besonders bei kontroversen Themen. Ein intensiverer Dialog mit Lesern ist aber für ein Medium heutzutage eine Notwendigkeit des Community-Managements. Es wird spannend zu sehen sein, wie sich die SZ dem annimmt.

  • JOURNALISMUS II Online Marketing News: Wie sich der Journalismus durch Klicks und Traffic verändern wird: Das Viralität im Journalismus an Bedeutung gewinnt ist kein neuer Trend, aber bisher wurden diese Auswirkungen meist nur negativ betrachtet. Es würde solchem Journalismus an Substanz fehlen. Doch guter und viraler Journalismus kann für die Menschen, die ihn praktizieren auch ein Gewinn werden, wie Roger Taiber erklärt. Die USA zeigen da mal wieder den Weg. Dort werden Praktikanten schon jetzt nach Page Views bezahlt. Das bedeutet, dass Journalisten noch mehr nach ihrem Wert als Marke bezahlt werden könnten und die Orientierung an Klickzahlen eine nachvollziehbare und leistungsorientierte Bezahlung ermöglicht. Trotzdem wird es noch klassische Bezahlmodelle brauchen, damit Viralität nicht das einzige Kriterium wird.

Nutze Netzpiloten 1-Klick: Mit nur einem Klick werden dir bequem alle 40 Sekunden die hier besprochenen Seiten „vorgeblättert“ START.

Weiterlesen »

Verfassungsrichter Masing kritisiert „Recht auf Vergessen“-Urteil

Never Forget (Bild: MsSaraKelly [CC BY 2.0], via Flickr)

Der Redaktion von iRights.info liegt ein Papier des Bundesverfassungsrichters Johannes Masing vor, in dem das „Recht auf Vergessen“-Urteil des Europäischen Gerichtshofs fundiert kritisiert wird. // von Tobias Schwarz

Never Forget (Bild: MsSaraKelly [CC BY 2.0], via Flickr)

Richter Johannes Masing ist beim Bundesverfassungsgericht für Verfahren zu Pressefreiheit, Demonstrationsrecht und Datenschutz zuständig. Schon einer Woche nach Verkündung des „Recht auf Vergessen“-Urteil des Europäischen Gerichtshof hat Masing eine kritische Analyse des Urteils erstellt und vertraulich an Politik und Datenschützer verschickt. Auf iRights.info stellt Matthias Spielkamp das immer noch unveröffentlichte Papier genauer vor.

Weiterlesen »

Weiterlesen »

5 Lesetipps für den 14. Juli

In unseren Lesetipps geht es heute um Netzneutralität, Ulrike Langer über Journalismus, die Zukunft des Buchhandel und Big Data bei der Weltmeisterschaft im Männerfußball. Ergänzungen erwünscht.

  • NETZNEUTRALITÄT TechCrunch: 647,000 Comments Have Been Sent To The FCC About Net Neutrality: Ende Mai berichtete der Moderator John Oliver in seiner Late Night-Show über das Thema Netzneutralität und die Pläne der US-Handelskommission FCC, diese abzuschaffen. Die FCC hat eine bis dahin nicht sehr beachtete Online-Kommentarfunktion zu der geplanten Reform, auf die Oliver hinwies und seiner Zuschauer bat, dort ihre Meinung zu den für das Internet gefährlichen Plänen zu hinterlassen. Mehr als 647.000 kommentierten daraufhin die Pläne des FCC.
  • JOURNALISMUS Journalist: Interview mit Ulrike Langer: Ulrike Langer ist mehr als nur eine freie Journalistin unter vielen: Sie begreift sich als eigene Medienmarke; das Internet ist ihre Marketing-Plattform. Im Interview mit „Journalist“ erzählt sie, warum genau diese Berufsauffassung der zukünftige Schlüssel zum journalistischen Erfolg ist und was Blogger mit Hobbychirurgen zu tun haben.
  • BUCHHANDEL I Spiegel Online: Über Amazon, Buchmarkt, Literaturbetrieb und Medienkrise: „Begrüßt die neue Zeit mit einer Rose im Mund“, schreibt die Schweizer Schriftstellerin Sibylle Berg in ihrer Kolumne auf Spiegel Online. Statt die Vergangenheit zu betrauern, sollten wir uns ihrer Meinung nach überlegen, wie wir den Buchmarkt von morgen selbst gestalten können – und weder Leser noch Autoren für Idioten halten.
  • BUCHHANDEL II More Intelligent Life: Let’s reinvent the bookshop: Nach Sibylle Bergs Plädoyer für mehr Mut in der Buch- und Literaturbranche zum Wandel sollte man die von der Journalistin Rosanna de Lisie eingessamelten Ideen von vier Architekten und Designer lesen, wie eine in Zeiten von Amazon, E-Books und Medienkrise eine Buchhandlung in Zukunft aussehen sollte.
  • BIG DATA Handelsblatt: Der neue deutsche Co-Trainer ist eine App: Auf Handelsblatt.de stellt Axel Postinett ein interessantes Detail der Arbeit des Trainerstabs der Nationalmannschaft im Männerfußball vor. Mithilfe einer Datenbank-Analysesoftware von SAP sind die Trainer auch am Spielfeldrand in Echtzeit über alle Daten des Spiels informiert. Acht Kameras liefern 5000 Datenpunkte pro Spiel, deren Analyse die Trainer via App sofort abrufen können.

Nutze Netzpiloten 1-Klick: Mit nur einem Klick werden dir bequem alle 40 Sekunden die hier besprochenen Seiten „vorgeblättert“ START.

Weiterlesen »

Gnip übernommen: Twitter weitet Daten-Business aus

Locals and Tourists (adapted) (Image by Mapbox [CC BY 2.0] via Flickr)

Mit der Akquise des Social Data-Analyst Gnip geht Twitter den nächsten Schritt zum Ausbau des eigenen Werbegeschäfts. Daten sind Macht und Geld. Das wissen insbesondere all jene Unternehmen, die von dieser Macht – und dem Geld – leben. Neben Amazon, Facebook oder Google sind das etwa Yahoo, Microsoft, Apple oder Twitter – letztlich jeder, der was mit diesem Internet und Nutzerdaten macht. Neben den großen Playern sind das auch kleinere Firmen, die ihr Geschäft auf die Auswertung und Aufbereitung von Daten spezialisiert haben.

Neue Einnahmequellen müssen erschlossen werden

Da wären etwa Topys, das im vergangenen Jahr von Apple gekauft wurde, oder Gnip, das jüngst von Twitter aquiriert wurde. Twitter baut damit das Geschäft mit Datenanalysen weiter aus. So kooperiert Twitter ja bereits mit Nielsen, um in den USA ein „Social TV Rating“ anzubieten oder mit diversen anderen Firmen, die wissen wollen, wie gut sie oder ihre Inhalte in den Kurznachrichten wegkommen. Genau auf diesem Gebiet verdienen auch Topsy und Gnip ihr Geld: Sammeln, analysieren, auswerten und darstellen von Daten.

Und da dieser Markt wächst und wächst, versucht Twitter nun, die Einnahmen, die mit den hauseigenen Daten generiert werden, besser kontrollieren zu können. Schließlich könnte Twitter daraus eine saftige Einnahmequelle generieren, nachdem der Verkauf von hervorgehobenen Tweets ja nach wie vor nicht sonderlich gut läuft.

Kein Kaufpreis bekannt

Gnip ist derweil seit vier Jahren Kooperationspartner von Twitter und hat laut eigenen Angaben bereits über 2,3 Milliarden Tweets an Kunden in über 42 Ländern geliefert. Mit der Kooperation, so Gnip-Chef Chris Moody, könne man nun beide Stärken vereinen und wesentlich schneller und tiefer analysieren. „Diese Übernahme signalisiert klar das Bewusstsein, dass Investitionen in Social Data wichtiger sind denn je„, schreibt er.

Über den Kaufpreis, den Twitter für das Unternehmen auf den Tisch gelegt hat, ist noch nichts bekannt. Gnip-Konkurrent Topsy war Apple im Dezember 2013 rund 147 Millionen Euro wert, Gnip dürfte aber etwas höher bewertet werden. Viel mehr Details sind über die Übernahme nicht bekannt, Moody möchte in den nächsten Monaten weiteres verraten. Die Twitter-Aktie reagierte am Dienstag positiv auf die Nachrichten.


Image (adapted) „Locals and Tourists“ by Mapbox (CC BY 2.0)


Weiterlesen »

Immersion: Analyse-Tool für das eigene Gmail-Konto

Eine kleine PRISM-Affäre für das eigene Gmail-Postfach: Mit dem Projekt Immersion vom MIT lässt sich das eigene Gmail-Konto grafisch ansprechend analysieren.

immersion-gmail-metadaten-demo-2

Wie stehen eigentlich die Empfänger meiner E-Mails zueinander in Kontakt und wie viele Mails habe ich mit wem bereits gewechselt? Um diese Fragen zu beantworten muss man sich nicht erst an die NSA wenden, im Media-Lab des MIT wurde für diesen Zweck Immersion entwickelt. Dabei handelt es sich um eine Web-App, mit der sich das eigene Gmail-Postfach analysieren und in einem schicken Netzwerk darstellen lässt.

Weiterlesen »

Weiterlesen »

Big Data als verkäuferischer Geniestreich: Die grausame Welt der Daten

Das Modewort Big Data bringt die Augen vieler Scharlatane zum Leuchten. So lange die Datenanalyse in den Kinderschuhen steckt, sollten wir aber lieber auf etwas vertrauen, das die Natur uns mitgegeben hat.

Big Data (Bild: Michael Saechang, CC BY-SA)

Angeblich vertrauen Führungskräfte in den Unternehmen immer weniger ihrer Intuition. Zu diesem Befund kommt zumindest die Unternehmensberatung Actinium in Lindau am Bodensee. Die Mehrheit setze auf Entscheidungen, die sogenannte Business-Intelligence-Systeme generieren.

Weiterlesen »

Weiterlesen »

Amazon.de nach dem Shitstorm: Fans bleiben treu, trotz herber Kritik

Nach TV-Beitrag: Amazon.de versinkt auf Facebook im Shitstorm

Der Amazon-Shitstorm hat die sozialen Medien bewegt. Nun ist er vorbei und was bleibt ist ein laues Lüftchen. Nico Pliquett hat die Causa Amazon ein zweites Mal analysiert.

Nach TV-Beitrag: Amazon.de versinkt auf Facebook im Shitstorm

Amazon.de hat es wohl hinter sich. Am Abend des 13. Februar hatte die ARD über Missstände bei Deutschlands größtem Onlinehändler berichtet – noch in der Nacht brach über Amazon.de auf Facebook ein Shitstorm herein, klassische Medien heizten die Stimmung weiter an. Inzwischen beruhigt sich die Lage. socialBench hat sich die Zahlen nach dem Sturm angeschaut.

Weiterlesen »

Weiterlesen »

Algorithmen über kriminelles Verhalten – Daten sind der neue Ölsand

Daten sind der neue Ölsand
Als Clive Humby im Jahr 2006 den Satz prägte: „Data is the new Oil“, konnte er nicht ahnen, wieviele Berater diese Erkenntnis für sich in Anspruch nehmen würden. Seltsam nur, dass Humby zu einer Zeit Personalisierung propagierte, als Google+ noch nicht einmal in der Planung war. Und so verwundert es auch nicht, dass die Nachplapperer des Satzes, den Kontext, in dem er fiel, nie aufschlüsselten. Angesichts der wundersamen Verkürzung der Problematik auf individualisierte Werbung, wird es Zeit für eine kleine Rundreise durchs Dorf namens Daten und ihre Atome namens Zeichen. Denn uns allen droht etwas Schlimmeres als Empfehlungsalgorithmen zum vielleicht besseren Einkaufen: Empfehlungsalgorithmen über kriminelles Verhalten (INDECT).

Weiterlesen »

Weiterlesen »

Top-Blogs analysiert

Jan Schmidt hat sich Zeit genommen und analysiert zusammen mit seinen Studenten die deutschen Blogcharts.
Fazit: „Mit dem Alter eines Blogs steigt die Chance, dass es Aufmerksamkeit auf sich zieht, die in Form von Verlinkungen in die Chartplatzierung eingeht. Deswegen haben ältere Blogs eine höhere Chance, in die Charts zu gelangen; dass dennoch manche Blogs in die DBC gekommen sind, die erst 2006 gegründet wurden, spricht für eine gewisse Offenheit der Top-Blogs.“ Außerdem überwiegt die Anzahl männlicher „Top“-Blogger deutlich.

Teil I und Teil II der Analyse.
[tags]analyse,top,charts[/tags]

Weiterlesen »