Wie Computer die Wissenschaft kaputt machen

Die Reproduzierbarkeit ist einer der Grundpfeiler der Wissenschaft. Bekannt geworden ist die Idee durch den britischen Wissenschaftler Robert Boyle um 1660. Grundsätzlich geht es darum, dass eine Entdeckung reproduzierbar sein muss, um wissenschaftlich anerkannt zu werden. Im Grunde sollte gelten, dass jeder die gleichen Ergebnisse erhält, wenn man die vorgeschriebene Methode exakt folgt. Beispielsweise, wenn Forscher die Effektivität einer neuen medizinischen Droge reproduzieren können, dann ist das ein gutes Zeichen, dass dies für alle potenziellen Patienten gilt. Sollte dies nicht der Fall sein, dann sollte man sich wundern, ob beim Reproduzieren oder beim Originalversuch etwas anders verlief, was zu dem unterschiedlichen Ergebnis geführt hat. Damit wäre die Effektivität der Droge mindestens in Frage gestellt.

Für die meiste Zeit in der Wissenschaft haben Forscher ihre Methoden so vorgestellt, dass eine unabhängige Reproduktion der Ergebnisse möglich ist. Aber seit der Einführung des PC – und damit auch der Einführung der “Point-and-Click”-Software, die alles immer mehr benutzerfreundlich machen – ist die Reproduzierbarkeit von Forschungsergebnissen mehr als fragwürdig, wenn nicht gar unmöglich geworden. Ein zu großer Anteil des Forschungsprozesses ist verschleiert in der schwer zu durchschauenden Nutzung von Computern, von der Wissenschaftler inzwischen abhängig sind. Das macht es fast unmöglich, um im Nachhinein, als Externer, die Ergebnisse nachzuvollziehen.

In letzter Zeit haben verschiedene Gruppen einen ähnliche Lösungen für dieses Problem vorgeschlagen. Zusammen würden sie die wissenschaftlichen Daten aus der “Black Box” der undokumentierten Computeralgorithmen aufbrechen und somit unabhängigen Kritikern und Interessenten zugänglich machen, damit diese die Ergebnisse reproduzieren können. Forscher, die Öffentlichkeit und die Wissenschaft selber würden davon profitieren.

Computer arbeiten mit den Daten, verschleiern sie aber auch

Statistikerin Victoria Stodden hat den einzigartigen Platz, den PCs in der Geschichte der Wissenschaft einnehmen, gut beschrieben: Sie sind nicht nur ein Instrument, wie ein Teleskop oder Mikroskop, das neue Forschung ermöglicht. Der Computer ist in anderer Weise revolutionär; es ist eine kleine Fabrik für neue Sichtweisen und Korrelation in wissenschaftlichen Daten.

Es ist schwer einen modernen Forscher zu finden, der keinen Computer für seine Arbeit nutzt, selbst in Forschungsbereichen, die nur einen geringen Anteil an quantitativen Inhalten haben. Ökologen nutzen Computer, um Effekte von Naturkatastrophen an Tierpopulationen zu simulieren. Biologen nutzen Computer, um die enorme DNA-Datenmenge zu durchsuchen. Astronomen nutzen Computer, um ihre große Anzahl an Teleskopen zu steuern und dann die erstellten Daten entsprechend darzustellen.

Ozeanographen nutzen Computer, um Daten von Satelliten, Schiffen und Messbojen zusammenzuführen um globale Klimaveränderungen vorherzusagen. Sozialwissenschaftler nutzen Computer, um Effekte von politischen Veränderungen, z.B. durch Interviews, zu messen und vorherzusagen. Computer helfen Forschern in fast allen Disziplinen durch das Analysieren von Daten, was den Forschern hilft, Kernthesen zu bestimmen.

Computer sind auch persönliche Geräte. Gewöhnlich haben wir ein exklusives Gerät nur für die eigene Nutzung; und die Daten und Ordner auf dem Gerät sind grundsätzlich als Privatsphäre anzusehen. Die Vorbereitung der Daten, die Analyse und die Visualisierung der Ergebnisse, sind alles Aufgaben und Tätigkeiten, die privat auf dem Computer erledigt werden. Nur am Ende der Prozesskette entsteht ein öffentlich einsehbares Ergebnis, zum Beispiel als Journalartikel, welches die privaten Arbeitsergebnisse zusammenfasst.

Das Problem ist, dass die heutige Wissenschaft so kompliziert geworden ist, und die meisten Journalartikel zusätzlich sehr kurz sind, beziehungsweise sein müssen. Das macht es unmöglich, alle wichtigen Details, wie genutzte Methoden, Entscheidungen des Forschers und die Datenanalyse des Computers, mit in den Artikel aufzunehmen. Wie soll ein externer Forscher unter diesen Umständen die Zuverlässigkeit der Ergebnisse bewerten können, geschweige denn diese reproduzieren?

computer-us-army

Wie viel Transparenz müssen Wissenschaftler offenlegen?

Die Statistiker Jonathan Buckheit und David Donoho aus Stanford haben die Problematik schon 1995 beschrieben, zu einem Zeitpunkt in dem der PC noch eine relativ neue Idee war.

Ein Artikel über Computer-Ergebnisse in einem wissenschaftlichen Magazin ist keine Wissenschaft; es ist allein die Bewerbung der Erkenntnis. Die echte Leistung ist aber die komplette Entwicklung der Software und der Anweisungen, die dann die Ergebnisse generiert haben.

Sie stellen eine radikale Behauptung auf. Sie meinen, dass all die privaten Dateien auf unseren privaten Geräten und die privaten analytischen Tätigkeiten, die während der harten Arbeit für die Publikation durchgeführt worden sind, öffentlich gemacht werden sollten, wenn der Artikel erscheint.

Das wäre eine große Veränderung in der Art und Weise wie Wissenschaftler arbeiten. Wir müssten von Beginn an alles vorbereiten, so dass alles was wir am Computer durchführen später entsprechend veröffentlicht werden kann. Für viele Forscher ist die Vorstellung schon überwältigend, im negativen Sinne. Victoria Stodden nennt das stärkste Gegenargument für das Teilen aller Dateien: Es benötigt einfach zu viel Zeit, diese Daten entsprechend aufzubereiten und zu dokumentieren. Außerdem besteht das Risiko, dass die dann öffentliche Leistung von Fremden genutzt wird, ohne das der Autor kreditiert wird.

Ein neues Tool um die Reproduzierbarkeit zu verbessern

In letzter Zeit haben verschiedene Gruppen von Wissenschaftlern sich zusammengetan und sich auf Empfehlungen für Tools und Methoden geeinigt, die das grundsätzliche Dokumentieren der Methoden und die Analysen der Computer vereinheitlichen und vereinfachen. Teile der Gruppe sind Biologen, Ökologen, Nuklearforscher, Neurologen, Ökonomen und Politikwissenschaftler. Über Manifeste ähnelnde Grundsatzpapiere wird ihre Empfehlung dargelegt. Wenn Forscher aus so vielen verschiedenen Feldern sich auf eine Arbeitsgrundlage verständigen können, dann ist das ein Vorzeichen für eine grundsätzliche Veränderung in der wissenschaftlichen Arbeit.

Ein Hauptteil der Empfehlung beinhaltet die Minimierung, beziehungsweise den kompletten Austausch, der “Point-and-Click”-Prozeduren während der Datenanalyse, durch die Benutzung von Skripten, die dann durch genaue Anleitung auf dem Computer ausgeführt werden können. Das löst das Problem, dass man sonst die Maus-Aktivitäten aufnehmen müsste, welche schwer zu dokumentieren und auch anschließend zu kommunizieren sind. Sie werden aber beispielsweise bei der Datenbereinigung und beim Organisieren der Aufgaben in Microsoft Excel meistens genutzt.

Die Vorteile eines Skriptes sind zahlreich; es gibt klare Instruktionen und auch in der Zukunft kann man ohne Detailwissen die Vorgehensweise weitestgehend nachvollziehen. Diese Skripte könnten Teil der Artikel werden, da sie nicht zu groß sind. Die Automatisierung und damit auch die Reduzierung von menschlichen Fehlern sind weitere Gründe für die Einführung von Skripten in der Wissenschaft.

Beispiele dieser Anwendungen können wir schon jetzt in der Mikrobiologie, der Ökologie, den Politikwissenschaften und der Archäologie finden. Anstatt die Maus durch Menüs zu führen, Zellen in Tabellen zu editieren und Dateien zwischen verschiedenen Programmen hin- und herzuschieben, um die Ergebnisse zu erhalten, nutzen die Forscher nun Skripte. Diese automatisieren das Bewegen von Dateien, das Bereinigen von Daten, die statistische Analyse und die Erstellung von Graphen und Tabellen.

Das ganze erspart viel Zeit beim Kontrollieren der Analyse, da man diese nicht mehrfach ausführen muss. Zusätzlich kann jeder den Code des Skriptes sehen und somit jeden Schritt für sich nachvollziehen, der zu den veröffentlichen Ergebnissen geführt hat.

Andere Empfehlungen beinhalten die einheitliche Nutzung von nicht-proprietären Dateiformaten (wie CSV, oder “comma separated variables” für Tabellen) und einfachen Rubriken für systematisch organisierte Dateien, damit Externe immer noch verstehen, wie die Informationen strukturiert worden sind. Sie empfehlen frei verfügbare Software, die auf allen Computersystemen (z.B. Windows, Mac und Linux) funktionieren und die Analyse und Virtualisierung übernehmen (wie z.B. R und Python). Für die Zusammenarbeit empfehlen Sie ein kostenloses Programm namens Git, welches die Nutzer unterstützt, die Veränderungen von anderen Nutzern im gleichen Dokument zu sehen und zu verstehen.

Derzeit werden diese Tools nur von der Avantgarde genutzt; die meisten erfahrenden Forscher haben nur eine gewisse Ahnung, dass derartige Programme existieren. Bereits viele Bachelor-Studierende nutzen und lernen bereits mit diesen Tools; Master-Studierende verstehen die Vorteile des Organisierens mithilfe von offenen Formaten, freier Software und gradliniger Zusammenarbeit. Sie nehmen an freiwilligen Kursen von Organisationen teil, wie zum Beispiel Software Carpentry, Data Carpentry und rOpenSci, die die Marktlücken in Form von professionellen Trainings füllen.

Meine Universität hat kürzlich begonnen ein eScience-Institut zu gründen, in dem Forschern geholfen wird, die beschriebenen Empfehlungen zu adaptieren. Unser Institut ist Teil einer größeren Bewegung, welche auch andere Universitäten, wie Berkeley oder die New York University, wahrnehmen.

Dadurch, dass Studenten diese Fähigkeiten weiter erlernen und später in den Entscheidungspositionen sitzen, wird diese Veränderung, die Einführung von Standard-Protokollen und Prozeduren, in den nächsten Jahren sichtbar werden. Akademische Journals werden als Teil der Publikation, die Skripte und Dateien anfordern. Finanzielle Institutionen werden verlangen, dass auch sie in den öffentlich verfügbaren Magazinen platziert werden.

skript-zur-datenanalyse — Screenshot eines Skripts zur Datenanalyse von Ben Marwick

Offene Formate und freie Software sind ein Gewinn für alle

Die Veränderung der Art und Weise wie Forscher Computer nutzen, wird für die Wissenschaft vorteilhaft sein. Sobald die Forscher sich daran gewöhnt haben, ihre Dateien und Methoden zu teilen, werden auch Teile der Öffentlichkeit einen besseren Zugang zu der wissenschaftlichen Forschung haben. Beispielweise wird ein Gymnasiallehrer seinen Schülern die Rohdaten einer kürzlich publizierten Entdeckung zeigen und ihnen die Analyse Schritt für Schritt anhand des Skriptes erklären können.

Genauso funktioniert es für Forscher, die immer mehr freie und kostenlose Software nutzen. Teile der Öffentlichkeit werden die gleiche Software nutzen und die Ergebnisse entsprechend reproduzieren können. Derzeit nutzen viele Forscher teure kommerzielle Software, was dazu führt, dass Menschen außerhalb von Universitäten oder Unternehmen, diese nicht entsprechend analysieren können.

Natürlich ist der Computer nicht der einzige Grund für die Problematik des Reproduzierens in der Wissenschaft. Schlechtes experimentelles Design, unangebrachte statistische Methoden, eine konkurrenzbetonte Umgebung und der hohe Stellenwert für Veröffentlichungen in angesehenen Journalen, gehören ebenfalls dazu.

Das Einzigartige an der Problematik mit dem Computer ist, dass diese durchaus lösbar ist. Wir haben klare Empfehlungen für Tools, ausgeprobte Methoden aus der Computer-Wissenschaft, die die Reproduzierbarkeit stark verbessert, egal welcher Forscher aus einer Wissenschaft diese durchführt. Mit nur einem kleinen Aufwand an Zeit, um diese Tools zu erlernen, können wir die Grundpfeiler der Wissenschaft wiederaufleben lassen.

Dieser Artikel erschien zuerst auf “The Conversation” unter CC BY-ND 4.0. Übersetzung mit freundlicher Genehmigung der Redaktion.

Teaser & Images by U.S. Army Photo (CC0 Public Domain)

CHIEF-EDITOR’S NOTE: Wenn Ihnen unsere Arbeit etwas wert ist, zeigen Sie es uns bitte auf Flattr oder indem Sie unsere Reichweite auf Twitter, Facebook, Google+, Soundcloud, Slideshare, YouTube und/oder Instagram erhöhen. Vielen Dank. – Tobias Schwarz

Ben Marwick

lehrt Archäologie an der Universität von Washington und ist Forscher auf diesem Gebiet. Seinen Doktor in Archäologie und Naturgeschichte machte er 2008 an der Australian National Universität.

Artikel per E-Mail verschicken
Schlagwörter: analyse, computer, Daten, Forschung, Reproduzierbarkeit, Wissenschaft

Wie Computer die Wissenschaft kaputt machen

Computer arbeiten mit den Daten, verschleiern sie aber auch

Wie viel Transparenz müssen Wissenschaftler offenlegen?

Ein neues Tool um die Reproduzierbarkeit zu verbessern

Offene Formate und freie Software sind ein Gewinn für alle

Ben Marwick

Related Articles

Was genau passiert eigentlich im Darknet?

Lebenslanger Cloud-Speicher bei pCloud bis zu 80% im Angebot

Der große Cloud Storage-Vergleich: Google Drive, One Drive, Dropbox und mehr

Schreibe einen Kommentar Antworten abbrechen