New York Times hat einen Roboter zum einfacheren Tagging gebaut

Das R&D-Lab der New York Times hat ein Programm für die Redaktion entwickelt, das den Text überfliegt, um direkt Vorschläge für Tags zu machen. Trotzdem wird das automatische Tagging-System nicht so schnell in Redaktionen zu finden sein. Wer online schreibt, kennt diesen letzten und mühsamen Teil, bei dem man Tags an seinen Artikel hängt, bevor man ihn in die weite Welt entlässt. Tags und Keywords helfen dem Leser, sich besser in die Artikel und Themen hineinzufinden. Außerdem helfen sie bei der Suche nach weiteren Artikeln. Ein Leser, der im NiemanLab herumstöbert, gerät leicht in den Kaninchenbau, wenn er den ganzen Tags folgt, bei denen Snapchat, Nick Denton oder das Mystery Science Theater 3000 erwähnt wird.

Diese Tags können Redaktionen außerdem dabei helfen, neue Produkte zu kreieren und einfallsreiche Wege zu finden, um Content zusammenzutragen. Das ist einer der Gründe, weshalb das Institut der New York Times Research and Development (kurz: R&D) mit einem neuen Tool herumexperimentiert, das den Taggingprozess automatisiert – und zwar in Echtzeit.

Das Times R&D Editor Tool analysiert Texte, während sie geschrieben werden und empfiehlt währenddessen Tags. Das Ganze ist vergleichbar mit der Rechtschreibprüfung, die falsch geschriebene Worte hervorhebt:

Editor ist ein experimentelles, texteditierendes Interface, das herausfindet, wie die Zusammenarbeit zwischen maschinell lernenden Systemen und Journalisten sich in Hinblick auf detaillierte Kommentare und dem Taggen von Nachrichtenartikeln auswirken kann. Unser Anspruch betrifft Techniken, mit denen Maschinen interaktiv lernen können, ein Teil des Schreibprozesses zu sein, statt rückwirkend zu arbeiten. Dieser Anspruch kann die Arbeitsbelastung reduzieren, die mit den computerbezogenen Prozessen einhergeht, zudem kann es Angebote für Journalisten schaffen, diese Prozesse mit ihrem Wissen zu erweitern, zu bearbeiten und zu korrigieren.

Das System ist ähnlich dem von Open Calais von Thomson Reuters. Hierbei werden Metadaten aus Textdateien jeder Art herausgefiltert. Der Redakteur verbindet den Tag-Körper, der bei der New York Times vorliegt, mit einem künstlichen, neuronalen Netzwerk. Dies ist designed, um dem Autor dabei zu helfen, den Text in ein redaktionelles System einzubinden. Es wird wie folgt erklärt:

Während man in seinen Editor schreibt, wird jedes Wort, jede Phrase und jeder Satz in die Netzwerke abgegeben, so dass jeder Mikroservice den Text durcharbeiten und wichtige Metadaten zurück an das Autor-Interface senden kann. Kommentierte Phrasen werden im Text hervorgehoben, noch während er geschrieben wird. In dem Moment, in dem der Text fertig geschrieben ist, kann man die vorgeschlagenen Tags durchgehen. Dies kostet kaum mehr Mühe als eine Rechtschreibprüfung und die Tags können korrigiert, verifiziert oder gelöscht werden. Der Editor hat ein kontextbezogenes Menü, mit dem der Journalist Kommentare verfassen kann, die nur ein echter Mensch versteht, wie ein Zitat, ein Faktum, einen wesentlichen Punkt, etc.

Wir haben uns angeguckt, was wir machen könnten, wenn wir kleinere Einheiten der Artikel taggen. [Wir dachten] es könnte die erneute Nutzung und auch andere Arten von Präsentationen erhöhen”, sagte Alexis Lloyd, die Kreativdirektorin des Times R&D Lab.

Tags sind gerade das ganz große Ding bei der Times; die Papierausgabe hat ein System, seine Artikel zu ‘taggen’, das schon über 100 Jahre alt ist. Die Metadaten ermöglichen dann Sachen wie Themenseiten. Das Ganze ist ein wichtiger Prozess, der vollkommen manuell vonstattengeht. Man verlässt sich auf Reporter und Redakteure, die eine kontextbezogene Ebene um jeden Artikel legen. Manchmal geht das eben auch schief. Der Innovationsreport der Times hat viele Lücken aufgedeckt, die im System als strategische Schwachstellen entdeckt worden sind:

Niemand denkt mehr an die Metadaten”, sagt John O´Donovan, technischer Leiter der Financial Times. “Alle denken, man kann einfach irgendwelches Zeug machen und danach vergessen, wie es aufgebaut ist und nach welchen Maßstäben man seinen Content beschreibt. All das ist jedoch nutzlos, wenn man keine Metadaten hat. Das Archiv ist voller Zeug, das keinen Wert hat, weil man es nicht finden kann und auch nicht weiß, worum es geht.”

Lloyd sagt, die Idee hinter Editor war nicht nur, den Prozess hinter den Metadaten effizienter zu machen, sondern es auch detaillierter zu gestalten. Indem man ein System nutzt, dass sich Wort für Wort durch die Artikel kämmt, wird die Menge an Daten, die mit Menschen, Orten, Unternehmen und Veranstaltungen verknüpft werden, umso vielfältiger.

Dass die vielen Daten Türen für neue Produkte öffnen, hat Lloyd auch mitgeteilt. “Wenn man die Metadaten besitzt, kann man alle möglichen Plattformen skalieren, wenn sie sich vergrößern”, sagt sie. “Das ist Teil unseres groß angelegten Zukunftsdenkens, wie sich die Nachrichten verändern und als Form oder Format immer komplexer werden.”

Die Reporter der New York Times sehen Editor trotzdem nicht als Teil einer Redaktion, jedenfalls noch nicht auf dem jetzigen Stand. Wie bei vielen Projekten des R&D-Lab ist es auch hier gut möglich, dass Teile vom Editor eines Tages in das Onlinesystem der Times integriert werden. “Wie bei den meisten Prototypen kann man hier neue Ansätze und Möglichkeiten erkunden”, sagt Lloyd. “Es ist nicht dazu gedacht, als Ganzes in die Produktion zu gehen.

Das wichtigste Feature beim automatischen Tagging verlässt sich darauf, dass hier verschiedene Maschinen zusammenarbeiten. Die Idee wurde durch Schwierigkeiten in der Herstellung inspiriert und hat einige Journalisten mit hineingezogen. Um Editor zum Laufen zu kriegen, musste man eine Lösung finden, wie Menschen und Maschinen ihre Stärken gegenseitig ergänzen könnten. Menschen sind gut darin, Kontexte und Verbindungen zu schaffen und darin, Sprache zu verstehen, während die Maschinen riesenhafte Berechnungen vollziehen können und das perfekte Gedächtnis haben. Mike Dewar, Datenforscher beim Times R&D-Lab, sagte, das künstliche Nervennetzwerk ist in der Lage, Verbindungen zwischen Text und Inhaltsverzeichnis eines jeden Artikels im Times-Archiv zu ziehen.

Es hat etwa vier Monate gedauert, um Editor zu programmieren und ein Teil der Zeit wurde darauf verwendet, das neuronale Netzwerk darin zu trainieren, wie ein Reporter bestimmte Artikel taggen würde. Dewar sagte, mit dem Erlernen der Tag-Assoziation durch bestimmte Phrasen oder Worte sei dem Netzwerk ein Meilenstein gelungen. Man könne nun in Zukunft viel einfacher an Texten arbeiten.

Die größte Herausforderung war die Wartezeit. Editor verarbeitet Verbindungen zwischen dem, was geschrieben wird, und dem Tag-Index. Um Editor wirklich effektiv machen zu können, muss es mit der Tippgeschwindigkeit einheitlich funktionieren, sagt Dewar. “Es muss sehr schnell reagieren.

Auch wenn das System rund um Editor die Welt außerhalb des R&D-Lab vielleicht nicht erobern wird, meint Lloyd, gebe es gute Hinweise darauf, wie Redaktionen eine Automatisierung vornehmen könnten und wie Maschinen die Arbeit eines Reporters einfacher gestalten könnten. Statt einen Roboter darauf zu trainieren, Text und Index miteinander zu vergleichen, hätte man nun ein Tool, das Zitate mit dem abgleicht, was die entsprechenden Menschen in der Vergangenheit gesagt haben, oder das abgleicht, wie oft bestimmte Quellen oder Themen in ihren Stories vorkommen.

Die Roboter fassen immer mehr Fuß in der Welt des Journalismus. Im März sagte AP, man wolle seine automatische Berichterstattung einsetzen, um Themen rund um den College-Sport abzudecken. Lloyd hat erforscht, wie die Roboter noch besser mit Menschen zusammenarbeiten, oder zumindest von ihnen und ihren Unterhaltungen über Slack lernen können.

Die Idee, dass die Roboter einen der wenigen Jobs bei den US-amerikanischen Zeitungen wegschnappen könnten, greift vielleicht etwas weit, sagt Lloyd. Viele Reporter sehen in Editor und ähnlichen Projekten potentielle Werkzeuge für den eigenen Schreibprozess. Die Art und Weise, wie die Maschinen über Berichterstattung nachdenken, sagt Lloyd, erweitert diese nur mehr.

Wir denken darüber nach, wie automatisierte oder computerbezogene Ansätze zu Superkräften für unsere Journalisten werden können”, sagt sie.

Dieser Artikel erschien zuerst auf NiemanLab. Übersetung von Anne Jerratsch.


Teaser & Image “Lighted Keyboard 2” (adapted) by Eric Norris (CC BY 2.0)


CHIEF-EDITOR’S NOTE: Wenn Ihnen unsere Arbeit etwas wert ist, zeigen Sie es uns bitte auf Flattr oder indem Sie unsere Reichweite auf Twitter, Facebook, Google+, Soundcloud, Slideshare, YouTube und/oder Instagram erhöhen. Vielen Dank. – Tobias Schwarz

Schlagwörter: , , , , , ,
Justin Ellis

Justin Ellis

ist Redaktionsassistent im "Nieman Journalism Lab". Davor arbeitete er als Autor beim Portland Press Herald/Maine Sunday Telegram, wo er über die Themen Wirtschaft, Politik, Kultur und Technologie berichtete. Ellis war Fellow des "Knight Digital Media Center" und für "Investigative Reporters and Editors" tätig.

More Posts - Website - Twitter - Facebook