Big Data als Zukunft des Web 3.0

Das Web 3.0 will die riesigen Datenmengen mit Bedeutung versehen und nutzbar machen: Bringt Big Data die Zukunft des Netzes? // von Björn Rohles

Web (Bild: PublicDomainPictures [C00], via Pixabay)

Noch sind die Informationen im Web in weiten Teilen unstrukturiert, aber das könnte sich schon bald ändern. Seit vielen Jahren diskutieren Visionäre über das semantische Web oder auch Web 3.0 – ein Netz, das die Bedeutung von Inhalten versteht. Die Technologien dahinter sind jedoch komplex und nicht einfach auf das riesige Informationsaufkommen anwendbar. Big Data eröffnet neue Möglichkeiten bei der automatisierten Analyse von Bedeutungen und kann so helfen, die Vision Realität werden zu lassen.


Warum ist das wichtig? Big Data erlaubt automatisierte Analyse von Texten in großem Stil und könnte so zum Geburtshelfer für das semantische Web 3.0 werden.

  • Das Web 3.0 beruht auf einer komplexen Beschreibung der Beziehungen zwischen Informationen.
  • Big Data hat großes Potenzial, das Web 3.0 Realität werden zu lassen.
  • Bei der Erfassung von Bedeutungen könnten semantische Analyse-Verfahren helfen, etwa aus der Korpus-Linguistik.

Die Vision für das Web 3.0 hatte Tim Berners-Lee: ein semantisches Internet, das seine Inhalte verstehen kann. Aus dem Web als Sammelplatz von Dokumenten soll das „denkende“ Web werden, das Semantik mit künstlicher Intelligenz vereint und Antworten liefert.

Beziehungen zwischen Informationen beschreiben

Wie das funktionieren soll? Tim Berners-Lee setzt auf eine Technologie namens „RDF“. Die Abkürzung steht für Ressource Description Framework und erinnert an Grammatik: Informationen werden webseitenübergreifend in Konstruktionen aus Subjekt, Prädikat und Objekt abgelegt:

(Subjekt) Tim Berners-Lee

(Prädikat) ist der Erfinder von

(Objekt) dem Semantic Web

Diese Konstruktionen werden anschließend mittels sogenannter Ontologien verarbeitet. Sie beschreiben die Beziehungen zwischen den Begriffen und legen zum Beispiel fest, dass „ist der Erfinder von“ die gleiche Bedeutung hat wie „hat erfunden. Aber Ontologien können auch viel weiter gehen und komplexe Zusammenhänge darstellen.

Konsequent umgesetzt lässt das Web 3.0 unsere heutigen Suchmaschinen ganz schön alt aussehen: Statt nach dem Vorkommen von Suchbegriffen in den Dokumenten zu suchen, könnten sie direkt die Antwort ausspucken: „Wer ist der Erfinder des Semantic Web? – Tim Berners-Lee.“

Reine Zukunftsmusik? Nein, denn Googles Knowledge Graph, das Wikidata-Projekt und Wolfram Alpha zeigen bereits heute, wie das Netz dank semantischer Technologien zur wahren Wissens-Fundgrube werden kann. Sucht man in Wolfram Alpha zum Beispiel nach dem englischen Begriff „violet“, unterscheidet das System den Begriff als Bezeichnung für eine Pflanze oder eine Farbe und liefert entsprechend andere Ergebnisse.

YouTube

Mit dem Laden des Videos akzeptieren Sie die Datenschutzerklärung von YouTube.
Mehr erfahren

Video laden

Einen Haken hat das Ganze jedoch: Es ist natürlich sehr aufwändig. Das gesamte Wissen in semantische Strukturen zu fassen – das geht nicht mal schnell nebenbei. Wer soll diese Aufgabe übernehmen? Woher wissen wir eigentlich, ob etwas ein Synonym ist? Wie genau sollen wir kleine Bedeutungsunterschiede abbilden? Wie behandeln wir Sprachunterschiede, wenn sich ein Begriff nicht 1:1 übersetzen lässt? Und was ist eigentlich, wenn eine Frage gar nicht so einfach zu beantworten ist?

Semantische Analysen dank komplexer Algorithmen

Für den Autor Mark van Rijmenam liegt die Lösung darin, die vorhandenen Daten besser zu nutzen und mit komplexen Algorithmen nutzbar zu machen: Big Data. Natürlich gibt es immer größere Mengen von Daten, die bewältigt werden möchten – aber das Versprechen von Big Data ist auch: Sie lassen sich bewältigen, und bei der Analyse entstehen neue Erkenntnisse. Wissenschaftliche Projekte wie SAMUELS von der Universität Huddersfield versuchen zum Beispiel gerade, die Korpus-Linguistik bei der Analyse großer Informationsmengen fruchtbar zu machen.

Basis der Korpus-Linguistik sind große Sammlungen von gesprochener und/oder geschriebener Sprache, wie es etwa der British National Corpus oder das Deutsche Referenzkorpus darstellen – echte Big Data eben. In diesem Korpus kann man mit Hilfe von Software komfortabel nach Begriffen suchen. Die Idee dabei ist: Man kann die Bedeutung von Begriffen aus ihrer Verwendung und in ihrem Kontext herauslesen – frei nach Ludwig Wittgenstein: „Die Bedeutung eines Wortes ist sein Gebrauch in der Sprache.“

In der englischen Sprache mit ihrem riesigen Wortschatz gibt es beispielsweise zahlreiche „Synonyme“ von „to talk“ (sprechen): „to chat“, „to gossip“, „to chatter“. Vergleicht man jedoch das Umfeld dieser Begriffe, kommen schnell interessante Unterschiede heraus: „to chat“ verwendet man vorrangig in Zusammenhang mit Freunden („they sat around chatting aimiably“); „to chatter“ hat etwas mit „endlos“ oder „ohne Pause“ zu tun („he chattered without stopping“, „they were chattering away“), „to gossip“ ließe sich wohl am ehesten mit „tratschen“ übersetzen („local gossip“, „gossip columnist“) – noch dazu häufig mit einer sexistischen Tendenz („the women gossiped and the men smoked“).

Linguistische Analysen mit dieser und vielen weiteren Methoden sind sehr häufig, um automatisiert Erkenntnisse über die Bedeutung von Texten zu erhalten, beispielsweise im Kontext des Online-Marketings. Damit könnte Big Data für das Web 3.0 zu einem großen Schritt nach vorne werden.

Big Data als Zukunft des Web 3.0

Mark van Rijmenam steht mit seiner Einschätzung über die Rolle von Big Data bei der Weiterentwicklung des Web 3.0 nicht alleine da: In einer Umfrage unter 47 IT-Experten der Frankfurter Agentur DiOmega gaben 55 Prozent der Befragten an, dass Big Data die zukünftige Entwicklung des Internets maßgeblich beeinflussen werde – weitere 36% stimmten dem teilweise zu.

DiOmega-Geschäftsführer Dominique Bös ist überzeugt: „Im Web 3.0 werden alle Informationen automatisch in semantische und logische Beziehungen zueinander gebracht, interpretiert und eingeordnet. Diese intelligente Aufbereitung von Daten wird die Art, wie wir das Internet nutzen, in den nächsten Jahren deutlich verändern.“

Einfach wird es nicht, die Informationen im Netz automatisiert mit Bedeutung zu versehen. Es genügt nicht, einen Begriff „to talk“ anzulegen und ihm „to chat“, „to gossip“ und „to chatter“ als „Synonym“ zuzuordnen – damit würde ein Teil der Bedeutung verloren gehen. Soll dieses Vorhaben von Erfolg gekrönt sein, müssen die Ergebnisse immer wieder von neuem verfeinert und überprüft werden – und genau das können Algorithmen gut.

Die Korpus-Linguistik kann jedoch auch in anderer Weise ein Wegweiser sein: Die Quellen bleiben immer erhalten – auf einen Klick kann jeder die Interpretationen überprüfen, und die Konstruktion des Korpus ist jederzeit nachvollziehbar. Möchte Big Data ihre Potenziale für das Web 3.0 nutzen und ihre Ergebnisse für den Menschen nachvollziehbar machen, muss auch sie auf ein ähnlich transparentes Vorgehen setzen.


Teaser & Image by PublicDomainPictures (C00)


ist Medienwissenschaftler und beobachtet als Autor („Grundkurs Gutes Webdesign“) und Berater den digitalen Wandel. Seine Themenschwerpunkte sind User Experience, anwenderfreundliches Design und digitale Strategien. Er schreibt regelmäßig für Fachmedien wie das t3n Magazin, die Netzpiloten oder Screenguide. Mitglied des Netzpiloten Blogger Networks.


Artikel per E-Mail verschicken

3 comments

  1. Sehr interessanter Beitrag! Zweifellos wird es nicht nur darum gehen, Web-Daten semantisch auszuzeichnen sondern auch darum, unstrukturierte Daten zu strukturieren. Google versucht das in den Suchanfragen seit dem Hummingbird-Update. In der Google-Suche werden inzwischen durchaus auch Synonyme gefunden. Ein interessanter Versuch, strukturierte und unstrukturierte Daten zu verstehen, findet sich auch in contextual.info .

    Grüße
    Julius

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert