Internet-HTTP (Bild: Rock1997 [CC-BY-SA-3.0], via Wikimedia Commons)

Das Semantic Web: Die Zukunft des Internets

Schon seit Längerem wollte Julian Dziki über das semantische Web schreiben, weil er sich damit in seiner Magisterarbeit befasst hat. Jetzt hat er es getan, aber Obacht: Das wird kompliziert, aber es lohnt sich!

Internet Draft (Bild: Adam Engelhart	[CC BY-SA 2.0], via Flickr)

Tim Berners-Lee, der Erfinder des Internets und von HTML, verfasste im Jahr 2001 im Scientific American den wegweisenden Artikel ‚The Semantic Web‘, in dem er seine Vision vom Internet der Zukunft skizzierte. 80 % der weltweit verfügbaren Information liegt in unstrukturierter Form vor. Für Menschen haben (zumindest die meisten) Texte eine Bedeutung, für Computer aber nicht. Tim Berners-Lee forderte in seinem Artikel, dass wir Menschen das Internet um die Ebene der Bedeutung (=Semantik) erweitern müssten. Er skizzierte sogenannte Suchagenten, die weit mehr leisten könnten als heutige Suchmaschinen.

Suche + Bedeutungsebene = Suchagent

Um seine Idee zu verdeutlichen, griff er im Artikel auf das Beispiel einer Frau zurück, die einen Arzttermin vereinbaren möchte. Der Suchagent präsentiert nach einer Suchanfrage für einen Arzt nicht nur (wie heute) die Ergebnisse, sondern übernimmt ähnliche Aufgaben wie ein Sekretär. Er sieht zum Beispiel auch nach, welche Therapeuten in Reichweite der suchenden Frau sind. Er vergleicht die Mediziner miteinander, wobei er Bewertungen anderer Patienten berücksichtigt. Hat er einen guten Arzt in der Nähe gefunden, gleicht er den Terminkalender der Frau mit den freien Terminen des Spezialisten ab. Eine einfache Suchanfrage führt also im Hintergrund gleich mehrere Schritte aus, wobei verschiedene Agenten Informationen untereinander austauschen, in diesem Fall zum Beispiel der Agent des Arztes mit dem der Patientin.

Heraus kommt ein Vorschlag ihres Agenten mit allen Terminen des idealen Arztes, den die Patientin dann nur noch annehmen muss oder bei Nichtgefallen die Parameter ändert. So kann sie die Suchanfrage etwa dahingehend verfeinern, dass sie einen weiteren Weg in Kauf nehmen würde, wenn sich dabei ein Arzt mit besseren Bewertungen fände.

Um diese Daten abrufen zu können, müssen Informationen im Web mit Bedeutungen angereichert werden. Dazu werden Texte mittels RDF (Ressource Description Framework) in sogenannte Tripel aufgeteilt, die in der Regel aus Subjekt, Prädikat und Objekt bestehen. Mit Hilfe von RDF ist bereits eine recht einfache Interpretation von Daten möglich, wie etwa:

Tim Berners-Lee (Subjekt) – Ist Autor von (Prädikat) – Semantic Web (Objekt)

Das Besondere daran ist, dass RDF webseitenübergreifend funktioniert. So ist das Prädikat ‚Ist Autor von‘ auch auf anderen Webseiten zu finden. Eine semantisch intelligente Internetressource kann deswegen dann auf anderen Seiten suchen, wo außerdem noch ‚Tim Berners-Lee ist Autor von‘ steht und diese Inhalte dann aggregiert anzeigen. So findet eine semantisch intelligente Suchanfrage alle Bücher, die Tim Berners-Lee geschrieben hat. Dieses System haben wir heute bereits rudimentär live, beim Authorship-Markup von Google+. Allerdings erscheint es nur auf Seiten, bei denen der Autor mitwirkt und nicht auf Seiten, die über die Person Tim Berners-Lee in seiner Funktion als Autor berichten.

Was sind Ontologien?

Sogenannte Ontologien wie OWL (Web Ontology Language) stellen dann Kausalbeziehungen zwischen komplexeren Systemen her. Die Anwendungsgebiete von Ontologien sind vielschichtig. Eine Aufgabe ist es etwa, verschiedene RDF-Daten zusammenzuführen. Gibt es ein RDF mit dem Prädikat ‚hat geschrieben‘, so kann eine Ontologie dieses RDF mit dem Prädikat ‚ist Autor von‘ gleichsetzen. So können auch rückwirkend Texte ohne semantische Funktionen “upgegradet” werden.

Außerdem besteht OWL aus Klassen, Instanzen, Eigenschaften und Operationen. Ohne jetzt zu sehr in technische Details zu gehen bedeutet das im Rückkehrschluss, dass ein und dasselbe Wort mehrere Bedeutungen haben kann und in mehreren verschiedenen Kontexten verwendet werden kann.

So kann im obigen Beispiel Tim Berners-Lee nicht nur ‚Autor von‘ , sondern auch ‚Vorgesetzter von‘ (einer Person) sein, wodurch das Subjekt Tim Berners-Lee mehrere Bedeutungen erhält und der Name eben nicht nur ein Symbol für “Autor” ist. Auch könnte man das Prädikat ‚Ist Autor von‘ erweitern, in dem man ein weiteres Prädikat hinzufügt ‚ist wissenschaftlicher Autor von‘ und in dieser Bedeutung dann nur wissenschaftliche Autoren nennt, ohne Romanautoren, Blogger oder Redakteure bei Zeitungen.

Ontologien können ähnlich eines Wörterbuchs agieren, etwa beim Begriff ‚Nero‘. Eine geschichtswissenschaftliche Ontologie versteht darunter den römischen Kaiser, eine Software-Ontologie das gleichnamige Brennprogramm zum Brennen von DVDs. Oder beim Wort “SEO” entweder den koreanischen Vornamen “SEO” oder eben “Search Engine Optimization”.

Kausalzusammenhänge möglich!

Ebenso können Ontologien für Ausschlüsse und Kausalzusammenhänge stehen. So erkennen sie, dass ein Name mit der Bezeichnung ‚Taxifahrer‘ gleichzeitig auch die Eigenschaft ‚Personenbeförderungsschein‘ haben muss und während der Arbeit in München ein ‚gelbes Auto‘ fährt. Eine gute Ontologie weiß dann aber auch, dass im Umkehrschluss ‚gelbes Auto‘ nicht zwingend mit ‚Taxi‘ identisch ist, und dass ‚Personenbeförderungsschein‘ auch auf ‚Busfahrer‘ zutrifft. Kommt Ihr noch mit?

Wofür?

Stellt Euch vor, Ihr wollt die Namen aller Geschäftsführer von SEO Agenturen in München haben. Heute sucht Ihr nach “SEO Agentur München”, schaut in die Impressen und schreibt sie Euch heraus. Das macht das semantische Web in Zukunft für Euch. Nach der Suchanfrage bekommt Ihr die vollständige Liste mit Vor- und Nachnamen. Mit einem einfachen, weiteren Klick auch die Telefonnummern oder E-Mail Adressen. Oder Ihr sucht für Euer Kind einen Nachhilfelehrer, der selbst noch Schüler ist, Nachhilfe in Englisch gibt, in Eurer Nähe wohnt und Mittwochs von 16-18 Uhr Zeit hat? Eine Suchanfrage. Ein italienisches Restaurant, das gute Pizza und gleichzeitig guten Fisch anbietet und Freitag abends neben freien Tischen auch noch freie Parkplätze in der Umgebung hat? Auch nur eine Anfrage. Ihr merkt: Die momentanen Sucheinstellungen bei Google sind ein Witz, verglichen mit dem was kommen wird.

Praktische Beispiele

Praktische Beispiele von diesen theoretischen Möglichkeiten gibt es bisher nur sehr wenige. Google nutzt bereits einige semantische Funktionalitäten, etwa bei der Suche nach Rezepten. Wer etwa nach ‚chicken pasta‘ Rezepten sucht, findet neben bloßen Suchergebnissen auch Angaben zu den enthaltenen Zutaten und anderen Spezifikationen und kann damit auch seine Suche verfeinern. So kann man nach ‚chicken pasta‘ Rezepten suchen, deren Zubereitungszeit weniger als 30 Minuten benötigt und die mit Tomatensauce gemacht werden. Die Informationen dazu müssen die Rezept-Webseitenbetreiber Google im RDF-Format zusätzlich zu den Textinhalten zur Verfügung stellen. Das ist aber eigentlich nicht der Sinn: Eigentlich wäre es die Aufgabe von Google, diese Inhalte automatisch richtig zu erfassen – heute noch undenkbar.

Im deutschsprachigen Raum gibt es zwei semantische Suchmaschinen, Semager und das ‚Wortschatz Portal‘ der Uni Leipzig. Beide arbeiten jedoch nur mit Kookorenzien und verstehen unter semantischer Suche die häufig vorkommenden „benachbarten“ Wörter zu einem Begriff zu finden. Von den eingangs genannten Einsatzmöglichkeiten sind heutige Suchmaschinen aber noch Jahre entfernt.

Entwicklung im Semantic Web?

Seien wir mal ehrlich: Im Vergleich zum obengenannten Suchagenten ist das, was Google & Co. uns bisher als Semantik verkaufen wollen absoluter Kindergarten und nicht mehr als “Herumprobieren”. Umso dramatischer, wenn man bedenkt, dass der Artikel von Tim Berners-Lee bereits 12 Jahre alt ist. Gleichzeitig aber ahnt Ihr vielleicht ein wenig, wie unglaublich komplex eine Programmierung von Suchagenten alleine für die Arztfindung wäre. Die Möglichkeiten wären aber enorm: Stellt Euch nur eine SEO-Konferenz vor, deren Termin anhand der Terminkalender von über 1.000 Teilnehmern erstellt wird. Vollautomatisch! Oder die eigene Geburtstagsparty anhand der freien Termine der Freunde zu planen?

Semantic Web im Praxisversuch: Medizin und Biologie

In den Naturwissenschaften, insbesondere in Medizin und Biologie, wird viel mehr mit dem Semantic Web experimentiert. Der Wissenschaftler David Shotton hat bereits 2008 einen Artikel semantisch aufbereitet und seine Ergebnisse dokumentiert. Auf der Webseite des Artikels können alle Nennungen von Personen, Krankheiten oder Organismen grafisch hervorgehoben werden. So kann der Leser den Artikel bei der Suche nach bestimmten Informationen besser verarbeiten. Interessanter ist die Zusammenfassung des Artikels, in der sich die eigentliche semantische Leistung offenbart. Nix da mit “Rel=Author”, sondern es gibt hunderte von semantischen Begrifflichkeiten. Im Artikel werden die Informationen derart strukturiert angezeigt, dass eine maschinenlesbare Auswertung möglich ist.

  • Der Ort der Veröffentlichung etwa ist zusätzlich durch GEO-Koordinaten angegeben
  • Alle im Text auftauchenden Orte, nach Ländern und Kontinenten sortiert
  • Es sind alle beteiligten Institutionen übersichtlich untereinander angegeben
  • Ebenso alle Personen im Dokument, sortiert nach Autoren, erwähnten Personen und zitierten Personen
  • Alle im Text vorkommenden Proteine, alle Bakterien, alle Tierarten
  • Alle Symptome, Krankheiten, Krankheitsbilder und -folgen

Ebenso gibt es eine umfassende Zitationsanalyse, die aufzeigt welche Artikel wie oft zitiert wurden und in welchem Abschnitt des Textes, ob in Einleitung, Methodik oder Diskussion. Für sich alleine stehend ist der Artikel eher unspektakulär, aber viele dieser Aufsätze wären wissenschaftlich hochinteressant: So könnte man nach der Analyse vieler Texte die Grundlagenliteratur (Einleitung) von der aktuellen Forschungsdiskussion (Diskussion) automatisiert trennen. Wenn ein Aufsatz in vielen anderen Artikeln zitiert wird, könnte man so seine relative Wichtigkeit herausfinden – ohne den Text überhaupt gelesen zu haben. Überlegt Euch das mal zum Thema Links: Wird Eure Webseite eher in einleitenden Artikeln verlinkt oder nur in absoluten Expertenartikeln?

David Shotton gab an, dass eine Person etwa zehn Wochen für die semantische Bearbeitung des Artikels braucht. Dazu muss man aber beachten, dass in den Naturwissenschaften, insbesondere in der Medizin und Biochemie bereits mehrere semantisch funktionierende Ontologien existieren, aus denen Shotton sogar die geeignetsten auswählen konnte. Sie halfen bei der automatisierten Erkennung von Krankheitsbegriffen oder Personen als eben solche, wobei eine manuelle Nachbearbeitung trotzdem nötig war. Der Artikel steht zwar noch alleine da, aber im medizinischen Bereich zeigen bereits viele Zeitschriftenverlage Ansätze von semantischen Technologien. Wenn ich sehr viel Geld hätte, ich würde es in die Entwicklung von Onthologien stecken, die ich dann bald teuer verkaufen kann.

Fazit?

Ich hoffe, dass Ihr in dem Artikel in etwa nachvollziehen konntet, was wahrscheinlich auf uns zukommen wird. Überträgt man das auf die SEO Branche, dann werden wir in Zukunft noch wichtiger. Nicht mehr Keywordrecherche, sondern semantische Klassifikation werden in der Zukunft wichtig sein. Die Frage ist nicht ob, sondern wann das semantische Web endlich kommt. Meiner Meinung nach wird es noch sehr lange dauern. Denn auch wenn Google daran mit Hochdruck arbeitet, sind noch nicht einmal die Grundvoraussetzungen gegeben. Weder technisch, noch wirtschaftlich, noch gesellschaftlich. Der Anfang wurde mit der Rezepte-Suche bereits gemacht. Bis aber alle unsere Informationen strukturiert vorliegen und auch alte Informationen rückwirkend strukturiert werden, kann gut und gerne noch eine sehr lange Zeit vergehen. Ich wollte den Artikel eigentlich nur einmal veröffentlichen, damit Ihr seht, was mit dem Semantic Web wirklich gemeint ist. Es geht um weit mehr alt “Rel=Author” oder Rezepte Suche. Es geht um die Katalogisierung und Strukturierung des gesamtlichen menschlichen Wissens.


Dieser Beitrag erschien zuerst auf Seokratie.de.


Teaserimage by Rock1997 (CC BY-SA 3.0 )


Image by Adam Engelhart (CC BY-SA 2.0)


Schlagwörter: , , ,
Julian Dziki

Julian Dziki

ist Geschäftsführer der Seokratie GmbH und seit 2007 SEO und Online Marketing Consultant. Sein SEO-Blog Seokratie.de gehört zu den meistgelesenen deutschsprachigen SEO Blogs in Deutschland.

More Posts - Website - Twitter - Google Plus