„Das Volumen an semantischen Daten erhöht sich dramatisch“

Interview mit Semantic Web Spezialist Andreas Blumauer

Andreas Blumauer ist Geschäftsführer der Semantic Web Company: das Unternehmen bietet Firmen und öffentlich-rechtlichen Institutionen Dienstleistungen rund um das Thema Semantic Web, semantische Technologien und Social Software, von Schulung und Consulting bis hin zur Implementation konkreter Projekte. Gemeinsam mit Tassilo Pellegrini stelle Andreas Blumauer das Text-Kompendium „Social Semantic Web“ für den Springer Verlag zusammen – Informationen rund um den Sammelband findet man im zugehörigen Wiki. Für das Blogpiloten-Special über Web 3.0 und Semantic Web führte Ritchie Pettauer ein Interview mit Andreas Blumauer.

Die Semantic Web Company befasst sich mit Wissenstransfer und mit dem Einsatz neuer Webtechnologien. In den letzten Jahren gab es zahlreiche Konferenzen und wissenschaftliche Papers zum Thema „Semantic Web“ – welche Technologien sind bereits konkret im Einsatz?

RDF als Basis des Semantic Web ist bereits im „Großeinsatz“, beispielsweise stützt sich das Metadatenmodell der eben veröffentlichten OpenOffice Suite 3.0 auf RDF. Damit erhöht sich das Volumen an Semantic Web Daten weiter dramatisch.

Im Kern des Semantic Web steckt die so genannte „Linking Open Data Cloud“, kurz: LOD-Cloud, die nun schon aus über zwei Billion Triples besteht und eine Reihe interessanter Anwendungen hervorgebracht hat wie z.B. Mobile DBpedia.

Gerade eben hat das W3C nun RDFa, quasi die Microformate des Semantic Web, als Empfehlung verabschiedet. Damit kann man in jedes XHTML Dokument RDF Metadaten einbetten.

Neben Oracle gibt es in der Zwischenzeit bereits auch einige Anbieter ausgereifter Triple Stores (RDF Datenbanken), die Infrastruktur ist nun also da – es ist zu erwarten, dass sich viele Enduser-Anwendungen in den nächsten Monaten dazugesellen werden. Neben Yahoo! SearchMonkey hat sich ja neuerdings auch die Drupal-Community zunehmend den Semantic Web Standards verschrieben und mit einem kleinen Plug-In namens Triplify kann man prinzipiell alle CMS oder Wikis ins Semantic Web einhängen.

Ein guter Startpunkt dafür sind jedenfalls auch Semantic Wikis: Die Informationen zu unserem neuen Springer-Band „Social Semantic Web“ haben wir beispielsweise mit dem Semantic MediaWiki erfasst und publiziert.

So lassen sich die Zusammenhänge schneller browsen oder mittels facettierter Suche schneller finden. Alle Informationen zu Autoren, Themen oder Artikeln sind außerdem via RDF mit anderen RDF-Quellen leicht zu vernetzen – und darin liegt eigentlich der Mehrwert des Semantic Web.

Für semantische Webtechnologien wurde vor einiger Zeit der Begriff Web 3.0 geprägt – dieser Begriff taucht vor allem im Zusammenhang mit ontologischen Strukturierungsversuchen auf. Sind Ihnen konkrete Anwendungsbeispiele bekannt?

Web 3.0 ist nach wie vor ein dehnbarer Begriff – die EU interpretiert diesen z. B. ganz anders als die z. B. Web 2.0- oder die Semantic Web Community.

Wir verstehen unter Web 3.0 die Anreicherung (oder Konvertierung) von Web (2.0) – Inhalten um Metadaten, Thesauri und teilweise auch bereits von Logik-basierten Ontologien. Im Sinne des Semantic Web geschieht dies unter Verwendung offener Standards des W3C und teilweise auch in Kombination mit offenen RDF-Datenquellen wie DBpedia oder Geonames.

Konkret verwenden diese Standards und Technologien Social-Tagging Plattformen wie Faviki, automatische Annotations-Services wie OpenCalais von Thomson Reuters, Websites mit zusätzlichen Navigationsmöglichkeiten wie BBC Music oder Oracles Pressroom zur facettierten Suche.

Gerade im letzten halben Jahr wurden viele Anwendungen auf Basis des RDF-Standards entwickelt, wobei in vielen Fällen OWL-Ontologien noch eine untergeordnete Rolle spielen, sondern vielmehr sprachliche Ontologien, um unstrukturierte Texte besser erschließen zu können.

Vor kurzem wurde die „semantische“ Suchmaschine Cuil gelauncht, die allerdings im praktischen nicht-englischsprachigen Einsatz sehr zu wünschen übrigen lässt. Welche Verbesserungen werden semantische Technologien für die Informationssuche bringen?

In vielen Fällen möchte man eigentlich Fragen stellen und Antworten bekommen. Wir sind nach all den Jahren Google gewöhnt, Begriffe einzugeben und Dokumente zu bekommen, aus denen wir dann die Antworten manuell extrahieren. Oft sind jedoch jene Fakten übers Netz verstreut, die man benötigt, um eine Antwort auf eine etwas komplexere Frage zu bekommen.

Natürlich sind damit nicht alle Suchanfragen gemeint. Wenn man z. B. wissen will, welche Adresse ein Restaurant hat, werden nach wie vor Suchtechnologien à la Google die kosteneffizientesten Services ermöglichen. Spannender wird’s dann schon in komplexeren Wissensgebieten wie z. B. den Lebenswissenschaften. Hier zeigen spezielle, ontologie-gestützte Suchmaschinen wie GoPubMed, wohin die Reise geht. Um diese Services jedoch nutzen zu können bedarf es einiger Einarbeitungszeit. Viele Semantic Web Newcomer beklagen sich, dass semantische Suchmaschinen zu kompliziert wären, und Google oder Yahoo doch deswegen so erfolgreich ist, weil sie so einfach zu bedienen wären.

Das mag in manchen Situationen, wie gesagt, auch stimmen. Wenn Sie aber wissen wollen, auf welchen Universitäten die Kinder der früheren amerikanischen Präsidenten studiert haben, dann muss man sich schon einige Zeit reservieren, um dies mit gängigen Suchtechnologien herauszufinden. Da bieten Technologien wie Freebase oder Parallax, oder eben Anwendungen im Semantic Web interessante Alternativen an – vor allem auch für das unternehmerische Umfeld.

Wird sich durch die starke Dominanz englisch-sprachiger Ontologien die große Internet-Kluft zwischen Europa und den USA noch weiter auftun?

Nein. Die Thesaurus-Spezifikation des W3C, nämlich SKOS bietet ja die Möglichkeit an, mehrsprachige Suchmaschinen zu unterstützen. Im medizinischen Bereich z. B. wird mit MeSH beispielsweise ein umfassender Thesaurus angeboten, der mehrsprachig, auch in Deutsch, verfügbar ist.

Wirft man einen Blick auf Firmen und Institutionen, die sich mit semantischen Technologien beschäftigten, so gewinnt man notwendigerweise den Eindruck, dass die gleichen Aufgaben von zahlreichen Firmen parallel gelöst werden – oder ist dieser Eindruck des Einzelkämpfertums falsch?

Ich denke, in der Semantic Web Community gibt es eine gute Mischung aus Kooperation und Konkurrenz. Der Markt für semantische Technologien ist momentan ja stark im Wachsen, steckt aber noch in den Kinderschuhen. Ein Konsolidierungsprozess ist daher absehbar, noch sind ja viele Unternehmen stark an universitäre Einrichtungen gekoppelt, die über EU-Forschungsprogramme zunächst finanziert worden sind.

Es ist jedoch ein starker Community-Spirit auch in der SemWeb-Community spürbar. Es gibt viele Akteure und Organisationen, die an einem „größeren Ganzen“ interessiert sind und nicht einfach den Markt abschöpfen wollen. Es gibt hier viele Parallelen zur Open Source Community: Offene Standards, offene Daten, offene Geister ;-)

Jeder Vertreter semantischer Technologien, mit dem ich bisher gesprochen habe, hat mir hoch und heilig versichert, dass sein System das leistungsfähigste und einzig logische sei. Auf der anderen Seite konnte mir noch niemand eine so simple Anwendung wie eine Websuchmaschine zeigen, die gegenüber Google irgendeinen Vorteil gehabt hätte. Was würden Sie einem Laien zeigen, um ihn von der Relevanz semantischer Technologien zu überzeugen?

Wenn ich zwei Minuten Zeit habe, demonstriere ich verbesserte Suchmöglichkeiten à la Exalead und Reegle. Bei einer 5 Minuten-Demo zeige ich, dass es im Semantic Web vor allem um Zusammenhänge zwischen Dingen geht. (Demo) Wenn ich 15 Minuten Zeit habe, demonstriere ich, dass es weiter um eine bessere Vernetzung von Informationen und die zugrundeliegende semantische Annotation geht. (Demo 1, Demo 2) Wenn ich aber eine Stunde Zeit hätte, dann würde ich erst über das Semantic Web an sich sprechen – dem Web of Data, der LOD Cloud und all den Möglichkeiten und Gefahren, die in den nächsten Jahren auf uns zu kommen werden.

arbeitet als selbständiger Berater (p*n*c - pettauer.net consulting) für Online-Marketing & Konzeption in Wien und treibt sich schon im Internet rum, seit Playboy die erste Homepage gelauncht hat. Der passionierte Blogger arbeitet gelegentlich auch als "traditioneller" Journalist und Lektor.


Artikel per E-Mail verschicken
Schlagwörter: , , , ,

5 comments

  1. Ich würd mich über eine differenziertere Betrachtung freuen – schließlich sind gewisse Entwicklungen durchaus kritisch zu betrachten und eine Spaltung des Web (in die, die mit den neuen Technologien umgehen können, Metadaten erzeugen etc und in die wohl größere Masse, die nicht so versiert ist) wäre denkbar…

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert