Suche 2.0 – wie Suche sozial wird

Wer bei der Twittersuche nach bestimmten Begriffen Ausschau hält, hat sich sicher auch schon mal gewünscht, dass zunächst die Tweets seiner eigenen Follower gezeigt werden oder die Inhalte auf den Pinwänden seiner Freund bei Facebook bevorzugt werden. Dass wir solche Wünsche überhaupt haben können, basiert auf der relativ neuen Idee der Realtime-Search – also dem Durchsuchen von Inhalten, die extrem oft pro Tag oder Stunde aktualisiert werden.

09-07-17-screenshot

Mein liebstes Beispiel ist die Suchmaschine www.icerocket.com, ohne die ich seit einiger Zeit gar nicht mehr im Web zurecht käme. Denn obwohl Bing und Google einen Schritt weiter sind, und man dort viel besser als früher Tweets bzw. Videos zu allerlei Themen findet, hat icerocket einen Vorteil: Ich kann direkt die Quellen, also Blogs, Tweets (auch identi.ca und jaiku), soziale Netzwerke etc. auswählen. Das ist natürlich ein Eldorado für alle Marketingberater und -mitarbeiter, die dort kostenfrei ihre Produkte, Firmen oder Kampagnen überwachen können. Leider geht das Thema Realtime-Search noch an den meisten Menschen vorbei, weil sie glauben, das sei einfach ein Gag, um alten Wein in neuen Schläuchen zu verkaufen.

Und in der Tat, wer sich nicht im Web 2.0-Umfeld von Social Media umtut und mit Twitter und Blogs nichts anfangen kann, der hat keinen Mehrwert.

Relevanz

Doch wer sich etwas genauer mit dem Thema Suchmaschinen befasst hat, der erkennt das Potenzial. Denn seit vielen Jahren gibt es diverse Überlegungen, wie man die langen Listen an Ergebnissen aus einer Suche besser auf den Sucher oder dessen Suchworte eingrenzt. Google hat mit dem Page Rank ein mathematisch basiertes Lösungsverfahren (Algoritmus) erarbeitet, das immer wieder optimiert wird und im Kern die Verlinkung von Inhalten und ganzen Websites untereinander bewertet. Auf dieser Basis ordnet die Google-Suchmaschine die Webinhalte danach, wieviel andere Inhalte sich darauf beziehen. Neue Inhalte sind also immer etwas weniger wert als Inhalte, die schon lange im Web sind und daher von vielen Seiten referenziert werden. Es ist offenbar, dass das in nicht wenigen Bereichen Quatsch ist, weil zum Beispiel gerade in den Naturwissenschaften die neuesten Studien oft die Ergebnisse älterer Studien beinhalten und erweitern oder gar relativieren.

Nun haben schon früh die Väter der Suchmaschinen daran gedacht, dass man die Suchergebnisse verbessern muss. Support Vector Engines fassen beispielsweise ein Dokument als Bündel von Vektoren auf, wobei jeder eindeutige Begriff von einem Vektor dargestellt wird. Die Software vergleicht dann einfach das „Aussehen“ der Knäuel und kann vor allem mit Hilfe der Nutzer feststellen, ob und welche inhaltliche Nähe Dokumente zueinander haben. Je nach Unterstützung der jeweiligen Sprache klappt das sehr gut bis bescheiden. Noch zufälliger werden die Ergebnisse, wenn die Relevanz mit einfachen statistischen Verfahren oder mithilfe von Neuronalen Netzwerken entstehen soll (Neuronale Netzwerke sind lernfähige, autonome und selbststeuernde Softwareeinheiten, die auf der Grundlage zumeist veralteter Modelle vom Gehirn Entscheidungen treffen). All diese System sind jedoch nur dann sinnvoll, wenn man eine eher geschlossene Menge an Daten hat. Beim Durchsuchen von Streams, also ständig neuen Inhalten, helfen sie wenig. Dieses Charakteristikum weist auch der letzte Schrei der Suchtechnologie auf, der schon einige Jahre auf dem Buckel hat.

Denn in den letzten Jahren entstand mit dem semantischen Web eine Idee, bestimmte Daten der Dokumente intelligent zu verknüpfen, damit Maschinen (gemeint ist Software) die Inhalte zuordnen (verstehen) können. Semantik ist ein Teil der Zeichenlehre namens Semiotik und beschreibt die Bedeutungsebene von Wörtern. Die Idee bestand darin, einfach unsere Satzkonstruktion aus Subjekt, Prädikat und Objekt auf Software zu übertragen. Denn vorher konnte Software nur Subjekte mit Objekten verbinden nach dem Prinzip Ort=Hamburg oder Band=Prodigy. Das Semantische Web soll dies nun erweitern um ein Prädikat, also eine Satzaussage wie Geburtsort oder Lieblingsband. Dann würde ein kleinste Informationseinheit nicht mehr aus zwei, sondern aus drei Elementen bestehen: Hamburg ist Geburtsort von Udo Lindenberg oder Prodigy ist Lieblingsband von Angela Merkel. Damit das überhaupt als ein Fortschritt in der Suchtechnologie aufgefasst werden kann, sollen dann Tausende von Dialekten und Sprachen erstellt werden, die diese Tripel (Menge aus drei Elementen) zu einem thematisch sinnvollen Ganzen zusammenfassen. Es gibt diese Dialekte aus Tausenden dreiwertigen Zuordnungen schon in den Naturwissenschaften und in der Bibliothekswelt. Der Nutzen für den Menschen, der eine Suchanfrage stellt, ist begrenzt auf bestimmte thematische Felder. Die Suche an sich ist keineswegs alltagstauglicher geworden.

Der Mensch ist das Maß aller Dinge

Das hat einen Grund, denn allerlei Prinzipien wie man Inhalte zueinander ordnet, sind immer festgeschriebene Muster, nach denen die Software einfach Inhalte zuordnet. Das hat aber kaum einen Vorteil im Alltag. Nun betritt eine neue Idee den Raum der Suchtechnologien: das Social Ranking. Denn wenn meine Suchergebnisse danach geordnet werden, was meine Kollegen oder Freunde zu einem Thema benutzt haben oder was sie veröffentlicht haben oder eben per Twitter verbreiten, dann kann die Suche die Themen meiner Lebenswelt abbilden. Suchmaschinen können dann soweit gehen und die Relevanz erweitern um den Kreis der Freunde meiner Freunde, oder (klammern wir mal das Thema Datenschutz aus, was mit Anonymisierung nur beschränkt funktioniert) um Suchende, die ein ähnliche Ausbildung und einen ähnlichen Beruf haben wie ich. Es ist sicher richtig, wenn wir Bauchschmerzen bekommen angesichts der enormen Menge an Daten, die Marktführer wie Google zu einer Person sammeln. Viele Leute befeuern diese Sammelwut noch, indem sie sogar die internen Daten ihrer Firma bei Google Docs lagern. Aber wenn wir den Begriff der Relevanz mal befreien aus den Klauen von mathematischen Lösungsverfahren und uns zurückbesinnen auf solche Begriffe wie Clans oder Freundeskreis, und dort das Zentrum sehen einer real vorhandenen Instanz an praktischem Wissen und handelnden Menschen, die uns mit der ständig wachsenden Menge an Inhalten im Web besser umgehen lässt, dann wäre es doch sicher sinnvoll, das einfach mal zu vertiefen und auszuprobieren. Mehr dazu siehe im readwriteweb.

Schlagwörter: , , ,
Jörg Wittkewitz

Jörg Wittkewitz

  ist seit 1999 als Freier Autor und Freier Journalist tätig für nationale und internationale Zeitungen und Magazine, Online-Publikationen sowie Radio- und TV-Sender. (Redaktionsleiter Netzpiloten.de von 2009 bis 2012)

More Posts