25. November 2010

Web of Data: Wo bleibst Du?

Nachdem ich hier in den letzten Monaten vor allem zu Web 2.0 und Enterprise 2.0 geschrieben habe, möchte ich mich diesmal dem „Web of Data“ als einen wesentlichen Schritt hin zu einem Semantic Web widmen.

Während die Konzepte hinter dem Web 2.0 für Praktiker noch relativ transparent sind, sieht es beim Web of Data noch viel anders aus (beim Semantic Web erst recht). Was verbirgt sich nun hinter dem Web of Data?

Web 2.0 vs. Web of Data

Im Gegensatz zum Web 2.0 mit seinen Prinzipien (Web als Plattform, Beteiligung der Nutzer, gesteigerter Wert der Daten, kollektive Intelligenz, Netzwerkeffekte per default, perpetual beta, Services & MashUps) steht beim Web of Data die Bereitstellung und Vernetzung von Daten im Vordergrund. Im heutigen Web können Menschen nämlich über gebräuchliche Suchmaschinen wie Google ausschließlich Dokumente finden und den Inhalt dieser Dokumente auch nur manuell erschließen (durch “Lesen“ und anschließendes „Interpretieren“ des Inhalts in einem bestimmten Kontext). Computerprogramme könnten den Menschen in dieser Tätigkeit prinzipiell unterstützen, tun sie jedoch noch nicht, weil sie die Daten in diesen Dokumenten weder lesen, noch bearbeiten noch interpretieren können.

Was ist jetzt das Web of Data?

Im Web of Data geht es nun darum, dass Daten in einer speziellen Art und Weise bereit gestellt und miteinander verlinkt sind (so spricht man auch von „Linked Data“). Dazu wurden erstmals eine Menge an technischer Standards entwickelt, wie Uniform Ressource Identifier (URI) zur Identifikation von Ressourcen im Web, Resource Description Framework (RDF) zur Kodierung und Verlinkung von Daten und SPARQL Protocol and RDF Query Language (SPARQL) als graphbasierte Abfragesprache für RDF.

Durch die mit der Einhaltung dieser Standards verbundene spezielle Art der Bereitstellung werden  endlich auch Maschinen (Computerprogramme) in die Lage versetzt, die Daten am Web zu interpretieren und automatisiert zu verarbeiten.

Neben den eigentlichen Daten (dem Inhalt), werden auch noch Metadaten (die Daten beschreibende Daten) für Maschinen bereitgestellt. Diese Metadaten orientieren sich an einem bestimmten Schema (einer Ontologie). Die Datenbereitstellung (und auch die Nutzung) derselben ist für gewöhnlich nicht trivial. Die Daten sind nach gängiger Lehrmeinung vor allem auch durch die einheitliche Struktur und die bestehenden gemeinsamen technologischen Standards zumindest für Softwareentwickler viel einfacher zu nutzen, als bei proprietären (plattformabhängigen)  Lösungen. 

Wer möchte, kann im Beitrag "Towards a Commercial Adoption of Linked Data for Online Content Provider" im Detail in einem echten Anwendungsfall nachlesen. Gerne stelle ich diesen Beitrag hier (auf Scribd) zur Verfügung.

Wann kommt nun das Web of Data?

Damit das Web of Data einmal zur Realität wird, muss es erst ein „Henne-Ei-Problem“ überwinden: Bevor jemand sinnvolle Anwendungen entwickelt, welche das Web of Data nutzen, muss erst eine große Menge an strukturierten und verlinkten Daten am Web vorhanden sein. Dabei wird der Ball zuerst zu den großen Datenanbietern gespielt. Denen mangelt es noch an Motivation, ihren Datenschatz in ein zum Semantic Web kompatibles Format zu bringen und mit anderen Daten zu verlinken, weil erst wenige Anwendungen für Endnutzer vorhanden sind (bzw. weil Sie ihren Datenschatz gar nicht öffnen wollen). Ohne Daten entstehen keine Anwendungen und ohne Anwendungen fehlt den Unternehmen jegliche Grundlage zu dieser speziellen Art der Datenbereitstellung. Um schnell erste Daten zur Verfügung zu haben, wurde beispielsweise die Wikipedia als DBpedia in ein zum Web of Data kompatibles Format gebracht.

Open Government Data als Lückenfüller

Diese Lücke sowie die Henne-Ei-Problematik würde in der Zwischenzeit erkannt - und man versucht kreativ Wege aus dem Dilemma zu finden. Zunehmend wird im Zusammenhang mit dem Web of Data über offene Daten diskutiert (daher spricht man auch von „Linked Open Data“), also Daten frei von Copyrights, Patenten und anderen Kontrollmechanismen.

Vor allem die Daten eines Staats, eines Bundeslands oder einer Stadt, welche aufgrund ihrer Natur schon durch öffentliche Gelder finanziert wurden, könnten und sollten am Web of Data bereitgestellt werden (man spricht hier von „Open Government Data“). Auf Basis dieser Daten könnten dann innovative Anwendungen entwickelt werden, jedoch nicht notwendigerweise durch Staat, Bundesland oder Stadt, sondern durch engagierte Software-Entwickler (Geeks, Evangelisten, ..).

Holt sich das Web of Data Ideen aus der Open Innovation Community?

Die Idee, zuerst Daten am Web zu veröffentlichen und dann zu warten, bis die Web-Community interessante Anwendungen entwickelt bzw. dem Datenschatz wertvolle Informationen entlockt und zur Verfügung stellt ist nicht ganz neu: Schon im Jahr 2000 veranstaltete das kanadische Explorationsunternehmen Goldcorp Inc einen mit 500.000 $ Preisgeld dotierten Wettbewerb. Ziel dieses Wettbewerbs bestand darin, neue Erfolg versprechende Schürfstellen in einer bestehenden Goldmine zu finden. Sämtliches bestehendes Kartenmaterial und sämtliche Informationen zu bisherigen Explorationsstrategien wurden über das Web zur Verfügung gestellt. So konnten durch Nutzerbeteiligung in teils aufwändiger eigenständiger Analyse dieser geologischen Daten 110 potenzielle Fundstellen identifiziert werden - die Goldcorp Challenge war ein riesiger auch monetärer Erfolg.

Nutzen statt nur bereitstellen: die BBC Fallstudie

Bisher hat man sich hauptsächlich auf die Bereitstellung von Daten konzentriert. Dabei sind eine Reihe von Datensätzen entstanden, welche in der Linked Data Cloud dargestellt werden. Zukünftig wird aber vor allem die Nutzung dieser Daten (durch intelligente Anwendungen) in den Vordergrund treten. Stehen erst einmal genügend interessante Daten zur Verfügung, werden auch Nutzer (oder Unternehmen) sinnvolle oder weniger sinnvolle auf diesen Daten aufbauende Anwendungen entwickeln (..."zeige mir den Standort aller Bauern auf Google Maps, welche über 100k € EU-Förderungen bezogen haben ;-) )

Derzeit kann BBC als eines der wenigen nutzernahen Anwendungsbeispiele des Web of Data Anwendungen mit Mehrwert für die Nutzer bereitstellen. BBC ist nämlich eines der ersten Unternehmen, welches Linked Data kommerziell intensiv nutzt, um die historisch gewachsenen isolierten BBC Einzelportale besser miteinander zu vernetzen. Beispielsweise hat die technologische Weiterentwicklung iBC ermöglicht, dass an einer zentralen Stelle sehr einfach und intuitiv durch Nutzer abgerufen werden kann, auf welchem Sender BBC ein bestimmtes Musikstück eines bestimmten Interpreten gerade spielt, obwohl diese Information aus vielen einzelnen dezentralen Datenquellen (den unterschiedlichen Web-Portalen) ermittelt werden muss. Damit wurde mit Hilfe von Linked Data die ehemals heterogene Datenwelt bei BBC konform zum Web  of Data homogenisiert.

Zusätzlich nutzt BBC Semantic Web Daten von Dritten wie etwa DBpedia oder MusicBrainz (zum Web of Data konformes Musikarchiv) in eigenen Web-Portalen wie BBC Music (www.bbc.co.uk/music). So erhalten Nutzer von BBC Diensten vielfältige Informationen zu Interpreten sowie ihrem gesamten musikalischen Schaffen (z.B. auch Diskografien), ohne dass BBC diese Daten selbst besitzen muss. BBC kann Nutzern einen vollkommen neuen Nutzen generieren, weil BBC plötzlich vom klassischen Medienunternehmen zum Gesamtanbieter aller Information über Musiker und Musikgruppen transformiert. Das Web of Data hat die Value Proposition, also das Nutzenversprechen, der BBC als Betreiber vieler Radiostationen und Portale transformiert.

Web of Data in a nutshell

Zusammengefasst steckt hinter dem Web of Data die grundsätzliche Idee, dass das Web nicht nur durch Computer, sondern auch in der Folge durch Menschen „besser“ genutzt werden kann, weil viele neue Anwendungen/Dienste angeboten werden, welche auf den bereitgestellten Daten basieren. Insbesondere lassen sich viele Aktivitäten plattformübergreifend vernetzen und automatisieren. Damit entsteht ein Mehrwert für Nutzer, weil es viele Anwendungen nur aufgrund des Web of Data geben wird.

Weiterführende Informationen zum Web of Data finden sich in meinem Beitrag „Die Wertschöpfungskette der Daten. Eine Basis für zukünftige wirtschaftswissenschaftliche Betrachtungen des Web of Data“, welcher in der Zeitschrift HMD Praxis der Wirtschaftsinformatik, Heft 275 publiziert wurde. Ich stelle den gescannten Beitrag gerne hier (auf Scribd) zur Verfügung.

Beliebte Beiträge