Der große Durchblick

In Daten steckt bekanntlich viel Wissen. Viele Daten, wie sie im Umfeld eines Unternehmens anfallen, enthalten folglich viel - und hoffentlich auch besseres - Wissen. Fachleute haben für die schnelle, gekonnte Auswertung riesiger Datenmengen einen neuen Begriff: "Big Data" .

Von Achim Born

Das Ergebnis einer Kaufanalyse überraschte die Walmart-Verantwortlichen: Kellogg’s Pop-Tarts, Geschmacksrichtung Erdbeere, verkaufen sich im Vorfeld von Hurricane-Warnungen bis zu siebenmal besser als gewöhnlich. Dass der Handelsriese fortan Warenmanagement und Warenlogistik nach den Wetterprognosen ausrichtete, überrascht kaum. Für mehr Verwunderung sorgt vermutlich der Zeitpunkt. Denn die Geschichte wurde bereits 2004 in der New York Times erzählt. Wenn von interessierter Seite das Walmart-Szenario zur Sprache kommt, wird der frühe Zeitpunkt ebenso gerne verschwiegen wie die Tatsache, dass die Antwort auf den eigentlichen Top-Seller im Hurricane-Vorfeld einfach Bier lautet.
Das Motiv dahinter ist schnell benannt: Mit dem Walmart-Beispiel lässt sich perfekt illustrieren, welcher Erkenntnisgewinn in der Analyse großer Datenmengen liegt. Die schnelle Auswertung und das intelligente Management extrem großer Datenmengen – von Fachleuten mit dem Begriff „Big Data“ umschrieben – zählen nach Einschätzung vieler Marktbeobachter zu den wichtigsten Zukunftsthemen in der Informations- und Kommunikationstechnik. So nahm Gartner, eines der führenden Marktforschungs- und Analyseunternehmen im ICT-Markt, für 2012 Big Data erstmals in die Liste der zehn wichtigsten strategischen Technologietrends auf.

Wie Unternehmen vom intelligenten Umgang mit Daten profitieren

Der hohe wirtschaftliche Stellenwert zeigte sich, als Anfang des Jahres auf dem World Economic Forum Big Data zu einem Wirtschaftsgut erklärt wurde. Schon in dem einige Monate zuvor veröffentlichten Report des McKinsey Global Institute wird ausführlich dargestellt, in welchem Maße heute Innovation und Wachstum von dem Rohstoff Daten oder Informationen abhängen. Das lesenswerte Papier nennt fünf Aufgabenkomplexe, in denen Unternehmen von dem intelligenten Umgang mit großen Datenmengen profitieren. Zu diesen zählen das Schaffen von Transparenz, die Durchführung von Simulationen zur Wirkungsanalyse von Entscheidungen, fein gegliederte Markt- und Kundengruppensegmentierung, datengestützte Entscheidungsfindung zur Optimierung des operativen Betriebs bis hin zur Erfindung gänzlich neuer Geschäftsprozesse, beispielsweise durch die Integration der in Echtzeit vorliegenden Standortdaten, um orts- und zeitabhängige Preisberechnungen einzuführen.

All das klingt unspektakulär und wird in Unternehmen zumindest in Teilbereichen schon aktiv gelebt. Beispielsweise werden im Handel seit Jahren der Warenfluss mithilfe von RFID-Chips gesteuert oder die Informationen aus den Kauftransaktionen an den Kassensystemen in Kombination mit dem Kundenverhalten zur Festlegung des Produktmix oder der Shop-Gestaltung herangezogen. Was Big Data neu in Angriff nimmt, ist das Mengen-Phänomen. Die rasante Verbreitung des Internets in allen Bereichen führt zu einer sprunghaft wachsenden Datenflut. Neben den Unternehmensanwendungen sorgen soziale Netzwerke, die Lokalisierungsdaten des mobilen Internet, aber auch die Unzahl an Ablesegeräten und Sensoren für kontinuierlichen Nachschub. Allein im laufenden Jahr rechnen Analysten mit einer Produktion von 2,5 Zett abyte zusätzlichen (!) Daten in den unterschiedlichsten Formaten. Diese Daten für die Unternehmenssteuerung im richtigen Kontext zeitnah auszuwerten und nutzbar zu machen, ist die Herausforderung, der sich heute nahezu alle Unternehmen stellen müssen.

Was hinter dem Hype um Big Data steckt

Nach dem Urteil von Dr. Wolfgang Martin, Beobachter der Business-Intelligence- und der Datenmanagement-Szene, gibt es einen Grund für den Hype um Big Data: „Wir verfügen heute über entsprechende Technologien.“ Dies betrifft sowohl Technologien, die Big Data erzeugen, als auch Technologien, um mit dem Volumen, der Quellenvielzahl (Variety) und der Realtime-Anforderung (Velocity) umgehen zu können. Dr. Carsten Bange vom Business Application Research Center (BARC) ergänzt: „Bei Big Data geht es auch immer um Verfahren und Methoden für die hochskalierbare Sammlung und Analyse von Daten, die in verschiedenen, häufig nicht vorhersagbaren Strukturen vorliegen. Diese integrierte Analyse polystrukturierter Daten ist eine echte Neuerung. Das gab es so vorher nicht.“

Es waren die großen Internet-Plattformen wie Amazon, Ebay, Facebook und Google, die den Anstoß zur Entwicklung neuer Methoden und Technologien gaben. Heute befasst sich eine wahre Phalanx an Herstellern mit In-Memory-Technologien und skalierbaren Verteilungsmechanismen, um ihr Produktangebot Richtung „Big Data“ zu trimmen. Mit den Systemen sollen sich künftig Petabytes unterschiedlichster Daten in Echtzeit oder nahezu in Echtzeit ad hoc bearbeiten lassen.
„Im Big Data verliert die relationale Datenmodellierung ihren Alleinstellungsanspruch: Sie wird durch alternative Modellierungsmethoden ergänzt, die auf schnelles und hochperformantes Suchen und Lesen ausgelegt sind“, benennt Berater Martin eine der grundlegenden technologischen Veränderungen in diesem Zusammenhang. Das Management der Daten in relationalen Datenbanken mit der Sprache SQL (Standard Query Language) war und ist für die betriebswirtschaftliche Transaktionsverarbeitung, etwa bei der Verwaltung von Aufträgen, fraglos eine perfekte Wahl.
Bereits im Falle des Einsatzes für analytische Aufgaben rieb man sich jedoch an den konzeptionellen Schranken in puncto Flexibilität und Skalierbarkeit. Mit dem Ansatz der Aggregation und Vorverdichtung ausgewählter Datenperspektiven zu mehrdimensionalen Informationswürfeln im Rahmen von Business-Intelligence-/Data-Warehouse-Projekten konnte man diese Schwächen ausgleichen.

Neue Maßstäbe

Big Data setzt jedoch neue Maßstäbe hinsichtlich Volumen, Quellenvielzahl und Realtime-Anspruch. Unter dem Begriff NoSQL (Not only SQL) werden daher zum Teil recht unterschiedliche Ansätze zusammengefasst, innovative Algorithmen zum Zugriff- und Speicher-Management mit moderner Hardware-Technologie zu verknüpfen. Aus technischer Sicht folgen NoSQL-Produkte anstelle der einengenden formalen Strenge von SQL den Designprinzipien Skalierbarkeit und Flexibilität. Eine geschickte Verteilung der Daten auf viele Server, wobei zum Teil sogar Kopien erlaubt sind, soll für den gewünschten Leistungsschub durch parallele Bearbeitung sorgen. Eine 100-prozentige Datenkonsistenz – ein unumstößlicher Grundsatz SQL-basierter Anwendungen – wird dagegen nicht mehr in aller Schärfe angestrebt.

Eines der fraglos wichtigsten NoSQL-Projekte ist das Open-Source-Programm Hadoop, einschließlich des MapReduce-Algorithmus. Das Framework entwickelt sich zu einer Art Lingua franca, intensive Rechenprozesse mit großen Datenmengen auf Rechner-Clustern beeindruckender Größenordnung durchzuführen. In dem Rechnerverbund von Facebook werden beispielsweise über 100 Petabyte Daten verwaltet. Rund um Hadoop, dessen Logo einem kleinen gelben Spielzeugelefanten angelehnt ist, entstand ein engagiertes Ökosystem unterschiedlicher Projektvorhaben. Auch kündigen immer mehr Anbieter von Analysewerkzeugen ihre Unterstützung des Programms an. Jaspersoft, Tableau, Pentaho, aber auch Softwareriesen wie Oracle, Microsoft oder SAP zählen zu den „Supportern“. Eine solche Kombination macht durchaus Sinn. Denn im Allgemeinen eignen sich Hadoop-/MapReduce-Anwendungen aufgrund ihrer Größe und Latenzzeit nur bedingt für interaktive Aufgaben. Für Analysewerkzeuge stellen die Ergebnisse dieser Arbeit im Hintergrund jedoch wertvollen Input zur Weiterverarbeitung dar.

E-Commerce: Durch Auswertung und Verknüpfung großer Datenmengen Effizienz und Absatz steigern

Lässt man die unterschiedlichen technologischen Herangehensweisen einmal außer Acht, fällt ein Faktum auf, das alle Ansätze eint: Sie sind zunächst für die Herausforderungen des Internets entwickelt worden. Die Ausrichtung auf die Internet-Inhalte ist auch eine der treibenden Kräfte, die für Unternehmen das Interesse an Big Data wecken. Marktbeobachter wie Mario Zillmann wissen, dass die wesentlichen strategischen Herausforderungen des Handels in den kommenden Jahren darin bestehen, weitgehend und sehr schnell die Anforderungen der Kunden zu verstehen und diesen nachzukommen oder sie zu übertreffen. Der Senior-Berater bei der Kaufbeurener Lünendonk GmbH ist überzeugt, dass das Konzept Big Data dabei eine zentrale Rolle spielt. Die Tabelle „Einsatzgebiete von Big Data“ vermittelt einen ersten Eindruck davon, an welchen Stellen der Handel profitieren kann. Insbesondere für den E-Commerce fallen große Datenmengen über Clickstreams, Text- und Bilddateien sowie Profil und Transaktionsdaten an, die bei gekonnter Auswertung und Verknüpfung die Effizienz im Absatz deutlich steigern. Die Verbindungen zwischen individueller Onlinewerbung und Empfehlungen lassen sich mit dem Kaufverhalten der Kunden vergleichen, um eine effektivere Platzierung von Werbung oder Angebote einzuleiten.

Der Übergang zu Social-Media-Monitoring oder Business-Intelligence ist dabei fließend. Die Düsseldorfer Agentur MediaCom fischt beispielsweise mit ihrem Mediaplanungstool Social Media Persona im riesigen Strom der Social-Media-Informationen. Konkret clustert das Tool Meinungsbeiträge im Social Web und bildet individuelle Zielgruppen. Ziel ist es, über eine Zielgruppenanalyse und -planung in Echtzeit sowie die Integration in Targeting-Systeme künftig Onlinekampagnen intelligent und präzise auszusteuern. „Wir hatten noch nie so viele aktuelle Daten in Echtzeit zu unseren Zielgruppen zur Verfügung“, freut sich Oliver Blecken von Mediacom. „Diese Daten stammen nicht aus ‚Labor‘-Fokusgruppen oder seitenlangen Fragebogeninterviews, sondern sie sind aus dem ‚wahren‘ Leben. Denn in Social Media zeigen Menschen uns ihre täglichen Aktivitäten.“

Gezielte Kaufempfehlungen in sozialen Netzen

Auf eine personalisierte Ansprache und Werbung setzt inzwischen auch Walmart. Der US-Konzern hat im vergangenen Jahr hierzu eigens die kleine Spezialistenschmiede Kosmix übernommen, die mit ihrer Plattform Social Genome den Kern des neu gegründeten WalmartLab bildet.
Aufgabe der neuen Einheit ist es, aus den vielfältigen Daten von Anwendern in sozialen Netzen und Ähnlichem Nutzerprofile anzulegen, um gezielt Kaufempfehlungen auszusprechen. Tweetet ein Nutzer beispielsweise etwa „Ich liebe Salt!“, registriert die Plattform mithilfe intelligenter Analysemethoden innerhalb weniger Minuten, dass es sich um einen Actionthriller mit Angelina Jolie handelt. Sie erkennt gleichfalls, dass der Nutzer in Kürze Geburtstag hat, und kann einem Freund mit Hinweis auf die Film-Vorliebe Vorschläge für ein passendes Geschenk unterbreiten.

Das Beispiel zeigt, dass in Big Data viel Wissen steckt. Ob es besseres ist, bleibt offen. Denn ein solcher Service setzt voraus, dass die notwendigen Daten frei verfügbar und korrekt sind. „Ein Mehr an Information bedeutet nicht unbedingt gleichzeitig bessere Information. Auch macht die Quellenvielfalt Probleme, was die Vergleichbarkeit der Daten angeht. Denn unterschiedliche Quellen erzeugen durchaus auch Daten in unterschiedlicher Qualität und Beschaffenheit“, warnt Berater Martin. Unabhängig von dieser Problematik zeigen die Big-Data-Vorreiter Amazon, Ebay, Facebook und Google auch, dass Potenziale existieren und geldwerten Vorteil bringen können.