In der Statistik und der Informatik bezieht sich der Begriff Big Data - "große Datenmengen" - allgemein auf eine Sammlung von Informationsdaten, die in Bezug auf Umfang, Geschwindigkeit und Vielfalt so groß sind, dass spezielle Technologien und Analysemethoden erforderlich sind, um Werte oder Wissen zu gewinnen. In der Literatur wird also erklärt, was Big Data ist und wozu es dient, wobei Begriffe verwendet werden, die für Uneingeweihte vielleicht zu technisch klingen. Es handelt sich um eine der tiefgreifendsten und weitreichendsten Entwicklungen der digitalen Welt, die unser tägliches Leben und die produktiven Tätigkeiten von Unternehmen nachhaltig beeinflussen wird.
Dieser Einfluss ist jeden Tag spürbar und hat viele der grundlegenden Aktivitäten unserer Existenz praktisch radikal verändert. Das gilt auch für die Welt um uns herum. Deshalb ist vor allem in den letzten zwanzig Jahren in der Print- und Online-Presse, vor allem aber in den Marketing- und IT-Seiten, immer häufiger von Megadaten die Rede. In diesem Leitfaden werden wir gemeinsam herausfinden, welchen Wert sie haben, wofür sie verwendet werden und woher Big Data kommen kann.
Big Data: was sie sind und wofür sie verwendet werden
Big Data ist ein Trend, der nicht nur mächtig ist, sondern, wie wir bereits erwähnt haben, auch von Dauer sein wird. Darüber hinaus wird sie in Bezug auf die Anwendung ständig verbessert. Wie Sie sicher verstanden haben, bezieht sich der Begriff auf die Fähigkeit, eine sehr große Menge heterogener, strukturierter und unstrukturierter Daten zu analysieren, zu extrapolieren und miteinander in Beziehung zu setzen, wie es der Datenwissenschaft eigen ist. All dies dank ausgefeilter statistischer und computergestützter Verarbeitungsmethoden, die darauf abzielen, Verbindungen und Korrelationen zwischen verschiedenen Phänomenen zu entdecken und folglich künftige Phänomene vorherzusagen.
Um einige Beispiele zu nennen: Aus geschäftlicher Sicht können Big Data für verschiedene Zwecke verwendet werden, unter anderem zur Messung der Leistung einer Organisation oder eines Geschäftsprozesses. Um zu verstehen, was Big Data im Alltag bedeutet, denken wir an die Interaktion in sozialen Netzwerken, die Navigation auf Websites, die modernsten Smartphones, die praktisch immer miteinander verbunden sind, die Kreditkarten, die wir zum Einkaufen benutzen, das Fernsehen, den für Computeranwendungen benötigten Speicherplatz, die intelligenten städtischen Infrastrukturen und die Sensoren, die an Gebäuden, öffentlichen und privaten Verkehrsmitteln angebracht sind.
In all diesen Fällen sind wir mit einer wirklich beeindruckenden Datenmenge konfrontiert, die natürlich viel größer ist als die von vor ein paar Jahrzehnten. Heute können große Daten in Echtzeit analysiert werden. Darüber hinaus ist auch der Mensch im Laufe der Zeit zu einer Datenquelle geworden, ebenso wie eine nicht unerhebliche Menge an Daten entlang der Wertschöpfungskette jeder Branche entsteht. Im Jahr 2011 erklärte Teradata: "Ein Big-Data-System übersteigt die Hardware- und Softwaresysteme, die üblicherweise verwendet werden, um Daten in einem angemessenen Zeitrahmen für eine Gemeinschaft/Population von Nutzern zu erfassen, zu verwalten und zu verarbeiten, selbst wenn es sich um eine große Zahl von Nutzern handelt".
Einen weiteren Vorschlag zur Charakterisierung von Big Data machte das McKinsey Global Institute: "Ein Big-Data-System bezieht sich auf Datensätze, deren Größe/Volumen so groß ist, dass es die Kapazität von relationalen Datenbanksystemen zur Erfassung, Speicherung, Verwaltung und Analyse übersteigt". In Wirklichkeit reicht die bloße Definition von Big Data nicht aus, um ein vollständiges und optimales Bild eines so relevanten Phänomens zu vermitteln. Dabei geht es nicht nur um große Datenmengen: Auch der Prozess der Datenerfassung und -verwaltung hat sich verändert, und die Technologien, die den Lebenszyklus der Daten und ihre Nutzung unterstützen, haben sich weiterentwickelt.
Die große Revolution, die wir meinen, wenn wir von Big Data sprechen, ist daher vor allem die Fähigkeit, all diese Informationen zu nutzen, um sie zu verarbeiten, zu analysieren und objektive Beweise zu verschiedenen Themen zu finden. Das bedeutet, was mit all diesen Datenmengen gemacht werden kann, d. h. Algorithmen, die in der Lage sind, so viele Variablen in kurzer Zeit zu verarbeiten, und die zudem mit wenigen verfügbaren Rechenressourcen auskommen - vielleicht sogar mit einem einfachen Laptop für den Zugriff auf die zu analysierende Plattform. Big Data, um es einfacher auszudrücken, setzt neue und raffiniertere Fähigkeiten voraus, Informationen miteinander zu verknüpfen, um einen wirklich visuellen Zugang zu den Daten zu ermöglichen, der Muster und Interpretationsmodelle nahelegt, die man sich bisher nicht einmal vorstellen konnte.
Big Data wird also im Allgemeinen durch drei Vs definiert. Die erste, sehr große Datenmenge ist das Volumen, d. h. die Menge an (strukturierten oder unstrukturierten) Daten, die jede Sekunde aus heterogenen Quellen generiert wird - um nur einige zu nennen, denken wir an Sensoren, Protokolle, E-Mails, GPS, soziale Medien und traditionelle Datenbanken. Hinzu kommt die Vielfalt (Variety), die sich auf die verschiedenen Arten von Daten bezieht, die erzeugt, gesammelt und genutzt werden, und schließlich die Geschwindigkeit (Velocity), da Big Data in Echtzeit erzeugt wird. Mit der Zeit wurde ein viertes V eingeführt, das der Wahrhaftigkeit, und dann ein fünftes, das des Wertes.
Die verschiedenen Verwendungszwecke von Big Data
Die Analyse großer Datenmengen ermöglicht es uns, neue Erkenntnisse zu gewinnen, die uns helfen, fundiertere Entscheidungen zu treffen, nicht nur im geschäftlichen Bereich. Da wir nun wissen, was Big Data ist und wofür es verwendet wird, ist es ebenso wichtig zu wissen, wie es in den verschiedenen Sektoren verwendet wird. Ermöglicht und erschwinglich wird all dies durch Technologien, die die Verwaltung unstrukturierter Daten und die Verarbeitung großer Datenmengen in Echtzeit ermöglichen, aber auch durch die Verbreitung immer ausgefeilterer Algorithmen und äußerst innovativer Analysemethoden.
Diese Werkzeuge können und sollten die in den Daten verborgenen Informationen selbständig extrapolieren. In der Tat ergeben sich daraus potenziell unendlich viele Anwendungen, die in der modernen Welt jeden Tag sichtbar sind. In erster Linie im Marketing finden Megadaten ihre nützlichste und am weitesten verbreitete Anwendung. Sie werden in großem Umfang bei der Erstellung so genannter Empfehlungsmethoden eingesetzt, wie sie von Unterhaltungs- und E-Commerce-Giganten - Netflix und Amazon, um nur einige zu nennen - verwendet werden, um Kaufvorschläge zu unterbreiten, die auf den Interessen eines bestimmten Kunden und nicht auf denen von Millionen anderer Kunden basieren. Die Wahrnehmung und anschließende Verringerung von Betrug ist ein weiteres Beispiel dafür, wie Big Data tagtäglich genutzt werden kann, um einen produktiven Wert zu schaffen und die Erfahrungen der Nutzer eines Dienstes oder einer Plattform zu verbessern. Es überrascht nicht, dass führende Kreditkartenunternehmen wie Visa oder American Express jeden Tag Milliarden von Transaktionen aus der ganzen Welt analysieren, um ungewöhnliche Bewegungen und Muster zu erkennen und so die Zahl und Häufigkeit von Betrugsfällen in Echtzeit deutlich zu senken.
Auch bei der so genannten vorausschauenden Wartung ist sie nicht ohne Nutzen. Dieser Begriff bezieht sich auf Unternehmen, die gesammelte Betriebsdaten nutzen, um die Leistung zu analysieren und mögliche zukünftige Probleme vorherzusagen, bevor sie auftreten. Experten haben festgestellt, dass Unternehmen, die im Bereich Big Data führend sind, durchschnittlich 12 Prozent mehr Gewinn erwirtschaften können als Unternehmen, die den Wert dieser Datenstars unserer Zeit nicht nutzen.
Im öffentlichen Bereich gibt es viele andere Arten von Anwendungen für Big Data: In den letzten Jahren haben die Polizeibehörden große Mengen an Echtzeitdaten genutzt, um vorherzusagen, wo und wie viele Straftaten am wahrscheinlichsten sind; genauere Studien der Verbände, die für die Korrelation zwischen Gesundheit und Qualität der Atemluft zuständig sind, haben sich vervielfacht; es gibt auch die Möglichkeit, Genomanalysen durchzuführen, um die Dürreresistenz von Reispflanzen zu verbessern; oder auch die Erstellung von Modellen zur Analyse von Daten von Lebewesen in den Biowissenschaften und in der medizinischen Forschung, sowohl in der Diagnostik als auch in der Pharmakologie.
Natürlich ist es in all diesen Bereichen absolut unerlässlich, dass die rechtmäßige Nutzung von Big Data aufgrund ihres unglaublichen Wertes geregelt wird. Die unrechtmäßige oder allzu aufdringliche Nutzung von Daten kann in weniger schwerwiegenden Fällen das Vertrauen der Kunden in die Unternehmen untergraben. In schwerwiegenderen Fällen kann sie jedoch den Bürgern - die Patienten, Wähler und Verbraucher sein können - Schaden zufügen, was als schwächstes Glied der Wertschöpfungskette definiert wird. Wie in der Wirtschaftsliteratur und in der Gesetzgebung hervorgehoben wird, gehören zum Schutz des Einzelnen auch das Recht auf Privatsphäre und individuelle Freiheiten: Um diesen Schutz zu gewährleisten, müssen die Kontroll- und Sanktionsmaßnahmen der zuständigen staatlichen Stellen verstärkt und mit fortschrittlicheren Regulierungs- und Finanzinstrumenten ausgestattet werden.