Bei Big-Data immer auch das Gehirn einschalten

Mit Big-Data sollte es möglich sein, beim Stöbern in beliebigen Datenbergen auf unbekannte Zusammenhänge zu stoßen. Aber aufgepasst, die Zusammenhänge können sich auch nur als einfacher Zufall erweisen.

Früher nutzten wir das Data-Mining, um in einem scheinbar wertlosen Datenberg aufwändig nach neuem Wissen zu „graben“. Eigentlich versteht man unter Data-Mining die systematische Anwendung statistischer Methoden auf großen Datenbeständen mit dem Ziel, neue Querverbindungen und Trends zu erkennen. Die Bezeichnung „Data-Mining“ ist jedoch etwas irreführend, denn es geht um die Gewinnung von Wissen aus den Daten und nicht um die Generierung von Daten selbst. Auch wird die reine Erfassung, die Speicherung und die Verarbeitung großer Datenmengen fälschlicherweise auch mit dem Schlagwort „Data-Mining“ bezeichnet. Korrekt verwendet bezeichnet das Data-Mining die Extraktion von Wissen, das im statistischen Sinne bisher unbekannt war und zur Bestimmung bestimmter Regelmäßigkeiten, Gesetzmäßigkeiten und verborgener Zusammenhänge nützlich ist. Das Data-Mining ist inzwischen jedoch völlig veraltet. Seit geraumer Zeit wird deshalb die „Big Data Sau“ durch das digitale Dorf gejagt.

Big-Data bezeichnet solche Datenmengen, die zu groß oder zu komplex sind oder sich zu schnell ändern, um sie mit klassischen Methoden der Datenverarbeitung auswerten zu können. Inzwischen wird der Begriff „Big Data“ für jegliche Art der Datenverarbeitung verwendet, selbst wenn die Daten weder groß, noch komplex sind oder sich nicht so schnell ändern und daher mit herkömmlichen Techniken problemlos verarbeitet werden könnten.

Laut Bid-Data hängt bekanntlich alles mit allem zusammen. Daher fragt Big-Data: „Wie hängen die Dinge miteinander zusammen?“ Im Zeitalter einer fast unermesslichen Computerpower liegen eine Menge Antworten auf bisher nicht gestellte Fragen auf der Hand. Die Parole lautet: „Finde in den vorhandenen Datenbergen die Zusammenhänge zwischen den verschiedenen Ereignissen und stelle die Trends dar!“

Unter Umständen findet man sehr schnell Verbindungen, die uns früher entgangen wären. Je mehr Daten vorhanden sind, umso mehr Zusammenhänge lassen sich theoretisch und auch praktisch finden! Beispiele gefällig? Der Genuss von Bionahrung und die Zunahme von AIDS hängen irgendwie zusammen. Ebenso überzeugend ist der Zusammenhang zwischen dem Pro-Kopf-Verbrauch von Rohmilchkäse und der Anzahl der Menschen, die in ihrem Bett ersticken. Ähnliches gilt für die Gefahr, in der eigenen Badewanne zu ertrinken, und der Zahl der Filme, in denen Johnny Depp auftritt. Aber am rätselhaftesten ist die Tatsache, warum die Scheidungsrate in der Stadt Konstanz aufs engste mit dem Pro-Kopf-Verbrauch von Salatöl in der Schweiz gekoppelt ist.

Natürlich handelt es sich bei den genannten Beispielen nur um bizarre Scheinzusammenhänge. Aber anhand dieser Daten lassen sich sehr schnell die großspurigen Behauptungen mancher Big-Data-Vertreter ad absurdum führen. Es genügt eben nicht, wie von diesen behauptet, einfach den Rechenknecht mit Daten vollzustopfen, um am Ende kommt eine aufregende neue Erkenntniss oder Verknüpfung heraus. Die Wahrheit von Big-Data lautet: Wer viel korreliert, erhält unter Umständen viel Mist.

Auch beim Umgang mit den Ergebnissen von Rechenknechten (schnellen Supercomputern) sollte man eine gesunde Portion natürliche Skepsis walten lassen und vor allem das Mitdenken nicht abschalten. Der Schlaf ohne Vernunft erzeugt Statistikgespenster. Viele Big-Data-Experten neigen sogar dazu, so lange in den Datenbanken zu stöbern, bis das erwünschte Ergebnis gefunden wurde. Frei nach dem Motto: Glaube keiner Statistik, die du nicht selber gefälscht hast!

Natürlich ist es nicht ganz fair, sich hier nur über Auswüchse von Big-Data lustig zu machen. Dieses Problem existiert schließlich, seit es Statistiken gibt. Statistische Zusammenhänge (Korrelationen) sind längst nicht immer auch ursächlicher Natur. Oft beruhen die Zusammenhänge auf Zufällen oder auf weiteren Faktoren, die im Dunkeln bleiben, aber die wahren Ursachen darstellen. Der Nutzen vieler Aussagen steht außer Frage, aber die daraus gezogenen Schlussfolgerungen sind womöglich zu weit hergeholt. Auch wenn die Statistik dafür spricht.

Die zunehmende Aufweichung des Begriffs „Big Data“ führt dazu, dass dieser zu einem aussagelosen Marketingbegriff verkommt und viele Big-Data-Prognosen stark abgewertet werden.

Kritik gibt es an „Big Data“ vor allem dahingehend, dass die Datenerhebung und -auswertung oft nach technischen Aspekten erfolgt, also dass beispielsweise der technisch einfachste Weg gewählt wird, die Daten zu erheben und die Auswertung von den Möglichkeiten, diese Daten zu verarbeiten, begrenzt wird. Statistische Grundprinzipien wie das einer repräsentativen Stichprobe werden oft vernachlässigt. Es gilt:

  • Größere Datenmengen müssen nicht qualitativ bessere Daten enthalten,
  • Nicht alle Daten sind gleichermaßen wertvoll,
  • Bei der Interpretationen der Daten ist immer Vorsicht geboten

Viele Fragestellungen erfordern tief greifende Recherchen – eine Korrelation ist eigentlich nur der Anfang. Statistisch gesehen mögen viele Antworten stimmen. Sind die Aussagen auch noch populär, dann beglücken sie uns. Jedoch ist es in der Praxis oft ungeheuer schwierig, im Heuhaufen belangloser Korrelationen jene Stecknadel zu finden, die eine wahre Ursache darstellt. Anders als es scheinen mag, sind solche Funde nicht die Regel, sondern die Ausnahme. Doch es gibt sie. Wie etwa die „Britische Ärzte-Studie“, die ein halbes Jahrhundert währte, einen klaren und ursächlichen Zusammenhang zwischen Rauchen und Lungenkrebs offenbarte – und die meiste Zeit ganz ohne Computer und Big-Data auskam. (mh)