Ein KI-Modell wurde entwickelt, die Genauigkeit sieht hervorragend aus und alle sind beeindruckt. Doch was, wenn die Ergebnisse auf eine Weise irreführend sind, die nicht sofort ins Auge springt? Die gefährlichsten Fehler bei der Arbeit mit Daten und KI sind diejenigen, die jedes Meeting und alle Überprüfungen unbeschadet überstehen – nur um Monate später ans Licht zu kommen, weil eine auf diesen Ergebnissen basierende Entscheidung in sich zusammenbricht. Die Daten- und KI-Experten von Knime zeigen drei Fallen bei der Arbeit mit Daten- und KI-Modellen auf und erklären, wie man sie erkennt.
Falle Nr. 1: Korrelation ist nicht Kausalität
Die Daten haben ein Muster aufgezeigt, das in Wirklichkeit gar nicht existiert.
Hier ein plakatives Beispiel: Der Eisverkauf und die Zahl der Haiangriffe nehmen jedes Jahr zeitgleich zu. Überträgt man die Daten in ein Diagramm, verlaufen die Kurven fast synchron. Die Korrelation ist stark. Aber ein Verbot von Eiscreme würde nicht die Haiangriffe verhindern. Beide Phänomene nehmen aufgrund des warmen Wetters zu. Diese verborgene Variable erklärt den Zusammenhang.
Auch wenn Eiscreme und Haie im Geschäftsalltag eher selten vorkommen, fallen Teams im Umgang mit Geschäftsdaten auf ganz ähnliche Muster herein. Beispielsweise steigen parallel zu einer Werbeschaltung die Umsatzzahlen. Es ist verlockend, daraus zu schließen, dass die Kampagne das Wachstum ausgelöst hat – doch was hat sich sonst noch verändert? Saisonale Effekte, der Rückzug eines Wettbewerbers vom Markt oder eine Preisanpassung könnten denselben Trend erklären. Dass sich zwei Kennzahlen synchron entwickeln, ist noch kein Beweis dafür, dass die eine die Ursache für die andere ist.
Wenn Korrelation mit Kausalität gleichgesetzt wird, kann es dazu führen, dass Unternehmen Initiativen ausweiten, die eigentlich gar keine Ergebnisse liefern. Stattdessen werden Investitionen gestrichen, die zielführender wären.
Worauf sollte man achten: Bevor behauptet wird „X hat Y verursacht“, sollte man sich fragen: Welche anderen Variablen haben sich gleichzeitig verändert? Könnte ein dritter Faktor beides erklären? Bleibt der Effekt bestehen, wenn man saisonale Schwankungen herausrechnet?
Falle Nr. 2: Die Erklärbarkeitslücke
Das KI-Modell liefert zwar eine Antwort, aber der Analyseweg ist nicht nachvollziehbar.
Das KI-Modell kennzeichnet eine Transaktion als Betrug, lehnt einen Kreditantrag ab oder filtert einen Kandidaten aus dem Bewerbungsprozess heraus. Dann fragt jemand: Warum hat es diese Entscheidung getroffen?
Wenn die beste Antwort dann lautet: „Das Modell hat es so gesagt“, liegt ein Vertrauensproblem vor. Die EU-KI-Verordnung (EU-AI-Act) fordert bereits die Erklärbarkeit von Hochrisikoanwendungen.
Aufsichtsbehörden, Prüfer und alle von diesen Entscheidungen Betroffenen stellen die Frage: Wie sind Sie zu diesem Ergebnis gekommen? Dies ist die sogenannte Erklärbarkeitslücke. Die meisten Modelle sind auf Genauigkeit und nicht auf Transparenz optimiert. Sie liefern also eine Vorhersage, ohne die Begründung dafür offenzulegen. Die Lösung besteht nicht darin, auf KI zu verzichten. Vielmehr geht es darum, Systeme zu entwickeln, in denen jeder Schritt sichtbar ist, in denen man auf jeden Teil des Prozesses klicken und sehen kann, welche Daten eingegeben wurden, welche Logik angewendet wurde und wie das Ergebnis erzeugt wurde. Wenn der Prüfer fragt: „Wie?“, sollte man ihm den gesamten Weg von der Eingabe bis zur Entscheidung aufzeigen können.
Worauf sollte man achten: Wenn jemand fragt, warum das Modell eine bestimmte Entscheidung getroffen hat, und man erst im Code nachsehen oder raten müsste, ist das ein Zeichen dafür, dass der Prozess mehr Transparenz benötigt, bevor er für echte Entscheidungen bereit ist.
Falle Nr. 3: „Overfitting“
Das KI-Modell erreicht bei den Testdaten eine Genauigkeit von 98 % – alle jubeln. Aber sobald es live geht, sind die Vorhersagen in der Hälfte der Fälle falsch.
Dieses Phänomen wird als „Overfitting“ (Überanpassung) bezeichnet: Das Modell hat die Trainingsdaten lediglich auswendig gelernt, anstatt die darin enthaltenen tatsächlichen Muster zu erfassen. Jede Eigenheit, jeder Ausreißer und jeder Zufall aus dem Datensatz wird fest in das Modell integriert. Dadurch wirkt es im Nachhinein zwar brillant, ist aber nicht in der Lage, mit neuen Daten umzugehen.
Ein Vergleich wäre eine Strategie zur Verhinderung von Kundenabwanderung. Diese funktioniert bei den aktuellen Kunden im Heimatmarkt hervorragend, aber beim Eintritt in einen neuen Markt versagt sie. Überträgt man dies auf ein KI-Modell, dann hätte dieses nicht gelernt, „was zur Abwanderung von Kunden führt“, sondern, „was in diesem speziellen Quartal bei genau diesen Personen zur Abwanderung geführt hat“ – und das ist nicht dasselbe.
Das Tückische daran ist, dass sich Overfitting nicht ankündigt. Die Kennzahlen sehen hervorragend aus und die Grafiken wirken sauber. Alles scheint in Ordnung zu sein, bis das Modell auf reale Daten trifft, die nicht mit dem Trainingsdatensatz übereinstimmen.
Worauf sollte man achten: Wenn die Leistung des Modells bei Tests mit bisher unbekannten Daten deutlich abfällt, hat es Rauschen statt des eigentlichen Signals gelernt. Es gilt, das Modell stets anhand von Holdout-Daten zu validieren, und bei Ergebnissen, die zu gut erscheinen, gilt Skeptik.
Alle drei „Fallen“ haben eines gemeinsam: Das Ergebnis, das das Daten- und KI-Modell liefert, sieht auf den ersten Blick korrekt aus. Das Dashboard ist grün und der Genauigkeitswert hoch. Nichts an den oberflächlichen Ergebnissen deutet auf ein Problem hin. Das eigentliche Problem liegt nicht in der Antwort selbst, sondern in der Art und Weise, wie sie erzielt wurde und wie transparent und nachvollziehbar dieser Weg ist.
„Teams, die ihre Analysen in sichtbaren und nachvollziehbaren Schritten aufbauen, erkennen solche Probleme meist frühzeitig. Wer sich hingegen auf „Black-Box“-Ergebnisse verlässt, bemerkt Fehler oft erst, nachdem bereits eine Fehlentscheidung getroffen wurde“, erklärt Christian Birkhold, VP Products bei Knime. „Der Unterschied zwischen „Unser Modell klappt“ gegenüber „Unser Modell klappt – und wir können die Entscheidungsfindung jederzeit belegen“ macht den Unterschied zwischen einer guten Demo und einem vertrauenswürdigen System aus.“
#Knime








