Unbewusste Verzerrungen in KI-Modellen – Können synthetische Daten eine ethische Lösung sein?

Wie können unbewusste Verzerrungen in KI-Modellen erkannt und reduziert werden? David Sweenor, Senior Director of Product Marketing bei Alteryx, erklärt, wie und warum synthetische Daten beim Training von KI-Modellen verwendet werden sollten.

Während KI einst Datenwissenschaftlern vorbehalten war, ist die Nutzung längst zum Mainstream geworden. Heute ermöglicht KI es allen, zusammenzuarbeiten und automatisierte und schnelle Erkenntnisse aus ihren Daten zu gewinnen – von Business-Analysten über Fachexperten bis hin zu Datenwissenschaftlern. So haben beispielsweise Personalabteilungen die Chance, eine riesige Anzahl von Bewerbungen für eine bestimmte Stelle zu erhalten und auszuwerten. Insbesondere im Technologie-Sektor ist das ein großer Vorteil. Da ihr Hauptziel darin besteht, die besten Kandidaten zu finden, ist es keine Überraschung, dass KI als Lösung zur Automatisierung dieses Prozesses und zur automatischen Generierung von Erkenntnissen in Betracht gezogen wird.

Wie jede andere Technologie ist allerdings auch die KI fast vollständig vom Faktor Mensch abhängig. Denn der Mensch ist ein Schlüsselelement, um erfolgreiche KI-Modelle zu entwickeln und zu trainieren. Um die maschinellen Lern- und Deep-Learning-Algorithmen hinter einer KI zu implementieren, müssen Menschen in der Lage sein, die Verzerrungen in den historischen Daten zu erkennen. Nur so lassen sich Modelle verhindern, die unbeabsichtigt diskriminierende Ergebnisse liefern. Am Ende sind es immer die Menschen, die die diese Modelle mit den Trainingsdaten speisen, die sie benötigen, um Trends auszumachen und Erkenntnisse zu gewinnen. Doch genau an dieser Stelle kann sich ein weiterer Faktor in den Prozess einschleichen, der dazu führen kann, dass minderwertige Daten in KI-Modelle einfließen und ungenaue und verzerrte Ergebnisse geliefert werden – und das sind unbewusste Vorurteile. Wie können Unternehmen also sicherstellen, dass KI-Modelle Erkenntnisse liefern, die nicht nur schnell und genau sind, sondern auch ethisch einwandfrei?

 

Ethische Erkenntnisse liefern: die Daten sind entscheidend

Kurz gesagt, handelt es sich bei KI um eine Maschine, die Muster erkennen kann. Sie funktioniert so, wie sie programmiert wurde, um auf Dateneingaben zu reagieren. Wie eine KI aufgebaut ist, liegt in der Verantwortung von Datenwissenschaftlern und Entwicklern. Die Daten, mit denen das Modell gespeist wird, werden allerdings oft von einzelnen Abteilungen gesammelt, kontextualisiert und bereitgestellt. Neben diesen spezifischen Maßnahmen ist jedoch auch ein ethischer Data-Governance-Prozess für das gesamte Unternehmen erforderlich. Dieser legt im Idealfall fest, wie, wo und wann Daten verwendet werden können – und, ob sie überhaupt verwendet werden sollten. In der EU legt die DSGVO den übergreifenden Rahmen hierfür fest. Um die Anforderungen Datengerechtigkeit, -eigentum und -transparenz, die die Verordnung mit sich bringt, in der Praxis umzusetzen, sind Governance und spezifische Prozesse erforderlich, die intern in jedem Unternehmen eingeführt werden müssen.

Ohne die richtigen, abteilungsübergreifenden Skills, Datenkenntnisse und Governance-Regelungen können die Daten, die für die KI-Modelle ausgewählt werden, nicht nur fehlerhaft und unvollständig sein. Im schlimmsten Fall sind sie nicht rechtskonform oder beinhalten Elemente historischer Verzerrung. Ein gutes Beispiel, welche Folgen dies haben kann, bietet der Handelsriese Amazon: Das Unternehmen entwickelte einen Prototyp-Algorithmus zur Bewertung der Bewerbungen potenzieller Mitarbeiter, wobei die verwendeten Daten einen Zeitraum von zehn Jahren abdeckten. Ziel war es, die besten Bewerbungen auf Grundlage früherer Leistungen von Arbeitnehmern in ähnlichen Positionen zu ermitteln, um so schneller die besten Mitarbeiter zu finden. In Wirklichkeit wertete der Algorithmus jedoch die Bewerbungen von Frauen ab. Wie konnte das passieren?

 

Die Folgen von KI-Training mit minderwertigen Daten

Eines der größten Missverständnisse im Zusammenhang mit KI ist, dass es sich um eine Trickkiste handelt, die auf magische Weise die Zukunft voraussagen kann. In Wirklichkeit handelt es sich jedoch eher um eine Mustererkennungsmaschine, die auf Grundlage historischer Daten eine ganz bestimmte Aufgabe erfüllt. Wenn also ein KI-Modell mit tausend Datensätzen über erfolgreiche Mitarbeiter gefüttert wird und 84 Prozent davon dasselbe Merkmal aufweisen, worin besteht dann das offensichtliche Muster? Die KI wird sich auf genau diese Eigenschaft fokussieren – in diesem Fall die Tatsache, dass Männer, statistisch betrachtet, erfolgreicher waren, weil sie in der Vergangenheit mehrheitlich in diesem Job vertreten waren.

Wie sich zeigt, gehen die Vorurteile der KI auf systembedingte Schwachstelle der Tech-Branche zurück. Studien zufolge machen Frauen hier nur einen Anteil von 16 Prozent der leitenden Angestellten aus. Während der Mensch sich dieser schädlichen Diskrepanz sehr wohl bewusst ist, hebt die KI genau solche Muster und Trends hervor. Im Falle Amazons hatte das zur Folge, dass das KI-Modell Bewerbungen, die zum Beispiel Indikatoren wie „Vorstandsmitglied im Damenschachclub“ enthielten, ablehnte, da Frauen in der Vergangenheit weniger häufig eingestellt wurden als männliche Bewerber. Zwar setzte das Entwicklungsteam dieses Bewertungskriterium daraufhin auf eine Verbotsliste – trotzdem ist das keine Garantie, dass der Algorithmus nicht andere Wege findet, um Männer zu bevorzugen. Amazon beendete das Projekt daraufhin.

 

Synthetische Daten als ethische Unterstützung

Um KI-gestützte Erkenntnisse bereitzustellen, die sich als ethisch bezeichnen lassen, müssen drei wesentlicher Anforderungen erfüllt werden. Erstens: Es werden Daten benötigt. Zweitens: Diese müssen von repräsentativer Qualität sein, um gültige Erkenntnisse zu liefern, wenn sie in KI-Modelle eingespeist werden. Was aber, wenn diese qualitativ hochwertigen Daten nicht in ausreichender Menge zur Verfügung stehen? Genau an dieser Stelle kommen synthetische Daten ins Spiel: Sie bestehen aus programmatisch generierten und mit Anmerkungen versehenen Informationen, die aus vollständig repräsentativen Datensätzen extrapoliert werden. Diese künstlichen Daten ahmen die statistischen Eigenschaften des Originaldatensatzes nach, verbergen aber vollständig die echten Daten, aus denen sie generiert wurden. Synthetische Daten können aus einem realen Datensatz abgeleitet werden, um ihn auf die erforderliche Größe zu skalieren, ohne seine statistische oder repräsentative Bedeutung zu verzerren.

Sind diese beiden Anforderungen erfüllt, folgt die Dritte – und diese besteht, um das Beispiel aus dem Personalwesen zu erweitern, in einem geschulten Team. Es sollte so ausgebildet sein, dass es die Faktoren und Attribute erkennen kann, die für die Generierung von Daten für KI-Modelle wichtig sind. Und zwar völlig unabhängig davon, ob diese synthetischen oder anderen Ursprungs sind. Betrachtet man den gesamten KI-Prozess, erfolgt die Einspeisung von Daten erst zu einem relativ späten Zeitpunkt. Normalerweise erhält das Entwicklungsteam einen Auftrag, um eine bestimmte Aufgabe mithilfe eines bestimmten KI-Modells durchzuführen. Um das Modell erstellen zu können, wird das Entwicklungsteam immer Daten der jeweiligen Abteilung anfordern – wie zum Beispiel von der Personalabteilung. Wenn diese Abteilung Live-Daten, zum Beispiel eine Liste von Lebensläufen der letzten zehn Jahre anstatt eines sauberen Datensatzes, zur Verfügung stellt, dann werden diese Daten mit hoher Wahrscheinlichkeit eine große Anzahl von Verzerrungen beinhalten.

 

Mehr Datenanalysen erfordern mehr Kompetenz

Die Möglichkeit, eine repräsentative Stichprobe aus bereits vorhandenen Daten zu erstellen, ist ein relativ einfaches Unterfangen, für das eine ganze Reihe von Datenstichproben-Tools zur Verfügung steht. Mit einigen grundsätzlichen Datenbereinigungen kann eine „Zufallsstichprobe“ aus einem Datensatz gezogen werden, der um jene Kategorien bereinigt wurde, die potenziell zu verzerrten Ergebnissen führen könnten – so zum Beispiel das Geschlecht. Es können auch Methoden zur Wahrung der Privatsphäre eingesetzt werden, um sicherzustellen, dass sich die Daten nicht zu Einzelpersonen zurückverfolgen lassen. Ohne die Kombination von Daten- und Fachwissen besteht die Herausforderung darin, dass die Entwickler einfach nicht über die abteilungsinterne Erfahrung verfügen, um selbst repräsentative Stichproben aus Daten zu erstellen. Deshalb ist es notwendig, dass die Mitarbeiter ihre Kompetenzen erweitern, um die abteilungsinterne Datenarbeit zur Unterstützung der allgemeinen Geschäftsziele zu erleichtern.

David Sweenor ist als Senior Director of Product Marketing bei Alteryx tätig. Im Bereich Analytik blickt er auf eine 20-jährige Erfahrung zurück, wobei er derzeit verschiedene globale Initiativen im Bereich Advanced-Analytics verantwortet.

Um innovativ bleiben und den Mehrwert von Daten praktisch nutzbar machen zu können, ist die abteilungsübergreifende Nutzung von KI-Modellen und deren Ergebnissen unabdingbar. Da immer mehr Mitarbeiter in der Lage sind, auf Daten zuzugreifen und dadurch Data-Science-Silos aufzubrechen, ist die Einstellung und Weiterbildung von „Fachexperten“ ein wichtiger erster Schritt, um die Nutzung eindimensionaler Daten zu vermeiden. Die Teams der einzelnen Abteilungen sind aufgrund ihrer individuellen Erfahrung viel eher in der Lage, Fehler wie die bereits genannten zu erkennen. Aus diesem Grund ist es die Aufgabe von Entwicklern und Datenwissenschaftlern, im Rahmen klar definierter und kontextbezogener Governance-Prozesse effektiver mit ihren Teams zusammenzuarbeiten. Nur so können sie dafür sorgen, dass KI-Modelle mit qualitativ hochwertigeren Daten gefüttert, ihre Genauigkeit erhöhen und dadurch garantiert faire Ergebnisse geliefert werden.

#Alteryx