Suche
Interview mit Marisa Tschopp

Künstliche Intelligenz messen: Wie intelligent ist ein KI-System wirklich?

Carina Schipper

Marisa Tschopp

Die Menschheit ist mehr denn je mit künstlicher Intelligenz (KI) konfrontiert. Doch wie „intelligent“ sind diese Systeme wirklich? Wir sprachen mit Marisa Tschopp, Forscherin bei scip ag und Sprecherin auf der ML Conference 2018, über den Künstlichen Intelligenz-Quotienten, wie man akademische IQ-Tests automatisiert und vieles mehr.

Entwickler: Der Begriff „Intelligenz“ ist nicht leicht zu fassen – schon bei Menschen. Doch wie ist Intelligenz in Bezug auf Maschinen zu verstehen?

Marisa Tschopp: Die menschliche Intelligenz war schon immer ein sehr kontroverses Thema. Der Bedeutung des Begriffs hat seit Anfang des 19. Jahrhunderts beträchtliche Veränderungen erfahren. „Intelligenz“ gewann zunächst vor allem im pädagogischen Kontext an Gewicht, da die „geistigen Fähigkeiten“ als die besten Prädiktoren für den Erfolg in der Schule angesehen wurden. Anhand dieser geistigen Fähigkeiten sollten die Schüler in die richtigen Klassen eingeteilt werden. Es gibt verschiedene, sehr ausgeklügelte Theorien, um die menschliche Intelligenz zu definieren. Heute betrachtet man die menschliche Intelligenz eher aus einer systemischen Perspektive und bezieht verschiedene Dimensionen mit ein, die weit über die Fähigkeit zu rechnen oder Rätsel zu lösen hinausgehen.

Es ist nicht leicht, menschliche Intelligenz zu definieren – und dasselbe gilt für die maschinelle Intelligenz. Wir sollten uns bewusst sein, dass wir derzeit noch mit der Klärung von Begriffen und der Definition von KI beschäftigt sind.

Für unsere eigene Forschung haben wir aus einer interdisziplinären Perspektive heraus einen Intelligenztest entworfen. Dafür haben wir verschiedene Theorien analysiert und ein Intelligenz-Framework erstellt, das darauf basiert, was aktuell in einem KI-Kontext angemessen erscheint. Unser Framework versteht sich als ein System von Fähigkeiten:

  • Ideen zu verstehen (z.B. Fragen oder Befehle)
  • in einem bestimmten Umfeld aus Erfahrungen zu lernen (z.B. in Bezug auf bereits vorhandene Informationen oder in Bezug auf einen bestimmten Kontext)
  • in der Lage zu sein, Probleme zu lösen (z.B. Fragen zu beantworten oder Aufgaben zu lösen).

Bereiche der menschlichen Intelligenz sind verbale Fähigkeiten, wie z.B. Wissen, Verstehen und der Umgang mit Zahlen. Dazu kommen räumliche und visuelle Fähigkeiten, beispielsweise das Zusammensetzen eines Puzzles oder die logische Anordnung von Bildern. Weitere Dimensionen sind inter- und intrapersonelle Kompetenzen, physiologische oder sprachliche Fähigkeiten. Aus der Vielzahl der vorhandenen Fähigkeiten haben wir mehrere Dimensionen zum Testen ausgewählt:

  • Explizites Wissen
  • Sprachliche Adäquanz
  • Gedächtnisleistungen
  • Verbale und numerische Argumentation
  • Kritisches und kreatives Denken

Entwickler: Dieses Framework ergänzt Ihr noch durch die Bloom-Taxonomie. Was hat es damit auf sich? 

Marisa Tschopp: Diese Intelligenzbereiche zielen darauf ab, spezifische Fähigkeiten zu messen, die alle – je mit variierender Gewichtung – zum Gesamtkonzept der interdisziplinären Künstlichen Intelligenz beitragen. Außerdem haben wir Blooms Taxonomie miteinbezogen, um die zugrunde liegenden Hierarchien des Denkens besser zu verstehen.

Bloom erklärt Denken anhand von Fähigkeiten niederer und höherer Ordnung. Der Bereich „Explizites Wissen“ misst beispielsweise das Sachwissen (Know-What) im Gegensatz zum Anwendungswissen (Know-How). Explizites Wissen ist vergleichbar mit Informationen oder Daten, die sich in Büchern oder Dokumenten finden. Ebenso wie lexikalisches Wissen wird dieser Bereich als Denkfähigkeit niederer Ordnung eingestuft. Auf der anderen Seite gibt es die höher eingestuften Denkfähigkeiten, die in unserem Modell als kreatives oder kritisches Denken repräsentiert werden.

Wenn wir erkennen möchten, ob eine Maschine zu Intelligenz-Leistungen höherer Ordnung fähig ist, messen wir die Fähigkeit, ein Problem zu definieren und zu analysieren sowie angemessene Gegenfragen zu formulieren, um eine bessere Lösung zu finden. Für den Bereich des kritischen Denkens untersuchen wir den Umgang mit Vereinfachungen, mehrdeutigen Fragen und Antwort-Ambiguitäten. Schließlich versuchen wir, die besten wissenschaftlichen Ansätze zusammenzuführen, um optimale Ergebnisse zu erzielen. Ein Ergebnis ist gut, wenn es richtig ist, d.h. wenn es genau die tatsächlich vorhandenen Fähigkeiten misst.

API Summit 2018
Christian Schwendtner

GraphQL – A query language for your API

mit Christian Schwendtner (PROGRAMMIERFABRIK)

Entwickler: Den akademischen IQ-Tests setzt Ihr euren A-IQ-Test entgegen. Bleiben wir zum Verständnis einmal bei den klassischen Tests – wie funktionieren diese?

Marisa Tschopp: Akademische IQ-Tests zielen darauf ab, die Intelligenz objektiv zu quantifizieren. Wissenschaftliche Standards spielen dabei eine entscheidende Rolle, beispielsweise die Zuverlässigkeit der Wiederholung, d.h. die Korrelation der Ergebnisse des gleichen Tests zu unterschiedlichen Zeitpunkten.

Kurz gesagt geht es beim IQ um eine standardisierte, numerische Messung der Intelligenz. Dabei kommen meist die Stanford-Binet- und Wechsler-Skalen zum Einsatz. Heute ist der Intelligenzquotient ein Maß der Abweichung: Wenn du einen gültigen, standardisierten Test machst, wird dein Ergebnis mit dem anderer Testpersonen verglichen. Die Verteilung der Ergebnisse folgt den Regeln einer Normalverteilung. Das bedeutet, dass die Mehrheit der Menschen einen IQ um die 100 hat und nur 5% der Testpersonen sehr hohe oder sehr niedrige Werte erzielen.

Entwickler: Und wie unterscheidet sich der A-IQ-Tests von diesen klassischen IQ-Tests?

Marisa Tschopp: Zukünftig wollen wir A-IQ-Tests mit allen Arten von digitalen Assistenten durchführen, unabhängig von deren Ökosystem. Wir arbeiten an einer Lösung zur Automatisierung des A-IQ-Testverfahrens, um es der breiten Öffentlichkeit zugänglich zu machen. Damit soll die Rolle des persönlichen Analytikers bzw. Prüfers wegfallen, der den Test bisher manuell auswerten musste, was sehr viel Zeit in Anspruch nimmt.

A-IQ Testfragen werden akustisch von einem Computer gestellt, der den Analytiker simuliert, und an einen digitalen Assistenten weitergeleitet. Die Antworten werden als Audiodaten (z.B. mp3-Dateien) gespeichert und in Text-Transkripte umgewandelt. Dies ermöglicht einen kontinuierlichen Abgleich mit vorherigen Testergebnissen. Eine Distanz-Methode wie Soundex oder Levenshtein wird dann verwendet, um kontextuelle Unterschiede zu ermitteln. Abweichungen werden an die Forschungsabteilung gemeldet, um Implikationen zu identifizieren und Veränderungen der KI-Fähigkeiten zu verfolgen.

Entwickler: Vielen Dank für dieses Interview!

Marisa Tschopp is a researcher at scip ag. Her focus is on conducting research about AI-based systems from a humanities perspective, with a wide range of questions related to psychological phenomena, governance and ethical implications. As an organizational psychologist she has experience in social and educational institutions with specific passion for digital teaching-learning trends. She published various papers and conference contributions on the topics of leadership, creativity and innovation and has been teaching in several higher education institutions in Germany and Switzerland. Marisa holds a Master’s degree in Psychology of Excellence in Business and Education from the Ludwig-Maximilians-University of Munich, Germany as well as a BA business degree, focusing on market and consumer psychology.
Geschrieben von
Carina Schipper
Carina Schipper
Carina Schipper ist seit 2017 Redakteurin beim Java Magazin, Business Technology und JAXenter. Sie hat Germanistik und Europäische Ethnologie / Volkskunde an der Julius-Maximilians-Universität Würzburg studiert.
Kommentare

Hinterlasse einen Kommentar

Hinterlasse den ersten Kommentar!

avatar
400
  Subscribe  
Benachrichtige mich zu: