Ball, Katze, Apfel: KI lernt aus der Ich-Perspektive eines Kleinkindes

Forscher trainierten ein KI-Modell ausschließlich mit den Erfahrungen eines Kleinkindes. Es soll helfen, den frühkindlichen Spracherwerb besser zu verstehen.

4

Um Daten zu sammeln, zeichneten Stirnkameras kurze Abschnitte des Alltags von Kleinkindern mit Bild und Ton auf.

(Bild: Brenden Lake)

02.02.2024, 07:00 Uhr

Lesezeit: 4 Min.

MIT Technology Review

Von

Eike Kühl

Künstliche Intelligenz ist immer nur so schlau wie ihre Trainingsdaten. Gefüttert mit Datensätzen aus Milliarden von Textdokumenten und Bildern, lernt sie in einem nicht selten wochenlangen Trainingsprozess die Zusammenhänge zwischen Begriffen und visuellen Repräsentationen. Doch was ist, wenn einer KI nicht all diese Daten zur Verfügung stünden? Was ist, wenn sie lernen müsste wie ein Kleinkind, das sich nach und nach die Welt erschließt? Das wollten Forscherinnen und Forscher der New York University herausfinden. Ihre Studie ist nun im Fachmagazin "Science" erschienen.

Im Alter von 1,5 bis zwei Jahren können Kinder durchschnittlich bis zu 300 Wörter verstehen. Um herauszufinden, wie genau der Lernprozess abläuft, hat das Team um den Kognitionswissenschaftler Wai Keen Vong ein einzelnes Kind über knapp anderthalb Jahre immer wieder für einen kurzen Zeitraum mit einer kleinen Stirnkamera ausgestattet und die Ich-Perspektive aufgenommen. Dadurch erhielten die Forschenden einen einzigartigen Blick darauf, wie ein Kind mit seinen Augen und den unterstützenden Lautäußerungen seiner Umwelt, etwa seinen Eltern, lernt, was ein Ball, eine Katze oder ein Eimer ist.

Insgesamt kamen 61 Stunden Videomaterial zusammen, das die Forschenden in 600.000 Videoframes und 37.500 korrelierende Lautäußerungen zerlegten. Mit diesen Daten trainierten sie anschließend ein "relativ generisches neuronales Netz" mit dem Namen CVCL: Child’s View for Contrastive Learning. Sie wollten herausfinden, ob ein neuronales Netz, also eine KI, in der Lage ist, selbstständig und ausschließlich mithilfe der audiovisuellen Informationen des Kleinkindes zu lernen, wie ein Ball oder eine Katze aussieht.

Lernen mit "minimalen Zutaten"

Obwohl die Aufnahmen insgesamt nur weniger als ein Prozent der Wachphasen des Kindes während des Untersuchungszeitraums ausmachten, konnte das CVCL-Modell wortbezogene Zuordnungen lernen. Wurde das Modell mit den korrelierenden Bild-Ton-Paaren trainiert, lag die Trefferquote in einem anschließenden Test, in dem das Modell aus vier Bildern das gewünschte Zielwort finden konnte, bei 61 Prozent. Ein KI-Modell von OpenAI namens CLIP, das ebenfalls Bilder und Text verknüpft, aber im Gegensatz zu CVCL mit Millionen von Bild-Text-Paaren trainiert wurde, kam im gleichen Test auf 66 Prozent, gerade einmal fünf Prozent mehr.

Wo ist der Ball? Ein Test für Kleinkinder und KI-Modelle.

(Bild: Wai Keen Vong)

Wenn die Bilder nicht mit den korrelierenden, sondern mit zufälligen Äußerungen verknüpft wurden (das Kind sieht einen Ball, die verknüpfte Äußerung aber ist "Katze"), sank die Trefferquote von CVCL auf 26 Prozent. Diese Erkenntnis zeige "die entscheidende Rolle der konsistenten visuellen und verbalen Koexistenz für das Lernen", heißt es in der Studie. Anders gesagt: Um richtig zu lernen, müssen sowohl Kleinkinder als auch KI-Modelle mit möglichst exakten Informationen versorgt werden.

Erforschung des frühkindlichen Spracherwerbs

Das Modell war auch in der Lage, sein erlerntes Wissen auf Bilder anzuwenden, die nicht in den Trainingsdaten enthalten waren. In diesem Fall lag die Trefferquote des Modells durchschnittlich bei 35 Prozent. Für die Forschenden ist das ein Beweis, dass ein KI-Modell auch mit sehr begrenzten Daten eines einzelnen Kindes effektiv Wörter und die damit verknüpften Objekte in der Welt lernen kann und nicht zwingend mit riesigen Datensätzen gefüttert werden muss.

Gleichzeitig liefert die Studie von Wai Keen Vong und seinem Team aber auch einen Beitrag zur Erforschung des frühkindlichen Spracherwerbs: "Die Erfolge von CVCL haben Auswirkungen auf die Theorien des Wortlernens", schreiben sie. So werde häufig angenommen, dass klassisches Wort-Bild-Lernen kognitiv zu schwer für Kleinkinder sei, weshalb andere Mechanismen zum Einsatz kommen. Die Studie aber zeige, trotz einiger Schwächen, dass "Repräsentationslernen und assoziative, situationsübergreifende Mechanismen ausreichen, um wortbezogene Zuordnungen aus den Ich-Erfahrungen eines Kindes zu gewinnen".