Few-Shot-Learning (FSL) ist ein Pro­gram­mier­ge­rüst des ma­schi­nel­len Lernens, bei dem ein KI-Modell mithilfe weniger ge­kenn­zeich­ne­ter Beispiele lernt, zu genauen Vor­her­sa­gen zu gelangen. Dafür wird es auf all­ge­mei­ne Muster und Merkmale trainiert, die für ver­schie­de­ne Aufgaben gelten. Das Verfahren findet vor allem in Bereichen Ver­wen­dung, in denen nur begrenzte Daten verfügbar sind, wie bei der Bil­der­ken­nung und Sprach­ver­ar­bei­tung.

Was bedeutet Few-Shot-Learning?

Bei Few-Shot-Learning (FSL) handelt es sich um ein Framework aus dem Bereich Machine Learning, also um ein Grund­ge­rüst für Pro­gram­mier­code. Dieses wird verwendet, um KI-Modelle zu trai­nie­ren, mit einer kleinen Menge von Trai­nings­da­ten genaue Vor­her­sa­gen zu treffen. Während her­kömm­li­che ma­schi­nel­le Lern­ver­fah­ren oft Tausende von Da­ten­punk­ten benötigen, um zu­ver­läs­si­ge Er­geb­nis­se zu liefern, zielt Few-Shot-Learning auf die Op­ti­mie­rung des Lernens mit minimalen Da­ten­men­gen ab.

Das grund­sätz­li­che Ziel von Few-Shot-Learning besteht darin, mit nur wenigen Bei­spie­len effektiv lernen zu können. Aufgrund der Arbeit mit einer minimalen Da­ten­men­ge erweist sich FSL vor allem in Si­tua­tio­nen als wertvoll, in denen es sich schwierig gestaltet, größere Mengen ge­kenn­zeich­ne­ter Daten zu sammeln. Oftmals sind schlicht­weg die Kosten zu hoch, mitunter jedoch auch nur wenige Beispiele be­zie­hungs­wei­se Stich­pro­ben verfügbar. Das gilt etwa für seltene Krank­hei­ten und ein­zig­ar­ti­ge Hand­schrif­ten.

KI-Lösungen
Mehr Digital-Power dank Künst­li­cher In­tel­li­genz
  • In Sekunden zur Online-Präsenz
  • Mehr Wachstum mit KI-Marketing
  • Zeit und Res­sour­cen sparen

Few-Shot-Learning lässt sich als Un­ter­grup­pe des n-Shot-Learning werten. Das bedeutet, FSL stellt in der Regel ein so­ge­nann­tes N-Way-K-Shot-Ka­te­go­ri­sie­rungs­sys­tem dar. Dabei steht „N” für die Anzahl der Klassen und „K” für die Anzahl der Beispiele, die für jede Klasse be­reit­ge­stellt werden. In diesen Bereich der künst­li­chen In­tel­li­genz fallen auch das One-Shot-Learning (ein ge­kenn­zeich­ne­tes Beispiel je Klasse) und das Zero-Shot-Learning (keine ge­kenn­zeich­ne­ten Beispiele). Ersteres wird als an­spruchs­vol­le FSL-Variante gewertet, letzteres als ei­gen­stän­di­ges Lern­pro­blem.

Wie funk­tio­niert Few-Shot-Learning?

Auch wenn spezielle Al­go­rith­men und neuronale Netze zahl­rei­che FSL-Aufgaben er­folg­reich be­wäl­ti­gen, wird Few-Shot-Learning vor allem durch das spe­zi­fi­sche Lern­pro­blem definiert und weniger durch den Einsatz einer be­stimm­ten Mo­dell­struk­tur. Die Palette an FSL-Methoden fällt daher recht breit aus und reicht von der Anpassung vorab trai­nier­ter Modelle über Meta-Learning bis hin zur Nutzung ge­ne­ra­ti­ver Modelle. Nach­fol­gend stellen wir die einzelnen Ansätze genauer vor.

Trans­fer­ler­nen

Auf Trans­fer­ler­nen ba­sie­ren­de Ansätze fo­kus­sie­ren sich darauf, im Vorhinein bereits trai­nier­te Modelle an­zu­pas­sen, um neue Aufgaben zu meistern. Anstatt ein Modell von Grund auf neu zu trai­nie­ren, werden bereits erlernte Merkmale und Dar­stel­lun­gen durch Fein­jus­tie­rung auf eine neue Aufgabe über­tra­gen. Dadurch lässt sich eine Über­an­pas­sung vermeiden, die oft Folge des über­wach­ten Lernens mit wenigen ge­kenn­zeich­ne­ten Bei­spie­len ist – ins­be­son­de­re bei Modellen mit einer großen Anzahl an Pa­ra­me­tern wie Con­vo­lu­tio­nal Neural Networks.

Ein gängiges Verfahren besteht darin, ein Klas­si­fi­zie­rungs­mo­dell zu kon­fi­gu­rie­ren, indem neue Da­ten­klas­sen mit wenigen Bei­spie­len trainiert werden. Bei kom­ple­xe­ren Few-Shot-Learning-Verfahren erfolgt oftmals eine Anpassung der Netz­werk­ar­chi­tek­tur. Trans­fer­ler­nen ist besonders effektiv, wenn starke Ähn­lich­kei­ten zwischen der ur­sprüng­li­chen und der neuen Aufgabe bestehen be­zie­hungs­wei­se wenn das ur­sprüng­li­che Training in einem ähnlichen Kontext statt­ge­fun­den hat.

Ansatz auf Da­ten­ebe­ne

Few-Shot-Learning auf Da­ten­ebe­ne basiert auf der Idee, zu­sätz­li­che Trai­nings­da­ten zu ge­ne­rie­ren, um dem Problem der be­grenz­ten Stich­pro­ben­men­ge ent­ge­gen­zu­tre­ten. Das Verfahren erweist sich vor allem in Si­tua­tio­nen als praktisch, in denen aus der realen Welt entlehnte Beispiele äußerst rar sind, wie etwa bei neu ent­deck­ten Spezies. Im Falle aus­rei­chend viel­fäl­ti­ger Stich­pro­ben lassen sich Zu­satz­da­ten erzeugen, die diesen ähnlich sind – bei­spiels­wei­se über ge­ne­ra­ti­ve Modelle wie Ge­ne­ra­ti­ve Ad­ver­sa­ri­al Networks. Es besteht zudem die Mög­lich­keit, die Da­ten­er­wei­te­rung mit anderen Methoden wie Meta-Learning zu kom­bi­nie­ren.

Meta-Learning

Meta-Learning verfolgt einen breiteren und in­di­rek­te­ren Ansatz als klas­si­sches Trans­fer­ler­nen und Su­per­vi­sed Learning, denn hier wird das Modell nicht nur für Aufgaben trainiert, die dem ei­gent­li­chen Ver­wen­dungs­zweck ent­spre­chen. Dabei lernt es kurz­fris­tig, Aufgaben innerhalb eines be­stimm­ten Kontextes zu lösen und erkennt lang­fris­tig auf­ga­ben­über­grei­fen­de Muster und Struk­tu­ren. Dies gestattet es, Vor­her­sa­gen über den Ähn­lich­keits­grad von Da­ten­punk­ten be­lie­bi­ger Klassen zu treffen und diese Er­kennt­nis­se zur Lösung nach­ge­la­ger­ter Aufgaben zu verwenden.

Me­trik­ba­sier­tes Meta-Learning

Ansätze des me­trik­ba­sier­ten Meta-Learning mo­del­lie­ren keine direkten Klas­si­fi­ka­ti­ons­gren­zen, sondern kon­ti­nu­ier­li­che Werte, um eine spe­zi­fi­sche Da­ten­pro­be zu re­prä­sen­tie­ren. Schlüsse zu ziehen basiert hier auf dem Erlernen neuer Funk­tio­nen, welche die Ähn­lich­keit zwischen dem Wert und denen der einzelnen Proben sowie Klassen messen. Zu den me­trik­ba­sier­ten FSL-Al­go­rith­men zählen die folgenden:

  • Sia­me­si­sche Netzwerke verwenden kon­tras­tie­ren­des Lernen zur Lösung binärer Klas­si­fi­zie­rungs­pro­ble­me. Dazu wird geprüft, ob zwei Stich­pro­ben ein positives (Über­ein­stim­mung) oder negatives Paar (keine Über­ein­stim­mung) dar­stel­len.
  • Matching-Netzwerke sind auch dazu in der Lage, eine mehrfache Klas­si­fi­zie­rung durch­zu­füh­ren. Sie greifen auf ein ge­eig­ne­tes neu­ro­na­les Netz zurück, um für jede Stich­pro­be innerhalb der Un­ter­stüt­zungs- und Ab­fra­ge­sät­ze eine Ein­bet­tung aus­zu­ge­ben. Die Klas­si­fi­zie­rung pro­gnos­ti­zie­ren Matching-Netzwerke, indem sie Un­ter­stüt­zungs- und Ab­fra­ge­stich­pro­ben mit­ein­an­der ver­glei­chen.
  • Pro­to­ty­pi­sche Netzwerke ermitteln durch­schnitt­li­che Merkmale der für alle Klassen be­reit­ge­stell­ten Stich­pro­ben zur Be­rech­nung eines Prototyps für jede Klasse. Einzelne Da­ten­punk­te werden durch ihre relative Nähe zu den klas­sen­spe­zi­fi­schen Pro­to­ty­pen ka­te­go­ri­siert.
  • Re­la­ti­ons­netz­wer­ke (RN) verwenden ebenfalls ein Ein­bet­tungs­mo­dul, nutzen zu­sätz­lich aber auch ein Be­zie­hungs­mo­dul, das eine zum je­wei­li­gen Klas­si­fi­zie­rungs­pro­blem passende nicht­li­nea­re Di­stanz­funk­ti­on generiert.

Op­ti­mie­rungs­ba­sier­tes Meta-Learning

Op­ti­mie­rungs­ba­sier­te Methoden des Few-Shot-Learning verfolgen das Ziel, erste Modell- oder Hy­per­pa­ra­me­ter für neuronale Netze zu erstellen, die sich effizient auf relevante Auf­ga­ben­stel­lun­gen anpassen lassen. Dazu un­ter­stüt­zen sie den Op­ti­mie­rungs­pro­zess durch Meta-Op­ti­mie­rung (also andere Op­ti­mie­rungs­me­tho­den), was auch als Op­ti­mie­rung des Gra­di­en­ten­ab­stiegs be­zeich­net wird.

Als be­kann­tes­tes op­ti­mie­rungs­ba­sier­tes FSL-Verfahren gilt mo­del­lag­nos­ti­sches Meta-Learning (MAML). Dieses fo­kus­siert sich nicht auf eine bestimmte Aufgabe, sondern bietet sich für alle Modelle an, die durch Gra­di­en­ten­ab­stieg lernen. Es lassen sich aber auch so­ge­nann­te LSTM-Netzwerke (LSTM = Long Short-Term Memory) nutzen, um Meta-Learning-Modelle zu trai­nie­ren. Die Be­son­der­heit der latenten Ein­bet­tungs­op­ti­mie­rung (LEO) besteht darin, dass sie eine ge­ne­ra­ti­ve Ver­tei­lung auf­ga­ben­spe­zi­fi­scher Mo­dell­pa­ra­me­ter erlernt.

Was sind die wich­tigs­ten An­wen­dungs­ge­bie­te für Few-Shot-Learning?

Few-Shot-Learning lässt sich sehr viel­sei­tig einsetzen, denn letztlich pro­fi­tie­ren zahl­rei­che Branchen – aber auch For­schungs­be­rei­che – davon, trotz weniger Beispiele effizient zu lernen. Zu den zentralen Ein­satz­ge­bie­ten gehören:

  • Computer Vision: Viele der am häu­figs­ten ver­wen­de­ten FSL-Al­go­rith­men wurden zunächst für Bild­klas­si­fi­zie­rungs­auf­ga­ben ent­wi­ckelt. Few-Shot-Learning eignet sich aber ebenso für kom­ple­xe­re Computer-Vision-Probleme wie Ob­jekt­er­ken­nung, bei der es er­for­der­lich ist, einzelne Bild­be­stand­tei­le genau zu lo­ka­li­sie­ren.
  • Robotik: Few-Shot-Learning hat das Potenzial, Roboter dabei zu un­ter­stüt­zen, sich in neuen Um­ge­bun­gen schneller zu­recht­zu­fin­den und neue Aufgaben schneller zu be­wäl­ti­gen.
  • Sprach­ver­ar­bei­tung: FSL-Verfahren – ins­be­son­de­re Trans­fer­ler­nen – helfen dabei, mit großen Da­ten­men­gen im Vorhinein trai­nier­te Large Language Models an spe­zi­fi­sche Aufgaben an­zu­pas­sen, für die kon­tex­tu­el­les Ver­ständ­nis notwendig ist. Dazu gehören unter anderem Text­klas­si­fi­zie­run­gen und Stim­mungs­ana­ly­sen.
  • Ge­sund­heits­we­sen: Aufgrund der Fähigkeit, un­be­kann­te und seltene Da­ten­klas­sen schnell zu erfassen be­zie­hungs­wei­se zu erlernen, bietet sich Few-Shot-Learning ideal für me­di­zi­ni­sche Bereiche an, in denen sich die Be­schaf­fung ge­kenn­zeich­ne­ter Probleme als schwierig erweist. Ein klas­si­sches Beispiel dafür stellt die Diagnose seltener Krank­hei­ten dar.
  • Bankwesen: Kre­dit­in­sti­tu­te verwenden FSL-Al­go­rith­men im Zuge der Be­trugs­er­ken­nung, um anomale Muster be­zie­hungs­wei­se Ver­hal­tens­wei­sen bei Fi­nanz­trans­ak­tio­nen zu iden­ti­fi­zie­ren. Dies funk­tio­niert auch dann, wenn nur wenige Be­trugs­fäl­le als Datensatz verfügbar sind.
IONOS AI Model Hub
Erste deutsche, mul­ti­mo­da­le KI-Plattform
  • 100 % DSGVO-konform und sicher in Deutsch­land gehostet
  • Die leis­tungs­stärks­ten KI-Modelle auf einer Plattform
  • Kein Vendor Lock-in durch Open Source

Prak­ti­sche Her­aus­for­de­run­gen bei der Im­ple­men­tie­rung von Few-Shot-Learning

Die Im­ple­men­tie­rung von Few-Shot-Learning bringt einige prak­ti­sche Her­aus­for­de­run­gen mit sich: Eine der größten Hürden ist das Risiko des Over­fit­tings (dt. Über­an­pas­sung). Modelle mit wenigen Trai­nings­bei­spie­len neigen dazu, die vor­han­de­nen Daten zu stark zu lernen und dadurch schlecht zu ge­ne­ra­li­sie­ren. Zudem setzt Few-Shot-Learning voraus, dass die Modelle sehr sorg­fäl­tig angepasst und ab­ge­stimmt werden, damit man eine gute Leistung erzielt.

Auch die Qualität der ver­füg­ba­ren Daten ist ein ent­schei­den­der Er­folgs­fak­tor: Wenn die wenigen Beispiele nicht re­prä­sen­ta­tiv sind oder Fehler enthalten, kann dies die Leistung des Modells stark be­ein­träch­ti­gen. Darüber hinaus ist die Auswahl ge­eig­ne­ter Merkmale und Methoden zur Er­wei­te­rung des Da­ten­sat­zes aufgrund der be­grenz­ten Anzahl von Daten her­aus­for­dernd. Auch die Re­chen­res­sour­cen und die benötigte Zeit für das Training op­ti­mier­ter Few-Shot-Learning-Modelle sind nicht zu un­ter­schät­zen.

Zum Hauptmenü