Supervised Learning: ein Lehrplan für Maschinen

Machine Learning, Deep Learning, neuronale Netze und künstliche Intelligenzen werden immer ausgefeilter. Doch wie schafft man es eigentlich, dass Computer selbstständig denken können und Probleme von sich aus lösen? Auch Algorithmen müssen dies erst lernen. Wie in der Schule auch kommen beim Machine Learning verschiedene Möglichkeiten zum Einsatz. Beim Reinforcement Learning werden Impulse gesetzt. Unsupervised Learning funktioniert komplett ohne Prüfung von Entwicklern. Aber was geschieht beim Supervised Learning?

Was ist Supervised Learning?

Beim Machine Learning geht es darum, dass Computer Muster erkennen und Regeln erlernen. Statt nur auf die Eingabe eines menschlichen Nutzers reagieren zu können, sollen Maschinen so in der Lage sein, selbstständig Entscheidungen zu treffen – basierend auf den Regeln, die sie gelernt haben. So können Algorithmen beispielsweise lernen, Spam korrekt zu erkennen, oder einen Bildinhalt verstehen. Für das Anlernen verwenden Entwickler und Wissenschaftler verschiedene Methoden. Wahrscheinlich am häufigsten im Einsatz ist Supervised Learning, also das überwachte Lernen.

Beim Supervised Machine Learning stellen Entwickler den Algorithmen ein vorbereitetes Set an Daten als Trainingsquelle zur Verfügung. Das Ergebnis ist somit bereits bekannt. Die Aufgabe der Algorithmen liegt nur darin, das Muster zu erkennen: Warum gehört diese Information in Kategorie A und nicht in Kategorie B?

Überwachtes Lernen wird also für solche Algorithmen eingesetzt, die natürliche Daten (Fotos, Handschriften, Sprache usw.) kategorisieren sollen. Zudem sind auch sogenannte Regressionsprobleme ein typisches Anwendungsfeld für Supervised Learning. Hierbei sollen die Algorithmen Vorhersagen treffen können, beispielsweise über Preisentwicklungen oder Kundenwachstum.

Eine Mischform stellt Semi-supervised Learning dar. Bei dieser Lernmethode wird nur ein Teil des Datensatzes mit Labeln versehen. Der Rest bleibt unkategorisiert und soll von den Algorithmen selbstständig zugeordnet werden. Ein Beispiel hierfür findet man bei der Gesichtserkennung von Facebook. Es reicht aus, ein paar Bilder mit den Namen von Freunden zu versehen. Die restlichen findet der Algorithmus dann von allein.

Überwachtes Lernen anhand eines Beispiels erklärt

Nehmen wir beispielhaft an, man würde Algorithmen trainieren wollen, Katzenbilder von Hundebildern zu unterscheiden. Die Entwickler würden dafür dann ein sehr großes Datenset vorbereiten. Dieses enthielte Bilder, die alle bereits ein Tag besitzen, also einer Kategorie angehören. Man könnte sich hierbei drei verschiede Gruppen vorstellen: Hund, Katze, Sonstiges. Wichtig ist, dass die Datensammlung auch eine möglichst große Varianz aufweist. Einfach gesprochen: Hat man nur Bilder von schwarzen Katzen in seinem Trainingsset, wird der Algorithmus davon ausgehen, dass alle Katzen ein schwarzes Fell besitzen. Das Datenset sollte die tatsächliche Bandbreite an Variationen also möglichst gut abbilden.

Beim Training erhält der Algorithmus zunächst die Inhalte (und zwar unsortiert), fällt selbstständig eine Entscheidung und vergleicht diese dann mit dem von den Entwicklern vorgegebenen Output. Das System überprüft sein eigenes Ergebnis mit dem korrekten – und zieht daraus Schlüsse, die sich auf die nächsten Beurteilungen während des Trainings auswirken. Das Training läuft so lange, bis die Maschine mit seinen Beurteilungen nah genug an die korrekten Ergebnisse herangekommen ist.

Zur Anzeige dieses Videos sind Cookies von Drittanbietern erforderlich. Ihre Cookie-Einstellungen können Sie hier aufrufen und ändern.

Vor- und Nachteile von Supervised Machine Learning

Für welchen Lehrmethode man sich entscheiden sollte, hängt stark von den späteren Aufgaben der Algorithmen ab. Für Kategorisierungs- und Regressionsprobleme ist Supervised Learning den anderen Methoden vorzuziehen. Generell kann man mit dem überwachten Lernen Algorithmen so trainieren, dass diese perfekt für das Einsatzgebiet vorbereitet sind. Da man die komplette Kontrolle über das Trainingsmaterial behält, braucht man nur genügend Input und Zeit, um die Algorithmen richtig einzustellen. Die Betonung liegt hier ganz klar auf Input: Die Zusammenstellung muss großflächig angelegt sein. Da beim überwachten Lernen jedes Element auch mit einem Etikett versehen sein muss, ist hier ein erheblicher Aufwand für Entwickler und Wissenschaftler gegeben.

Der Aufwand ist zwar relativ hoch, dafür kann man aber auch relativ einfach nachvollziehen, was vorgeht. Während beim Unsupervised Learning vieles unklar bleibt, weil die Algorithmen ohne wirkliche Anweisungen für sich arbeiten, ist beim Supervised Learning genau festgelegt, was die Maschine tut. Aber auch das kann wieder ein Nachteil sein: Die angelernten Algorithmen arbeiten dann auch innerhalb der Restriktionen, die man ihnen auferlegt hat. Kreative Lösungsansätze kann man so nicht erwarten.

Fazit

Supervised Learning ist deswegen eine so populäre Variante beim Anlernen von Algorithmen, weil Entwickler und Wissenschaftler die komplette Kontrolle behalten. Während bei anderen Lehrvarianten Ergebnisse oft unklar bleiben, ist beim Supervised Machine Learning am Anfang ganz klar, was am Ende des Lernprozesses stehen soll. Dafür ist der Aufwand für die Lehrenden aber entsprechend hoch.