Was ist unüberwachtes Lernen?

Michael Chen | Content Strategist | 17. Juli 2024

Unüberwachtes Lernen ist eine Technik des maschinellen Lernens, bei der unmarkierte Datensätze für das Training verwendet werden. Beim unüberwachten Lernen hat ein Modell keine festgelegten Richtlinien für gewünschte Ergebnisse oder Beziehungen. Stattdessen besteht das Ziel darin, die Daten zu untersuchen und dabei Muster, Trends und Zusammenhänge zu entdecken.

Unüberwachtes Lernen ist die optimale Wahl für ein maschinelles Lernprojekt mit einer großen Menge an unbeschrifteten, oft unterschiedlichen Daten, bei denen Muster und Beziehungen noch nicht bekannt sind. Der Algorithmus fördert oft Erkenntnisse zutage, die sonst vielleicht nicht gefunden worden wären. So kann beispielsweise die Untersuchung eines Datensatzes mit Kaufhistorien Gruppen von Kunden aufdecken, die auf ähnliche, bisher unbekannte Weise einkaufen. Entscheidungsträger könnten diese Informationen nutzen, um neue Verkaufsprogramme zu entwickeln.

Aufgrund seines explorativen Charakters eignet sich das unüberwachte Lernen am besten für spezifische Szenarien. Zu diesen Vorteilen gehört Folgendes:

Rohdatenanalyse: Unüberwachte Lernalgorithmen können sehr große, unstrukturierte Datenmengen, wie z. B. Text, untersuchen, um Muster und Trends zu finden. Ein Beispiel hierfür sind historische E-Mail-Anfragen von Kunden, bei denen ein Algorithmus für unüberwachtes Lernen einen unstrukturierten Datensatz von Kunden-E-Mails untersuchen kann. Obwohl es keine Kennzeichnung gibt, die die Qualität oder den Zweck dieser Interaktionen definiert, kann der Algorithmus Muster erkennen, die Verbesserungsmöglichkeiten aufzeigen könnten, wie z. B. eine hohe Anzahl von Anfragen zu demselben technischen Problem.

Gruppierungen: Bei der Datensegmentierung kann das unüberwachte Lernen die Merkmale von Datenpunkten untersuchen, um Gemeinsamkeiten und Muster zu ermitteln und Gruppen zu erstellen. Ein Beispiel hierfür ist ein Projekt, bei dem ein Large Language Model (LLM) darauf trainiert wurde, auf Kundenanfragen zu antworten. Anhand von unstrukturiertem Kundenfeedback aus Chatbots und Nachrichten kann der Algorithmus lernen, Kategorien anhand des Textes zu identifizieren, z. B. Rechnungsfragen, positives oder negatives Feedback, technische Fragen oder Anfragen zur Beschäftigung. Diese Kategorisierung hilft dem Modell dann, angemessene Reaktionen in Bezug auf Sprache und Tonfall zu identifizieren.

Beziehungen: Ähnlich wie bei Gruppierungen kann beim unüberwachten Lernen die Gewichtung (die Bedeutung von Merkmalen oder Eingaben, die Datenpunkte überlappen), die Distanz (das Maß für die allgemeine Ähnlichkeit zwischen Datenpunkten) und die Qualität von Zusammenhängen untersucht werden, um festzustellen, wie Datenpunkte miteinander verbunden sind. Stellen Sie sich einen Algorithmus zur Betrugserkennung vor, der über die binäre Kennzeichnung fragwürdiger Datensätze hinausgeht, indem er verschiedene verwandte Datenpunkte untersucht, wie z. B. ähnliche Einkäufe, die von zuvor gekennzeichneten Konten getätigt wurden, oder andere Einkäufe des betreffenden Kontos. Die Beziehungsanalyse liefert Kontextinformationen, anhand derer Institutionen feststellen können, ob es sich bei dem gemeldeten Datensatz um einen Einzelfall, einen Teil eines größeren Verhaltensmusters oder um Betrug handelt.

In jedem dieser Fälle werden durch unüberwachtes Lernen Muster und Merkmale in den Daten identifiziert. Dieser Prozess kann zu einem besseren Verständnis dessen führen, was gelernt werden kann, um die Entscheidungsfindung voranzutreiben.

Was ist unüberwachtes Lernen?

Unüberwachtes Lernen ist eine Art des maschinellen Lernens, bei dem der Algorithmus anhand von nicht gekennzeichneten Daten trainiert wird. Ein Projekt zum unüberwachten Lernen beginnt mit der Festlegung des zu lösenden Problems oder eines anderen Ziels. Mit diesen Informationen können die Projektleiter die Art des Algorithmus für das Projekt auswählen. Diese Auswahl basiert in der Regel auf dem gewünschten Ergebnis: Clustering, Beziehungen oder Dimensionalität – der Prozess der Identifizierung und Definition von Merkmalen oder Variablen innerhalb eines Datensatzes. Ziele sind auch für die Suche nach geeigneten Trainingsdatensätzen ausschlaggebend, da die Ziele und Algorithmenarten des Projekts die Art der benötigten Daten bestimmen.

Sobald diese Teile festgelegt sind, wird der Algorithmus trainiert, wobei er durch Versuch und Irrtum etablierte Input-/Output-Beziehungen nachahmt, bis ein akzeptabler Leistungsstandard erreicht ist. Datenexperten analysieren die Ergebnisse, um zu sehen, ob das Modell die gewünschten Erkenntnisse aufgedeckt hat, und verfeinern es durch Anpassung der Parameter, um die Leistung zu verbessern.

Die Entscheidung, unüberwachtes Lernen einzusetzen, ist mit Vorbehalten verbunden. Da das unüberwachte Lernen im Vergleich zum überwachten oder halbüberwachten Lernen eine komplexere Trainingsmethode ist, erfordert es aufgrund des Mangels an gekennzeichneten Daten, die bei der Validierung der Ergebnisse helfen würden, in der Regel die Aufsicht durch Experten, die die Leistung des Modells überprüfen können. Unüberwachtes Lernen ist zwar ein automatischer Prozess, was die Datenbeschriftung und -vorbereitung betrifft, aber es bedarf einer genauen Überwachung, um auf dem richtigen Weg zu bleiben. Beispielsweise müssen bei einem Modell generativer KI, das mit der Erstellung realistischer Illustrationen beauftragt ist, Fachexperten die Ergebnisse genau überprüfen, um sicherzustellen, dass die Muster und Beziehungen, die der Bilderzeugung zugrunde liegen, in Bereichen wie Beleuchtung, Anatomie und strukturelle Machbarkeit korrekt sind. Sonst könnten Sie am Ende zusätzliche Finger oder Zehen haben.

Die häufigsten Arten des unüberwachten Lernens sind:

Clustering: Wenn der Algorithmus Gruppen ähnlicher Daten und die Gemeinsamkeiten zwischen ihnen sucht. Beispiele aus der Praxis sind die Kundensegmentierung und die automatische Sortierung von E-Mail-Filtern.

Assoziationsregel: Wenn der Algorithmus Beziehungen zwischen Datenpunkten untersucht, ob auf Oberflächenebene oder in mehreren Schichten verborgen. Beispiele aus der Praxis sind das Kaufverhalten von Kunden und Symptombeziehungen für die medizinische Diagnose.

Reduzierung der Dimensionalität: Wenn das Modell einen Datensatz untersucht, um die Anzahl der verwendeten irrelevanten Merkmale (Dimensionen) zu reduzieren. Beispiele aus der Praxis sind Algorithmen zur Bilderkennung und Datenkompression.

Unüberwachtes maschinelles Lernen ermöglicht es Unternehmen, Muster und Erkenntnisse in großen, vielfältigen, unstrukturierten Datensätzen zu entdecken, denen vordefinierte Kategorien oder Beschriftungen fehlen, ohne dass ein menschliches Eingreifen erforderlich ist. Es ist so, als würde man Tausende von Sandkörnern nach Goldkörnern durchsieben und so möglicherweise neue Möglichkeiten für Wachstum und Innovation erschließen.

Welcher KI-Anwendungsfall eignet sich am besten für unüberwachtes Lernen? Das und mehr erfahren Sie im E-Book

Häufig gestellte Fragen zum unüberwachten Lernen

Welche zwei Arten des unüberwachten Lernens gibt es?

Unüberwachte Lerntechniken werden im Allgemeinen in zwei verschiedene Typen unterteilt. Unter Clustering versteht man den Prozess der Gruppierung von Daten auf der Grundlage von Merkmalen, wobei Algorithmen Analysemethoden wie hierarchisches Clustering – bei dem Cluster in hierarchischen Bäumen erstellt werden, z. B. die Kaufkraft von Kunden auf der Grundlage der Postleitzahl – und probabilistisches Clustering verwenden, bei dem Wahrscheinlichkeitswerte verwendet werden, die die Zugehörigkeitswahrscheinlichkeit berechnen, z. B. die Risikomerkmale eines Kunden bei der Kreditanalyse. Beim Lernen nach der Assoziationsregel werden Beziehungen zwischen Datenpunkten identifiziert, um Muster und Trends zu ermitteln. Dabei werden Algorithmen eingesetzt, die Methoden wie die quantitative Assoziation – Beziehungen, die auf der Grundlage numerischer oder quantitativer Attribute zwischen Datenpunkten verknüpft werden, z. B. Kauftrends nach Alter – und die multirelationale Assoziation verwenden, d. h. Beziehungen, die zwischen mehreren möglichen Variablen zwischen Datenpunkten verknüpft werden, z. B. die Leistung eines Profisportlers basierend auf Alter, Qualität der Teamkollegen, Gehalt und College-Programm.

Wie sieht ein gutes Beispiel für unüberwachtes Lernen aus?

Ein gutes Beispiel für unbeaufsichtigtes Lernen ist ein KI-LLM für die Gesundheitsbranche. In diesem Fall trainiert das LLM auf unstrukturierten Datensätzen, wie z. B. medizinischen Lehrbüchern, Patientenakten und Studiendaten. Durch wiederholtes Training lernt das LLM Zusammenhänge und Muster, mit dem letztendlichen Ziel, dass das LLM Anfragen mit hoher Genauigkeit in angemessener medizinischer Fachsprache beantwortet.

Wodurch unterscheiden sich überwachtes und unüberwachtes Lernen?

Beim überwachten Lernen werden gekennzeichnete Datensätze für das Algorithmus-Training verwendet. Mit klaren Input- und Output-Kennzeichnungen baut das überwachte Lernen auf einer Grundlage etablierter Definitionen auf. Ein Algorithmus zur Identifizierung von Katzen wird beispielsweise anhand von Fotos trainiert, die eindeutig als „mit Katzen“ oder „ohne Katzen“ gekennzeichnet sind. Beim unüberwachten Lernen werden beim Training nicht gekennzeichnete Datensätze verwendet. Ohne Kennzeichnungen untersucht der Algorithmus die Datensätze, um Muster und Trends zu erkennen. Um beim Beispiel der Identifizierung von Katzen zu bleiben: Das System könnte mit großen, unbeschrifteten Datensätzen aus allgemeinen Texten und Bildern im Stil einer Enzyklopädie vortrainiert werden, um visuelle Muster und Konzepte im Zusammenhang mit Katzen zu erlernen. Anschließend könnte es durch Training mit kleineren Bilddatensätzen für bestimmte Elemente wie Katzengesichter, -pfoten und -schwänze verfeinert werden.

Was ist ein Beispiel für unüberwachtes Lernen von Merkmalen?

Beim maschinellen Lernen sind Merkmale Variablen, die in einem Datensatz gefunden werden. Ein Beispiel für ein Merkmal eines Wetteralgorithmus ist der Tag des Jahres. Im speziellen Fall des unüberwachten Lernens werden Merkmale identifiziert, während der Algorithmus die Daten untersucht. Um auf das Wetterbeispiel zurückzukommen: Das Modell kann durch Erkundung feststellen, dass das Datum ein wichtiger Faktor für Vorhersagen ist, und somit bestimmen, dass dies ein erforderliches Eingabemerkmal für das Modell ist.