- Strukturierte Daten für LLMs mit Wissensgraphen
- Manuelle Integration von Graphen
- Die bessere Alternative – Graphdatenbanken
- zweites Beispiel, Vorteile und Nachteile von Wissensgraphen
- Erweiterungsmöglichkeiten
- Fazit: Weitere Herausforderungen stehen an
Mittlerweile existiert eine unüberschaubare Menge von Large Language Models (LMMs) verschiedener Größe und Architektur, die entweder über Allgemeinwissen oder über spezielles Fachdomänenwissen verfügen. Um diese Modelle an eigene Anforderungen anzupassen und um gleichzeitig Halluzinationen zu vermeiden, gibt es verschiedene Methoden.
Ein Ansatz ist das Feintuning, das das nachträgliche Transfer-Training und damit das Erweitern von LLMs um domänenspezifisches Wissen erlaubt. Das geschieht durch Einfrieren zahlreicher Gewichte, wodurch das Transfer-Learning nur eine kleine Teilmenge der Gewichte – bei Nutzung von LoRA (Low Rank Adaptation) unter 0,1 Prozent – berücksichtigen und adaptieren muss. Das kann trotz Optimierungskonzepten wie LoRA oder QLoRA (Quantized LoRA) immer noch zeitaufwendig sein und hängt unter anderem von der Batch-Größe und der Lernrate ab. Wenn der Hersteller des LLM weder Open Source noch Open Weights zur Verfügung stellt, ist meistens kein Feintuning möglich.
- Wissensgraphen enthalten im Gegensatz zu reinem Text strukturiertes Wissen.
- Kombiniert man Wissensgraphen mit den Sprachmöglichkeiten von LLMs, reduzieren sie dank ihrer strukturierten Form Halluzinationen der KI-Modelle.
- Für ihre optimale Verwaltung empfehlen sich Graphdatenbanken.
- Wissensgraphen lassen sich mit anderen Anreicherungsmethoden wie RAG, Feintuning oder Reinforcement Learning kombinieren.
Im Gegensatz zu Metas Llama bieten die Modelle von OpenAI und Anthropic keine solche Möglichkeit, mit Ausnahme der Haiku-Serie. OpenAI erlaubt Entwicklern jedoch, die eigenen Modelle per Reinforcement Learning zu optimieren, konkret mit RLFT (Reinforcement Learning Fine-Tuning). Auf Deutsch als Verstärkungslernfeinabstimmung bezeichnet, ist RLFT eine Methode, um LLMs mit einem belohnungsbasierten Prozess zu optimieren. Ziel ist es, die Modelle an spezifische Aufgaben, Stile oder Domänen anzupassen, ohne dass dabei große Mengen an gelabelten Daten oder hohe Rechenressourcen benötigt werden.
Das war die Leseprobe unseres heise-Plus-Artikels "Strukturierte Daten für LLMs mit Wissensgraphen". Mit einem heise-Plus-Abo können sie den ganzen Artikel lesen und anhören.