heise+ | Kleine Sprachmodelle auf dem Vormarsch

vor 2 Tage 1
  1. Kleine Sprachmodelle auf dem Vormarsch
    • Microsofts Phi-Modelle
  2. Bessere Benchmarkergebnisse bei Phi-2
  3. Einsatzmöglichkeiten von Phi-3 und Phi-4
  4. Kritik an SLMs und Microsoft Phi
  5. Ausblick und Fazit
Artikel in iX 4/2025 lesen

Small Language Models (SLMs) gewinnen in der KI-Landschaft zunehmend an Bedeutung, da sie weniger Rechenressourcen benötigen und kostengünstiger im Betrieb sind als große Sprachmodelle (Large Language Models, LLMs). Ihre gezielte Ausrichtung auf spezifische Aufgaben führt oft zu präziseren Ergebnissen und weniger Verzerrungen. Zudem lassen sich SLMs leichter auf spezifische Branchen zuschneiden. Durch lokale Daten und begrenzte Einsatzszenarien reduzieren sie potenzielle Sicherheitsrisiken und ermöglichen eine bessere Kontrolle über Trainingsdaten. Microsoft mischt hier mit der Modellreihe Phi seit Juni 2023 mit. Mittlerweile ist Version 4 erschienen.

SLMs sind für spezialisierte Anforderungen, den Betrieb in lokalen Umgebungen und Offlineszenarien geeignet. Diese Anwendungsfälle sind wichtig, da sie KI in Bereichen ermöglichen, in denen große Modelle wegen verschiedener Einschränkungen nicht zur Verfügung stehen. Der Artikel wirft einen Blick auf die Phi-Modelle, stellt besondere Trainingsmethoden vor und zeigt, wie sich ein Phi-Modell schnell und unkompliziert lokal nutzen lässt.

  • Auf spezifische Aufgaben trainierte Small Language Models (SLMs) gewinnen zunehmend an Bedeutung gegenüber Large Language Models (LLMs): Sie sind kostengünstiger und brauchen weniger Rechenressourcen.
  • Die Phi-Modelle von Microsoft eignen sich für Offlineszenarien und lokale Nutzung, beispielsweise auf mobilen Endgeräten.
  • Durch die Integration in die Azure-AI-Plattform sind die Phi-Modelle als API oder Service nutzbar und lassen sich für eigene Workflows anpassen.
  • Um SLMs effizient auf Endgeräten betreiben zu können, kommen verschiedene Komprimierungstechniken zum Einsatz.

Vergleicht man SLMs und LLMs anhand ihrer Modellarchitektur und -größe, weisen SLMs eine geringere Parameteranzahl auf und basieren häufig auf der Transformer-Architektur. Leistungsmetriken wie Massive Multitask Language Understanding (MMLU), Perplexity sowie aufgabenspezifische Metriken wie BLEU (Bilingual Evaluation Understudy) und ROUGE (Recall-oriented Understudy for Gisting Evaluation) sind zentrale Vergleichsgrößen. SLMs sind bei der Inferenz in der Regel schneller als LLMs. Die Tabelle "Kriterien für SLMs und LLMs" stellt Kriterien gegenüber, deren Ausprägungen sich ständig ändern. Mittlerweile gelten Modelle mit weniger als 17 Milliarden Parametern als klein, wobei sich diese Grenzen mit der Entwicklung der LLMs verschieben.

Das war die Leseprobe unseres heise-Plus-Artikels "Kleine Sprachmodelle auf dem Vormarsch". Mit einem heise-Plus-Abo können sie den ganzen Artikel lesen und anhören.

Gesamten Artikel lesen