Neue, offene Modellfamilie aus Frankreich: Mistral 3 ist da

vor 2 Tage 5

Mistral 3 ist eine multimodale KI-Modellfamilie mit offenen Gewichten. Sie besteht aus drei kleinen (14B, 8B, 3B) und einem großen Modell mit 675 Milliarden (B) Parametern. Ein spezielles, großes Reasoning-Modell soll in Kürze folgen. Da es sich um ein Mixture-of-Experts-Modell handelt, teilen sich die insgesamt 675 Milliarden Parameter auf in jeweils 41B aktive Parameter. Expertenmodelle zeichnen sich dadurch aus, dass immer nur ein Teil von ihnen – der jeweilige Experte auf dem Gebiet – Fragen beantwortet. Das macht sie schneller und kostengünstiger. Trainiert wurde das große Modell auf rund 3000 Nvidia-H200-GPUs.

Alle vier Modelle sind unter der Apache 2.0 Lizenz veröffentlicht. Mistral schreibt dazu im Blogbeitrag: „Die Veröffentlichung unserer Modelle in verschiedenen komprimierten Formaten als Open Source stärkt die Entwickler-Community und macht KI durch verteilte Intelligenz für alle zugänglich.“ Konkret heißt das etwa, mit einem dafür optimierten Checkpoint kann man Mistral Large 3 auf Blackwell NVL72-Systemen und auf einem einzelnen 8×A100- oder 8×H100-Knoten mit vLLM ausführen. Die Ministral-Versionen mit 3B, 8B und 14B sollen für den lokalen und Edge-Gebrauch optimiert sein, sie sind multimodal und multilingual. Es gibt jeweils eine Reasoning-Variante. Mistral spricht auch vom besten Preis-Leistungs-Verhältnis.

In verschiedenen Benchmarks hat Mistral Large 3 besser abgeschnitten als etwa Deepseek V3.1. In der LM Arena, in der Modelle gegeneinander antreten und von Menschen bewertet werden, muss sich das neue Mistral-Modell allerdings dem ebenfalls neu erschienenen Deepseek V3.2 geschlagen geben – mit 1418 Punkten zu 1423 Punkten.

Mistral hat seinen Sitz in Paris. Das Unternehmen entwickelt eigene Large-Language-Modelle. Die Gründer von Mistral hatten zuvor bei Googles DeepMind und Meta gearbeitet. Mistral wird als europäische Hoffnung gewertet, um es mit Big Tech aus den USA aufnehmen zu können. Allerdings gibt es auch andere Initiativen, etwa das Schweizer Sprachmodell Apertus, das unter anderem von Forschern der ETH Zürich entwickelt wurde.

(emw)

Gesamten Artikel lesen