Warum MCP die KI-Nutzung auf den Kopf stellt

vor 2 Tage 2

Wer ChatGPT und Co nutzt, nutzt meist copy und paste: Schließlich konnten KI-Tools bislang meist nicht selbstständig mit der Außenwelt kommunizieren. Mit dem offenen Standard MCP (Model Context Protocol) ändert sich das nun. c't 3003 hat die recht revolutionäre Technik getestet.

Transkript des Videos

(Hinweis: Dieses Transkript ist für Menschen gedacht, die das Video oben nicht schauen können oder wollen. Der Text gibt nicht alle Informationen der Bildspur wieder.)

Guckt mal hier, das bin ich, wie ich gerade eine Gänsehaut bekomme. Ja, ich weiß, ich bin ziemlich oft beeindruckt von irgendwelchen KI-Fortschritten, aber das hier, das fühlt sich wirklich an wie etwas Großes. Denn jetzt können KIs, also große Sprachmodelle, also LLMs, eure Software bedienen. Und zwar nicht so fußlahm, bisschen hier klicken, bisschen da klicken. Nee, das geht zack, zack.

Guck mal, ich sag einfach, mach mir hier in Blender mal eine Piratentorte mit Comic-Augen und Augenklappe. Ja, und dann macht er das. Oder hier machen wir mal eine 3D-Animation mit so einer ulkigen Kugelfigur. Zack, 4K-Auflösung: sieht eigentlich ganz cool aus, finde ich. Und dabei muss man bedenken, dass ich Blender überhaupt nicht beherrsche, also wirklich gar nicht. Ich weiß nicht mal, wie man da ein Objekt verschiebt, also wirklich nix. Aber das muss ich auch gar nicht wissen, denn mein Sprachmodell bedient das ja für mich.

Oder hier programmiert mir die KI ein Snake-Spiel und kommt von alleine drauf, dass es die Grafiken ja in Blender rendern kann. Und macht das dann einfach und baut das ins Spiel ein. Und dann hier noch eine kleine 3003-Animation, wo ich einfach nur gesagt habe, hier mach mal irgendwie cool, dass da so die Zahl 3003 durch die Gegend fliegt.

Und natürlich geht das nicht nur mit Blender, sondern mit tausenden Programmen, zum Beispiel mit GitHub, Slack, Google Maps und eurem ganzen Dateisystem. Ihr könnt also sagen, hier in dem Ordner liegen ein paar Bilder, baut die mal zum Video zusammen. Zack. Und wie das gemacht wird, das müsst ihr dem LLM nicht sagen, das denkt sich das selbst aus. Macht das dann einfach, ohne dass ihr da eingreifen müsst. Merkt ihr, was das für ein Potenzial hat?

In diesem Video zeige ich euch, was so alles geht mit dieser neuen Technik namens MCP, ob da noch irgendwo ein Haken ist und warum ich glaube, dass das wieder mal die Welt verändern wird. Und ich hoffe, positiv. Bleibt dran.

Liebe Hackerinnen, liebe Internetsurfer, bitte gleich keinen Herzinfarkt kriegen. Aber unser Intro ist neu und vor allem unser Logo. Ich muss ehrlich sagen, nach 273 Videos hier konnte ich diesen pinken Retro-Farbverlauf wirklich nicht mehr sehen. Guckt mal, so sieht das in Zukunft aus.

Das Intro ist natürlich nicht KI-generiert, sondern schön manuell in der Unreal Engine gebaut. Ja, und wie findet ihr das Logo? Wir finden das sehr gut. Gemacht haben das übrigens Marcel Wilkens und Sebastian Zimmerhackl. Die beiden Designer haben wir in der Beschreibung auch verlinkt.

Und wir hatten das Logo schon in so ein paar Videos sneaky als Desktop-Hintergrund mal so gezeigt. Das scheint aber niemand von euch aufgefallen zu sein. Naja, also ab diesem Video wird auf jeden Fall auch das Screen-Design hier bei 3003 ein bisschen anders sein. Also die Schriften und wie so Sachen gestaltet sind und vor allem auch die Thumbnails. Da war ja auch immer dieser Retro-Pink-Hintergrund dabei. Aber die Sachen, die sind alle im Flux. Da werden wir dann immer noch in Zukunft weiter dran basteln. Und da freuen wir uns auf jeden Fall auch über euer Feedback, wie ihr das so findet.

Aber eins sage ich schon mal vorweg, weil ich schon öfter mal Redesigns erlebt habe. Ich weiß, dass euch das alles erstmal wahrscheinlich irritieren wird. Veränderungen sind immer schwierig. Aber zum alten Logo werden wir unter keinen Umständen zurückkehren. Für alles andere sind wir aber offen.

Ach so, ach so. Apropos Design: Wir suchen eine Videoproducerin oder einen Producer in Teilzeit – 18 Stunden in Hannover. Link auf das Stellenangebot ist in der Beschreibung.

So, jetzt aber endlich wieder zu KI.

Und ich höre euch schon in den Kommentaren: Oh, wieder KI-Video. Macht doch mal was anderes, immer dieses blöde KI. Also jetzt mal ehrlich, wir machen die Themen, die wir halt gerade am aufregendsten finden. Und das ist im Moment halt viel KI. Das wird sich vielleicht auch wieder ändern.

Aber ich verspreche euch, wenn ich nur Themen machen würde, die gut klicken, also nur Themen, die ihr sehen wollt, dann würdet ihr, glaube ich, ziemlich schnell merken, dass da dann kein Herzblut so richtig dahinter ist. Und dann würdet ihr vielleicht auch sagen: Oh ja, ein bisschen langweilig geworden, die Videos hier bei c't 3003.

Deswegen lasst es uns so machen: Wir machen auf jeden Fall immer noch viele Videos für euch, aber lasst uns auf jeden Fall auch das machen, wofür wir gerade brennen, weil dann werden die Videos auch besser. Und auch für die KI-Hasser: Ich verspreche euch, mindestens die Hälfte der Videos hier wird auch über andere Sachen sein. Also Linux, Open Source, Homeserver, Fahrradrennen.

Okay, aber wenn ich jetzt gerade so drüber nachdenke: Die neue Technik, um die es hier im Video geht, ist Open Source. Also genauer gesagt ein offener Standard. Können alle einfach so benutzen. MCP, Model Context Protocol, heißt das. Gibt es erst seit ein paar Monaten. Im November hat Anthropic, also die vom Claude-Sprachmodell, diesen offenen Standard veröffentlicht.

Es gibt dazu noch nicht mal einen Wikipedia-Eintrag. Und auch wenn man ChatGPT nach MCP fragt, dann denkt ChatGPT, dass es so ein Minecraft-Protokoll ist. Es ist noch nicht wirklich im Mainstream angekommen, aber es ist trotzdem ziemlich sicher eine große Sache.

Da muss man sich wirklich nur mal angucken, wie LLMs vorher mit der Außenwelt interagiert haben. Also ganz früher, was in der KI-Zeitrechnung so vor zwei Jahren war. Da haben LLMs gar nicht mit irgendwas kommuniziert, sondern man musste zum Beispiel jede Art von Text manuell da reinpasten, zum Beispiel ins ChatGPT-Interface, und dann auch rauscopypasten. Also zum Beispiel Code, der da vielleicht generiert worden ist. Ziemlich umständlich.

Und dann kam irgendwann das Schlagwort Tool Use, also Werkzeugbenutzung. Das fing mit Metas Toolformer an und dann kam ChatGPT auch zaghaft um die Ecke. Also zum Beispiel damit, dass auf Wunsch im Netz gesucht werden konnte, was ja auch Kommunikation mit der Außenwelt ist, in dem Fall mit einer Suchmaschine. Und dann kamen auch solche Sachen wie, dass man das Design-Tool Canva mit ChatGPT benutzen konnte.

So, aber das Ding ist, dass zu der Zeit diese ganzen Werkzeugbenutzungsgeschichten grundsätzlich erforderten, dass die auf beiden Seiten individuell angepasst werden. Also auf der Seite vom LLM-System und auf der Seite des benutzenden Tools, beziehungsweise dessen API – also der Software-Schnittstelle des Tools. Das ist natürlich super viel redundante Arbeit.

Wenn man zum Beispiel das Ding mit einem anderen LLM benutzen will, dann muss man die Arbeit nochmal direkt wieder ganz neu machen. Das war ungefähr so wie bei den Computerschnittstellen vor USB. Da mussten sich das auch immer alle wieder neu überlegen, wie die angeschlossenen Geräte nun mit dem Computer kommunizieren sollen. Und dann kam halt USB und hat die ganze Sache ja wirklich sehr vereinfacht. Also so vereinfacht, dass die anderen Schnittstellen alle gar nicht mehr existieren.

Und genau das scheint jetzt auch in der KI-Welt zu passieren. Also Entropiq, wie gesagt, haben ihr Model Context Protocol erst im November angekündigt. Und auf der Sammelseite mcp.so sind jetzt schon über 13.000 MCPs verzeichnet. Das ist auch viel so Testzeug und irgendwelche Programmierfingerübungen. Aber safe sind das Tausende, die wirklich was machen, die wirklich sinnvoll sind.

Die Wahrscheinlichkeit ist echt recht hoch, dass ihr das, womit ihr gerne was machen wollt, als MCP findet. Also das geht wirklich von WhatsApp, wie gesagt, Blender, Dropbox, GitHub, Spotify, Salesforce – alles Mögliche dabei. Also nicht nur so Applikationen, sondern auch so Datenbanken und so Kram. Und das alles sind dann die sogenannten MCP-Server.

Ja, und auf der anderen Seite braucht ihr einen MCP-Client. Das ist dann grob gesagt die Software, die euer LLM anzapft. Der wohl populärste MCP-Client ist Claude Desktop, also die Desktop-Version von Entropiq Claude. Aber auch so Sachen wie Visual Studio Code, GitHub Copilot und das Coding-Tool Windsurf beherrschen das MCP. Ja, genau, das MCP – weil Protokoll.

So, aber so Sachen wie ChatGPT, Google Gemini, LLM Studio oder OpenWebUI für Ollama – die können zumindest out of the box noch kein MCP. Man kann sich aber damit behelfen, die Chrome-Erweiterung MCP Super Assistant zu installieren. Die bringt dann einfach den Web-Interfaces von ChatGPT, Perplexity, Google Gemini, Grok und AI Studio MCP bei.

Wir haben das ausprobiert mit ChatGPT, Perplexity und Gemini und ja, hat funktioniert. Und das finde ich, das zeigt dann auch die Eleganz von MCP. Denn keines der erwähnten LLMs ist von vornherein für MCP vorbereitet. Ich habe es gerade schon gesagt: ChatGPT kennt MCP überhaupt nicht, wenn man ChatGPT danach fragt. Und trotzdem können die zum Beispiel Blender bedienen.

Ich habe ziemlich ausführlich Blender mit Google Gemini ausprobiert – hat super funktioniert. Wenn man diese Chrome-Erweiterung benutzt, dann muss man ein bisschen mehr klicken als zum Beispiel bei Claude Desktop. Also muss man mehr bestätigen, aber es funktioniert auf jeden Fall.

Und richtig cool ist das Ganze natürlich, wenn man das lokal verwenden kann. Also statt die eigenen Daten nochmal in die Cloud zu schicken, also zu den proprietären LLMs, gehen auch lokal laufende, also Open-Source-LLMs mit MCP. Ausprobiert haben wir das mit dem TextModeClient oterm, der Olama anzapft. Olama ist ja auch so ein Open-Source-LLM-Anzapfer.

Ja, und bei Olama, auf der Olama-Webseite, kann man mit Search-Tools alle Ollama-kompatiblen LLMs sehen, die Tools benutzen können – also auch MCP. Qwen 3 aus China ist zurzeit am populärsten von den MCP-fähigen LLMs. Ich habe das in der 30b-Version verwendet, auf meiner RTX 4090 lief das auch gut schnell. Aber man muss auch sagen, ist natürlich noch nicht so gut wie Claude, Gemini oder GPT-4o, aber Open-Source-LLMs werden ja immer besser. Also ist nur eine Frage der Zeit vielleicht.

So, aber wie funktioniert denn MCP jetzt technisch?

Das Ganze funktioniert so, dass man im MCP-Client die MCP-Server anmeldet. Also dass man hier in Cloud-Desktop zum Beispiel sagt: Hier, ich möchte das Blender-MCP benutzen. Und der Blender-MCP-Server, der hat mehrere Funktionen, und die werden dann dem LLM mitgeteilt. Also was es alles so machen kann, zum Beispiel Objekte erstellen, Objekte verschieben, Informationen über ein Modell abrufen.

Das LLM entscheidet dann selbst, wenn es eine der MCP-Funktionen nutzen will, und kommuniziert dann über den MCP-Client mit dem MCP-Server. Das läuft über das Kommunikationsprotokoll JSON-RPC. Da will ich jetzt gar nicht so ins Detail gehen.

Was aber wichtig ist: Das LLM sendet nicht nur irgendwelche Befehle, sondern es bekommt auch Informationen zurück. Also beim Beispiel Blender sagt das LLM: Mach mir mal das und das Objekt. Und Blender meldet zurück: Habe ich gemacht, hat geklappt. Oder halt: Hat aus den und den Gründen nicht geklappt. Das heißt, es ist immer so ein Hin und Zurück, und das LLM weiß dann im besten Fall immer, was los ist.

Ja, und ich als Mensch hänge da ja dann auch noch irgendwie mit drin und kann immer zwischendurch sagen: Mach mal hier den Piratenhutkuchen anders oder mach das Licht anders. Also wenn ich was selbst machen will, weil ich denke, dass es schneller geht, wenn ich das übernehme – also zum Beispiel die optimale Kameraeinstellung –, dann kann ich auch einfach sagen: Wo muss ich klicken, um die Kamera zu bewegen? Ja, und dann sagt mir das LLM das.

Also es fühlt sich wirklich gut an, also würde ich wirklich mit der KI gemeinsam arbeiten. Ich kann sogar so Sachen sagen wie: Stelle mir mal den Render so ein, dass der eine MP4 in 4K-Auflösung ausgibt – was dann halt besonders viel schneller geht, wenn ich mich mit Blender nicht auskenne, was halt bei mir der Fall ist. Ich hätte jetzt nicht auf Anhieb gewusst, dass man hier klicken muss und hier und hier, um auf die Rendering-Einstellung zu kommen. Blender ist nicht das einfachste Programm.

Wie das alles installiert wird, das zeige ich euch auch noch, aber ganz am Ende nach der Verabschiedung.

Außer Blender habe ich auch noch ein zweites MCP ziemlich intensiv getestet, und zwar Desktop-Commander-MCP. Damit können Sprachmodelle nicht nur direkt auf das Dateisystem zugreifen – also Ordner erstellen, Dateien lesen oder schreiben etc. –, sondern auch direkt auf die Kommandozeile zugreifen, aufs Terminal. Kann ich mir also Programme starten lassen oder, was weiß ich, ASCII-Art machen oder halt alles, was auf der Kommandozeile geht. Natürlich auch programmieren.

Oder was ich auch machen kann: Ich schmeiße ein Programmierprojekt in den Ordner und sage: Dokumentiere mir das mal. Hier, mach mir mal eine readme.md für GitHub – und dann macht es das.

Übrigens kurze Frage an euch: Ich will gerne testen, wie gut LLMs für sie unbekannten Code verstehen können. Wenn ihr also Programmierprojekte habt, die nicht online auf GitHub oder sonst wo sind, also die LLMs auf keinen Fall in ihren Trainingsdaten haben können, dann schickt mir die gerne, wenn ihr die entbehren könnt, an 3003@ct.de. Je exotischer oder auch älter und komische Programmiersprachen, desto besser. Und natürlich im besten Fall unkommentiert und undokumentiert. Am liebsten nur den Code, und ich schicke euch dann natürlich die Ergebnisse, was dabei rauskommt. Und ja, damit würde ich gerne mal ein bisschen experimentieren.

Naja, also Desktop-Commander kann grob genau das Gleiche wie Cloud-Code und andere solche Code-KI-Tools, aber ist zum Beispiel im Vergleich zu Cloud-Code kostenlos. Also man braucht nicht zwingend ein Cloud-Abo und man muss auch keine Tokens zahlen.

Hier nochmal ein Beispiel: Ich habe ganz viele PNG-Bilder in den Ordner geschmissen und gesagt: Hier hast du den Pfad auf den Ordner und bau mir mal alle PNGs hintereinander und mach mir da ein Video draus. Ja, zack, FFmpeg aufgerufen und das Video ist im Ordner.

Lustig fand ich auch, als ich gesagt habe: Mach mir mal eine unter Windows ausführbare EXE-Datei mit irgendeinem Hallo-Welt-Text. Und er hat das dann erstmal in C++ versucht und hat dann aber keinen Compiler gefunden und hat dann versucht, irgendwelche super wilden Konstruktionen zu bauen, damit ich eine ausführbare Hallo-Welt-Datei kriege. Das war hier übrigens mit Cloud.

Ich habe dann auch mal Gemini 2.5 ausprobiert, also mit Desktop-Commander und diesem MCP-Super-Assistant, also die LLMs mit MCP kompatibel machen, die das eigentlich noch nicht können – also ganz normal über die Gemini-Oberfläche im Browser. Und da habe ich dann einfach mal nach dem Snake-Spiel in Python gefragt.

Ich hatte dabei total vergessen, dass das Blender-MCP auch noch aktiv war. Da hat Gemini dann gesagt: Hey, wir brauchen ja Grafiken für das Snake-Spiel. Komm, ich baue die mal in Blender – und hat dann halt Schlangenkopf, Schlangenkörper und diese Pillen, die man bei Snake aufisst, gebaut, gerendert und dann als PNG in das Spiel eingebaut. Das sieht jetzt nicht wahnsinnig toll aus, aber ich finde echt beeindruckend, wie smooth das ging und dass es das einfach alles automatisch gemacht hat.

Okay, ich wollte noch Sound haben. Das ging dann nicht automatisch, aber Gemini hat gesagt: Hier, das sind die Dateinamen. Besorg das und pack das in den Ordner. Und ja, dann war mein Snake-Spiel fertig – nach einer Viertelstunde oder so. Das ist jetzt nichts Großes, aber ich finde, das zeigt ganz gut, wo die Reise hingehen kann.

Größere Programmierprojekte – das muss ich auch ganz ehrlich sagen – scheitern oft am sogenannten Context-Window, also am Wissen, was das LLM gleichzeitig im Kopf behalten kann. Aber das Problem wird in Zukunft wahrscheinlich auch gelöst.

Was man auch ehrlich sagen muss: MCP schickt oft riesige Textmengen hin und her, die die Sprachmodelle ja allesamt verarbeiten müssen. Das kostet Energie – und das nicht wenig. Also eine Anfrage mit ziemlich viel Text drin kostet so grob über den Daumen – also zumindest nach dieser Rechnung hier, habe ich euch unten verlinkt – ungefähr drei Wattstunden. Das ist nicht wenig.

Aber zum Vergleich: 100 Kilometer Autofahren mit dem Benziner, der acht Liter verbraucht – das ist ungefähr der Durchschnittsverbrauch von Benzinern –, entspricht ungefähr 70 Kilowattstunden. Also 70.000 Wattstunden versus drei Wattstunden. Aber das sind natürlich alles so Rechenspiele.

Ich muss aber ganz deutlich sagen: Gerade wenn ich viel rumprobiere mit LLMs, dann habe ich schon die Energie im Hinterkopf, die ich da gerade verbrate.

Aber gut, einer muss es ja machen. Denn ich sage das ja ungefähr in jedem zweiten KI-Video hier bei c't 3003: Das Weltveränderungspotenzial dieser Technik ist immens, und die Praxiskompetenz von LLMs wird immer besser – auch wenn es ja oft heißt, wir hätten ein Plateau erreicht. Aber gerade durch so Techniken wie MCP macht die praktische Nutzbarkeit von KI definitiv einen riesigen Sprung.

Fazit

Also ihr habt das ja vielleicht gemerkt – ich bin ziemlich geflasht und ich bin ziemlich beeindruckt. Und mein Kollege Ronald, der mich sehr nett mit dem ganzen Gefrickel hier unterstützt hat, der ist auch beeindruckt. Weil ist klar: Die Nützlichkeit von LLMs wird natürlich mit jeder Software größer, mit der sie interagieren können. Und MCP macht die Interaktion einfach. Man baut einmal einen Server für die eigene Software und zack, kann jedes LLM, das mit einem MCP-Client läuft, auf die Software zugreifen.

Aber – und das muss ich auch nochmal deutlich sagen – das ist alles sehr, sehr, sehr frühes Stadium. Also alles, wovon wir reden, ist sehr, sehr frühes Stadium. Sogar die MCP-Entwickler, also Anthropio, haben das im Cloud-Desktop nicht einfach so freigeschaltet, sondern man muss manuell den Entwicklermodus aktivieren, damit das läuft. Und da muss man auch irgendwelche JSON-Config-Dateien manuell bearbeiten.

Also das ist noch buggy und es ist auch riskant – gerade wenn die LLMs ohne Rückfrage auf eurem Dateisystem rumholzen können, Software installieren können oder in irgendwelche Datenbanken reinschreiben können. Macht das nicht auf eurem Hauptbetriebssystem, probiert das lieber in einer virtuellen Maschine aus. Aber probiert es aus, weil das ist wirklich aufregend.

Oder wie seht ihr das? Habt ihr Bedenken? Benutzt ihr schon MCPs? Gerne in die Kommentare schreiben – und tschüss.

Die Installationsanleitung gibt es hier.

c't 3003 ist der YouTube-Channel von c't. Die Videos auf c’t 3003 sind eigenständige Inhalte und unabhängig von den Artikeln im c’t Magazin. Die Redakteure Jan-Keno Janssen, Lukas Rumpler, Sahin Erengil und Pascal Schewe veröffentlichen jede Woche ein Video.

(jkj)

Gesamten Artikel lesen