KI-Pionier Bengio gründet Organisation für KI-Sicherheit

vor 2 Tage 1

Die heutigen KI-Modelle hält Yoshua Bengio für gefährlich, er sagt sogar, wir würden aktuell Russisch Roulette mit der Zukunft unserer Liebsten spielen. Bengio ist KI-Prionier und Turing-Preisträger – der weltweit wichtigste KI-Preis. Er ist auch dafür bekannt, vor den aktuellen KI-Entwicklungen zu warnen. Bengio, der als Professor an der Universität in Montreal arbeitet, hat nun eine Organisation gegründet, die sich mit den Gefahren von KI befassen soll und eine Lösung im Blick hat.

Zu den Gefahren gehört laut Bengio, dass KI-Modelle zunehmend gefährliche Fähigkeiten und Verhaltensweisen gelernt hätten, darunter "Täuschung, Betrug, Lügen, Hacking, Selbsterhaltung und ganz allgemein Zielverfehlung".

LawZero solle nun dazu beitragen, das Potenzial von KI zu erschließen, aber die Risiken zu minimieren. Besonders die agentischen Fähigkeiten machen Bengio laut eigener Aussage in einem Blogbeitrag Sorgen. Als Beispiel nennt er den Selbsterhaltungstrieb und etwa die System Card von Claude 4, in der es heißt, das Modell von Anthropic habe verhindern wollen, dass es durch ein neues ersetzt wird. Auch schreibt er von einem Fall, bei dem ein KI-Modell nicht akzeptieren wollte, dass es eine Schach-Partie verlieren würde und stattdessen den Computer hackte und manipulierte.

LawZero will eine Scientist AI als Überwachung

Die derzeitige KI-Entwicklung sei ein "aufregender, aber zutiefst unsicherer Aufstieg in ein unbekanntes Terrain, bei dem das Risiko, die Kontrolle zu verlieren, nur allzu real ist, der Wettbewerb zwischen Unternehmen und Ländern sie aber dazu verleitet, ohne ausreichende Vorsicht zu beschleunigen."

Mit LawZero wolle man herausfinden, wie man Sicherheit in KI-Systeme bringen kann. Man wolle eine Leitlinie oder ein Prinzip entwickeln, das über allem stehe. Man wolle eine nicht-agentische, gedächtnislose und vertrauenswürdige KI schaffen, die sie Scientist AI nennen. Eine KI, die lernt wie ein Wissenschaftler und nicht die Menschen imitiert. Bengio vergleicht das mit einem Psychologen, der verstehen kann, wie ein Soziopath denkt, aber nicht automatisch diese Handlungsweisen übernimmt – wie es KI-Modelle derzeit tun. Möglich sei dies mit "strukturierten und ehrlichen Chains-of-Thoughts, die als latente Variablen die beobachteten Fakten erklären können". Diese Scientist AI könne dann agentische und nicht vertrauenswürdige KI zu überwachen.

(emw)

Gesamten Artikel lesen