Google Cloud zieht bei KI-Kosten die Notbremse

vor 2 Stunden 1

Google Cloud erweitert sein FinOps-Portfolio um neue Funktionen für KI-Workloads. Im Zentrum stehen automatisierte Spend Caps, die Budgetgrenzen aktiv durchsetzen, sowie ein neuer FinOps Explainability Agent, der Kostentreiber eigenständig analysiert. Damit will Google die Kontrolle über schwer kalkulierbare KI-Kosten verbessern und den Aufwand für deren Analyse senken.

Hintergrund ist, dass KI-Workloads die Kostenstrukturen in der Cloud verändern. Statt relativ stabiler Lastprofile entstehen stark schwankende Kosten – etwa durch variable Token-Nutzung, unterschiedliche Modellpreise oder den Einsatz spezialisierter Hardware wie GPUs und TPUs. Klassische FinOps-Werkzeuge liefern hier zwar Berichte und Warnungen, greifen aber nicht direkt in den laufenden Betrieb ein.

Spend Caps stoppen API-Verkehr automatisch

Diese Lücke sollen die neuen Spend Caps schließen, die Google zunächst in einer Private Preview anbietet. Administratoren können damit Budgets auf Projektebene festlegen, die das System automatisch durchsetzt. Erreicht ein Projekt das Limit, warnt Google Cloud zunächst und pausiert anschließend den API-Verkehr. Die zugrunde liegenden Ressourcen bleiben dabei erhalten. Wer den Betrieb fortsetzen will, passt das Spend Cap an oder hebt es auf. Unterstützt werden zunächst Google AI Studio, die Gemini Enterprise Agent Platform als Weiterentwicklung von Vertex AI, Cloud Run, Cloud Run Functions sowie die Maps APIs.

Der Nutzen zeigt sich vor allem bei experimentellen KI-Workloads. Ein fehlerhafter Prompt-Loop oder eine unoptimierte Inferenz-Pipeline kann innerhalb kurzer Zeit Millionen API-Aufrufe und entsprechend hohe Kosten verursachen. Spend Caps greifen in solchen Fällen automatisch ein, ohne dass ein Mensch händisch reagieren muss.

Explainability Agent analysiert Kostentreiber

Ergänzend führt Google den FinOps Explainability Agent ein, der direkt in das Billing-System integriert ist. Der Agent analysiert eigenständig, welche Faktoren die Kosten von KI-Workloads treiben, und liefert Auswertungen auf Zuruf. Nutzer können zum Beispiel fragen, wie sich die Kosten zwischen Gemini 1.5 Pro und Gemini 1.5 Flash verteilen, welche API-Keys besonders teuer sind oder wie hoch der Anteil von Input- und Output-Tokens an den Gesamtkosten ausfällt.

Solche Auswertungen sind nötig, weil sich KI-Kosten zwar formal als Produkt aus Menge und Preis beschreiben lassen, die Einflussgrößen aber stark fragmentiert sind. Neben dem Request-Volumen spielen Token-Zahlen, Fehlerraten, Speicherzugriffe und Modellwechsel eine Rolle. Der Explainability Agent korreliert diese Faktoren automatisch und soll so die Ursachenanalyse beschleunigen – etwa bei unerwarteten Kostenanstiegen oder zur Bewertung des Return on Investment einzelner KI-Projekte.

Mehr Transparenz bei Billing und Verträgen

Daneben kündigt Google erweiterte Billing-Hierarchien und ein Reporting für Vertragszusagen an. Die neuen Hierarchien sollen Ausgaben über mehrere Abrechnungskonten hinweg zusammenführen, einschließlich sogenannter Other Eligible Services – also zusätzlicher Produktfamilien, die Google in Enterprise-Verträgen neben den eigentlichen Cloud-Diensten berücksichtigt, etwa Apigee, AppSheet, Looker, Workspace-Produkte, Mandiant oder VirusTotal. Das ebenfalls zunächst als Private Preview angekündigte Commitment Reporting soll zudem sichtbar machen, wie schnell Kunden ihre Commitments innerhalb eines Enterprise Agreements verbrauchen.

Der FinOps Explainability Agent steht laut Googles Ankündigung bereits in der Cloud Console bereit. Spend Caps sowie die erweiterten Billing- und Reporting-Funktionen sind zunächst nur in einer Private Preview verfügbar, für die sich Kunden anmelden können.

(fo)

Gesamten Artikel lesen