Zurück zu Insights
Cost Engineering8 Min. Lesezeit

OpenClaw-Kostenoptimierung: Wie wir die Task-Kosten um 93 % mit diesen 8 Hebeln reduziert haben

Für: Entwickler, Tech-Leads, Teams mit AI-Agenten in Produktion

Wir haben OpenClaw als eigenen GTM-Agenten eingerichtet. Erster echter Test: Eine Landing-Page-Optimierung mit intensiver Tool-Nutzung. Ein Durchlauf kostete 6 $. Ein Mensch hätte dafür rund zwei Stunden gebraucht. Der Agent lieferte in 15 Minuten.

Aber 6 $ pro Durchlauf skalieren nicht. Also haben wir acht Hebel angewendet. Dieselbe Aufgabe. Dasselbe Ergebnis. 0,45 $.

Dieser Artikel beschreibt, was wir getan haben. Keine Theorie. Acht konkrete Hebel, die du sofort umsetzen kannst. Infrastruktur, Modellwahl, Caching, Monitoring.

Wohin das Geld wirklich fließt

Bevor du optimierst, musst du wissen, wofür du zahlst. Unser Haupttreiber: Context Caching.

KostentreiberWas wir beobachtet habenWarum es wehtut
Cache-Writes0,35 $ für 93.881 Tokens in einer Nachricht3,75 $ pro Million Tokens
Cache-Reads93.149 Tokens (0,028 $)Günstiger, summiert sich aber
SubagentsVollständiger Context bei jedem Spawn kopiertMultipliziert mit N Sessions
Restarts / Config-ÄnderungenAGENTS.md, SOUL.md, Docs, Skills neu geladenVollständiger Recache jedes Mal

Jede Context-Änderung löst einen vollständigen Recache aus. Große Workspace-Dateien werden immer wieder geladen. Subagents erben den vollen Parent-Context. Die Rechnung wächst schnell.

Die Lösung: Reduziere, was gecacht wird, wie oft es sich ändert und wie oft du für das Neuladen zahlst.

Hebel 1: VPS für Idle- und Routine-Arbeit

Lass Heartbeats und Idle-Pings nicht auf Premium-Cloud-Modellen laufen. Nutze ein kleines lokales Modell auf einem VPS.

Hochfrequente, einfache Aufrufe summieren sich. Ein VPS mit lokalem Modell kostet einen Bruchteil von Cloud-API-Calls bei gleichem Volumen. Cloud für Aufgaben, die sie brauchen. Lokal für den Rest.

Hebel 2: Hybrid-Routing (Lokal–Cloud)

Route nach Aufgabentyp. Nicht alles braucht GPT-4.

AufgabentypLaufen aufWarum
Heartbeats, Idle-PingsKleines lokales ModellGünstig, häufig
EmbeddingsLokal oder günstiger ProviderHohes Volumen
Memory SearchLokal oder optimiertKein Premium nötig
Einfache ToolsLokale ModelleVorhersehbar, niedriges Risiko
Komplexe Reasoning-AufgabenPremium CloudWenn es darauf ankommt

Prüfe deine Tools. Schalt ab, was du nicht nutzt. Viele Kosten entstehen durch ungenutzte Features.

Hebel 3: Aggressive Context-Begrenzung

Dynamische Tool- und Context-Injection: Der Agent lädt nur die Tool-Schemas und den Speicher, die er für den aktuellen Schritt braucht.

Lade nicht bei jedem Call vollständig AGENTS.md, SOUL.md, Docs und Skills. Nur wenn nötig. Gestalte Prompts so, dass wiederkehrende Teile gecacht werden und variable Teile klein bleiben.

Weniger Tokens pro Request = weniger Cache-Writes. Weniger Cache-Writes = niedrigere Rechnung.

Hebel 4: Clevere Caching-Strategie

Cache-Writes kosten 3,75 $ pro Million Tokens. Cache-Reads sind günstiger. Maximiere Hits, minimiere Writes.

  • Prompts für Caching gestalten — Struktur so, dass wiederkehrender Context stabil bleibt
  • Context-Churn reduzieren — Config-Änderungen bündeln; unnötige Restarts vermeiden
  • Compression- oder Token-Reduction-Gateways nutzen, wo sinnvoll
  • /compact und /new periodisch verwenden — Reset ohne vollständigen Reload

Jeder Restart und jede Config-Änderung bedeutet einen vollständigen Recache. Plane entsprechend.

Hebel 5: Channel-Setup und Embeddings

  • Embedding-Provider: Wähle eine kostengünstige Option; Embeddings skalieren mit Dokumenten.
  • Channel-Setup: Organisiere Channels so, dass Agents nur den für den Channel relevanten Context laden.

Nicht überall alles laden. Context auf die Aufgabe beschränken.

Hebel 6: Session- und Lifecycle-Management

  • /new periodisch nutzen — neue Sessions vermeiden Context-Bloat
  • Lange Sessions nicht unbegrenzt Context anhäufen lassen
  • Subagents: Nicht mit vollem Parent-Context spawnen; nur das Nötige übergeben

Context wächst über die Zeit. Reset, bevor er teuer wird.

Hebel 7: Monitoring und Frühwarnung

Richte Monitoring ein, um Kostenexplosionen früh zu erkennen.

  • session_status nutzen, um Token-Verbrauch pro Session zu überwachen
  • Schwellen und Alerts definieren (z. B. Kosten pro Stunde, Tokens pro Session)
  • Wöchentliche Auswertung: Welche Sessions, Tools und Modelle haben die Kosten verursacht?

Ohne Daten rätst du. Mit Daten kannst du handeln.

Hebel 8: Use-Case-Disziplin

Nicht jeder Trigger braucht einen vollwertigen Agenten-Lauf.

Beispiel: „Follow-up, wenn sich ein neuer Nutzer registriert.“ Braucht es ein Premium-Modell plus vollen Context? Oder einen kleinen, gezielten Flow?

Ordne Use Cases dem minimal nötigen Modell und Context zu. Vermeide Over-Provisioning.

Zusammenfassung: Die 8 Hebel

HebelMaßnahmeWirkung
1. HardwareVPS für Idle/RoutineHohe Call-Kosten reduzieren
2. ModellwahlHybrid-Routing Lokal–CloudRichtiges Modell für die Aufgabe
3. ContextDynamische Injection, nur Nötiges ladenWeniger Tokens, weniger Cache-Writes
4. CachingCaching-Hits maximieren, /compact, /newWeniger teure Cache-Writes
5. ChannelsSmartes Channel-Setup, Embedding-ProviderNiedrigere Embedding- und Routing-Kosten
6. Sessions/new periodisch, Subagent-Context trimmenBloat vermeiden
7. Monitoringsession_status, Schwellen, wöchentliche ReviewKostenexplosionen früh erkennen
8. Use CasesMinimales Modell pro TriggerKein Over-Provisioning

Was wir erreicht haben

Landing-Page-Optimierung. Starke Tool-Nutzung. Context-intensiver Lauf.

6 $

Vorher / Durchlauf

0,45 $

Nachher / Durchlauf

15 Min

statt ~2 Std. manuell

Die größten Effekte kamen von Hybrid-Routing (keine Heartbeats auf Premium-Modellen) und Context-Disziplin (Cache-Writes bei 3,75 $/M zerstören dein Budget).

Starte mit einem Audit: Wohin fließen deine Tokens? Dann setze die Hebel 1–3 für schnelle Wins um. Monitoring verhindert Rückschritte.

Nächste Schritte

  1. 1.Diese Woche: Aktuelle Kosten auditieren. Cache-Writes, Subagents und Context-Größe identifizieren.
  2. 2.Nächste Woche: Hybrid-Routing für mindestens eine hochfrequente Aufgabe implementieren.
  3. 3.Laufend: session_status-Monitoring und wöchentliche Review-Routine einrichten.

Acht Hebel. Ein Ergebnis: planbare Kosten ohne Fähigkeitsverlust.