OpenClaw-Kostenoptimierung: Wie wir die Task-Kosten um 93 % mit diesen 8 Hebeln reduziert haben

Wir haben OpenClaw als eigenen GTM-Agenten eingerichtet. Erster echter Test: Eine Landing-Page-Optimierung mit intensiver Tool-Nutzung. Ein Durchlauf kostete $6 (€6,90). Ein Mensch hätte dafür rund zwei Stunden gebraucht. Der Agent lieferte in 15 Minuten.

Aber $6 (€6,90) pro Durchlauf skalieren nicht. Also haben wir acht Hebel angewendet. Dieselbe Aufgabe. Dasselbe Ergebnis. $0,45 (€0,52).

Dieser Artikel beschreibt, was wir getan haben. Keine Theorie. Acht konkrete Hebel, die du sofort umsetzen kannst. Infrastruktur, Modellwahl, Caching, Monitoring.

Wohin das Geld wirklich fließt

Bevor du optimierst, musst du wissen, wofür du zahlst. Unser Haupttreiber: Context Caching.

Kostentreiber	Was wir beobachtet haben	Warum es wehtut
Cache-Writes	$0,35 (€0,40) für 93.881 Tokens in einer Nachricht	$3,75 (€4,31) pro Million Tokens
Cache-Reads	93.149 Tokens ($0,028 / €0,03)	Günstiger, summiert sich aber
Subagents	Vollständiger Context bei jedem Spawn kopiert	Multipliziert mit N Sessions
Restarts / Config-Änderungen	AGENTS.md, SOUL.md, Docs, Skills neu geladen	Vollständiger Recache jedes Mal

Jede Context-Änderung löst einen vollständigen Recache aus. Große Workspace-Dateien werden immer wieder geladen. Subagents erben den vollen Parent-Context. Die Rechnung wächst schnell.

Die Lösung: Reduziere, was gecacht wird, wie oft es sich ändert und wie oft du für das Neuladen zahlst.

Hebel 1: VPS für Idle- und Routine-Arbeit

Lass Heartbeats und Idle-Pings nicht auf Premium-Cloud-Modellen laufen. Nutze ein kleines lokales Modell auf einem VPS.

Hochfrequente, einfache Aufrufe summieren sich. Ein VPS mit lokalem Modell kostet einen Bruchteil von Cloud-API-Calls bei gleichem Volumen. Cloud für Aufgaben, die sie brauchen. Lokal für den Rest.

Hebel 2: Hybrid-Routing (Lokal–Cloud)

Route nach Aufgabentyp. Nicht alles braucht GPT-4.

Aufgabentyp	Laufen auf	Warum
Heartbeats, Idle-Pings	Kleines lokales Modell	Günstig, häufig
Embeddings	Lokal oder günstiger Provider	Hohes Volumen
Memory Search	Lokal oder optimiert	Kein Premium nötig
Einfache Tools	Lokale Modelle	Vorhersehbar, niedriges Risiko
Komplexe Reasoning-Aufgaben	Premium Cloud	Wenn es darauf ankommt

Prüfe deine Tools. Schalt ab, was du nicht nutzt. Viele Kosten entstehen durch ungenutzte Features.

Hebel 3: Aggressive Context-Begrenzung

Dynamische Tool- und Context-Injection: Der Agent lädt nur die Tool-Schemas und den Speicher, die er für den aktuellen Schritt braucht.

Lade nicht bei jedem Call vollständig AGENTS.md, SOUL.md, Docs und Skills. Nur wenn nötig. Gestalte Prompts so, dass wiederkehrende Teile gecacht werden und variable Teile klein bleiben.

Weniger Tokens pro Request = weniger Cache-Writes. Weniger Cache-Writes = niedrigere Rechnung.

Hebel 4: Clevere Caching-Strategie

Cache-Writes kosten $3,75 (€4,31) pro Million Tokens. Cache-Reads sind günstiger. Maximiere Hits, minimiere Writes.

•Prompts für Caching gestalten — Struktur so, dass wiederkehrender Context stabil bleibt
•Context-Churn reduzieren — Config-Änderungen bündeln; unnötige Restarts vermeiden
•Compression- oder Token-Reduction-Gateways nutzen, wo sinnvoll
•/compact und /new periodisch verwenden — Reset ohne vollständigen Reload

Jeder Restart und jede Config-Änderung bedeutet einen vollständigen Recache. Plane entsprechend.

Hebel 5: Channel-Setup und Embeddings

•Embedding-Provider: Wähle eine kostengünstige Option; Embeddings skalieren mit Dokumenten.
•Channel-Setup: Organisiere Channels so, dass Agents nur den für den Channel relevanten Context laden.

Nicht überall alles laden. Context auf die Aufgabe beschränken.

Hebel 6: Session- und Lifecycle-Management

•/new periodisch nutzen — neue Sessions vermeiden Context-Bloat
•Lange Sessions nicht unbegrenzt Context anhäufen lassen
•Subagents: Nicht mit vollem Parent-Context spawnen; nur das Nötige übergeben

Context wächst über die Zeit. Reset, bevor er teuer wird.

Hebel 7: Monitoring und Frühwarnung

Richte Monitoring ein, um Kostenexplosionen früh zu erkennen.

•session_status nutzen, um Token-Verbrauch pro Session zu überwachen
•Schwellen und Alerts definieren (z. B. Kosten pro Stunde, Tokens pro Session)
•Wöchentliche Auswertung: Welche Sessions, Tools und Modelle haben die Kosten verursacht?

Ohne Daten rätst du. Mit Daten kannst du handeln.

Hebel 8: Use-Case-Disziplin

Nicht jeder Trigger braucht einen vollwertigen Agenten-Lauf.

Beispiel: „Follow-up, wenn sich ein neuer Nutzer registriert.“ Braucht es ein Premium-Modell plus vollen Context? Oder einen kleinen, gezielten Flow?

Ordne Use Cases dem minimal nötigen Modell und Context zu. Vermeide Over-Provisioning.

Zusammenfassung: Die 8 Hebel

Hebel	Maßnahme	Wirkung
1. Hardware	VPS für Idle/Routine	Hohe Call-Kosten reduzieren
2. Modellwahl	Hybrid-Routing Lokal–Cloud	Richtiges Modell für die Aufgabe
3. Context	Dynamische Injection, nur Nötiges laden	Weniger Tokens, weniger Cache-Writes
4. Caching	Caching-Hits maximieren, /compact, /new	Weniger teure Cache-Writes
5. Channels	Smartes Channel-Setup, Embedding-Provider	Niedrigere Embedding- und Routing-Kosten
6. Sessions	/new periodisch, Subagent-Context trimmen	Bloat vermeiden
7. Monitoring	session_status, Schwellen, wöchentliche Review	Kostenexplosionen früh erkennen
8. Use Cases	Minimales Modell pro Trigger	Kein Over-Provisioning

Was wir erreicht haben

Landing-Page-Optimierung. Starke Tool-Nutzung. Context-intensiver Lauf.

(€6,90)

Vorher / Durchlauf

$0,45

(€0,52)

Nachher / Durchlauf

15 Min

statt ~2 Std. manuell

Die größten Effekte kamen von Hybrid-Routing (keine Heartbeats auf Premium-Modellen) und Context-Disziplin (Cache-Writes bei $3,75/M (€4,31/M) zerstören dein Budget).

Starte mit einem Audit: Wohin fließen deine Tokens? Dann setze die Hebel 1–3 für schnelle Wins um. Monitoring verhindert Rückschritte.

Nächste Schritte

1.Diese Woche: Aktuelle Kosten auditieren. Cache-Writes, Subagents und Context-Größe identifizieren.
2.Nächste Woche: Hybrid-Routing für mindestens eine hochfrequente Aufgabe implementieren.
3.Laufend: session_status-Monitoring und wöchentliche Review-Routine einrichten.

Acht Hebel. Ein Ergebnis: planbare Kosten ohne Fähigkeitsverlust.