Wir haben OpenClaw als eigenen GTM-Agenten eingerichtet. Erster echter Test: Eine Landing-Page-Optimierung mit intensiver Tool-Nutzung. Ein Durchlauf kostete 6 $. Ein Mensch hätte dafür rund zwei Stunden gebraucht. Der Agent lieferte in 15 Minuten.
Aber 6 $ pro Durchlauf skalieren nicht. Also haben wir acht Hebel angewendet. Dieselbe Aufgabe. Dasselbe Ergebnis. 0,45 $.
Dieser Artikel beschreibt, was wir getan haben. Keine Theorie. Acht konkrete Hebel, die du sofort umsetzen kannst. Infrastruktur, Modellwahl, Caching, Monitoring.
Wohin das Geld wirklich fließt
Bevor du optimierst, musst du wissen, wofür du zahlst. Unser Haupttreiber: Context Caching.
| Kostentreiber | Was wir beobachtet haben | Warum es wehtut |
|---|---|---|
| Cache-Writes | 0,35 $ für 93.881 Tokens in einer Nachricht | 3,75 $ pro Million Tokens |
| Cache-Reads | 93.149 Tokens (0,028 $) | Günstiger, summiert sich aber |
| Subagents | Vollständiger Context bei jedem Spawn kopiert | Multipliziert mit N Sessions |
| Restarts / Config-Änderungen | AGENTS.md, SOUL.md, Docs, Skills neu geladen | Vollständiger Recache jedes Mal |
Jede Context-Änderung löst einen vollständigen Recache aus. Große Workspace-Dateien werden immer wieder geladen. Subagents erben den vollen Parent-Context. Die Rechnung wächst schnell.
Die Lösung: Reduziere, was gecacht wird, wie oft es sich ändert und wie oft du für das Neuladen zahlst.
Hebel 1: VPS für Idle- und Routine-Arbeit
Lass Heartbeats und Idle-Pings nicht auf Premium-Cloud-Modellen laufen. Nutze ein kleines lokales Modell auf einem VPS.
Hochfrequente, einfache Aufrufe summieren sich. Ein VPS mit lokalem Modell kostet einen Bruchteil von Cloud-API-Calls bei gleichem Volumen. Cloud für Aufgaben, die sie brauchen. Lokal für den Rest.
Hebel 2: Hybrid-Routing (Lokal–Cloud)
Route nach Aufgabentyp. Nicht alles braucht GPT-4.
| Aufgabentyp | Laufen auf | Warum |
|---|---|---|
| Heartbeats, Idle-Pings | Kleines lokales Modell | Günstig, häufig |
| Embeddings | Lokal oder günstiger Provider | Hohes Volumen |
| Memory Search | Lokal oder optimiert | Kein Premium nötig |
| Einfache Tools | Lokale Modelle | Vorhersehbar, niedriges Risiko |
| Komplexe Reasoning-Aufgaben | Premium Cloud | Wenn es darauf ankommt |
Prüfe deine Tools. Schalt ab, was du nicht nutzt. Viele Kosten entstehen durch ungenutzte Features.
Hebel 3: Aggressive Context-Begrenzung
Dynamische Tool- und Context-Injection: Der Agent lädt nur die Tool-Schemas und den Speicher, die er für den aktuellen Schritt braucht.
Lade nicht bei jedem Call vollständig AGENTS.md, SOUL.md, Docs und Skills. Nur wenn nötig. Gestalte Prompts so, dass wiederkehrende Teile gecacht werden und variable Teile klein bleiben.
Weniger Tokens pro Request = weniger Cache-Writes. Weniger Cache-Writes = niedrigere Rechnung.
Hebel 4: Clevere Caching-Strategie
Cache-Writes kosten 3,75 $ pro Million Tokens. Cache-Reads sind günstiger. Maximiere Hits, minimiere Writes.
- •Prompts für Caching gestalten — Struktur so, dass wiederkehrender Context stabil bleibt
- •Context-Churn reduzieren — Config-Änderungen bündeln; unnötige Restarts vermeiden
- •Compression- oder Token-Reduction-Gateways nutzen, wo sinnvoll
- •/compact und /new periodisch verwenden — Reset ohne vollständigen Reload
Jeder Restart und jede Config-Änderung bedeutet einen vollständigen Recache. Plane entsprechend.
Hebel 5: Channel-Setup und Embeddings
- •Embedding-Provider: Wähle eine kostengünstige Option; Embeddings skalieren mit Dokumenten.
- •Channel-Setup: Organisiere Channels so, dass Agents nur den für den Channel relevanten Context laden.
Nicht überall alles laden. Context auf die Aufgabe beschränken.
Hebel 6: Session- und Lifecycle-Management
- •/new periodisch nutzen — neue Sessions vermeiden Context-Bloat
- •Lange Sessions nicht unbegrenzt Context anhäufen lassen
- •Subagents: Nicht mit vollem Parent-Context spawnen; nur das Nötige übergeben
Context wächst über die Zeit. Reset, bevor er teuer wird.
Hebel 7: Monitoring und Frühwarnung
Richte Monitoring ein, um Kostenexplosionen früh zu erkennen.
- •session_status nutzen, um Token-Verbrauch pro Session zu überwachen
- •Schwellen und Alerts definieren (z. B. Kosten pro Stunde, Tokens pro Session)
- •Wöchentliche Auswertung: Welche Sessions, Tools und Modelle haben die Kosten verursacht?
Ohne Daten rätst du. Mit Daten kannst du handeln.
Hebel 8: Use-Case-Disziplin
Nicht jeder Trigger braucht einen vollwertigen Agenten-Lauf.
Beispiel: „Follow-up, wenn sich ein neuer Nutzer registriert.“ Braucht es ein Premium-Modell plus vollen Context? Oder einen kleinen, gezielten Flow?
Ordne Use Cases dem minimal nötigen Modell und Context zu. Vermeide Over-Provisioning.
Zusammenfassung: Die 8 Hebel
| Hebel | Maßnahme | Wirkung |
|---|---|---|
| 1. Hardware | VPS für Idle/Routine | Hohe Call-Kosten reduzieren |
| 2. Modellwahl | Hybrid-Routing Lokal–Cloud | Richtiges Modell für die Aufgabe |
| 3. Context | Dynamische Injection, nur Nötiges laden | Weniger Tokens, weniger Cache-Writes |
| 4. Caching | Caching-Hits maximieren, /compact, /new | Weniger teure Cache-Writes |
| 5. Channels | Smartes Channel-Setup, Embedding-Provider | Niedrigere Embedding- und Routing-Kosten |
| 6. Sessions | /new periodisch, Subagent-Context trimmen | Bloat vermeiden |
| 7. Monitoring | session_status, Schwellen, wöchentliche Review | Kostenexplosionen früh erkennen |
| 8. Use Cases | Minimales Modell pro Trigger | Kein Over-Provisioning |
Was wir erreicht haben
Landing-Page-Optimierung. Starke Tool-Nutzung. Context-intensiver Lauf.
6 $
Vorher / Durchlauf
0,45 $
Nachher / Durchlauf
15 Min
statt ~2 Std. manuell
Die größten Effekte kamen von Hybrid-Routing (keine Heartbeats auf Premium-Modellen) und Context-Disziplin (Cache-Writes bei 3,75 $/M zerstören dein Budget).
Starte mit einem Audit: Wohin fließen deine Tokens? Dann setze die Hebel 1–3 für schnelle Wins um. Monitoring verhindert Rückschritte.
Nächste Schritte
- 1.Diese Woche: Aktuelle Kosten auditieren. Cache-Writes, Subagents und Context-Größe identifizieren.
- 2.Nächste Woche: Hybrid-Routing für mindestens eine hochfrequente Aufgabe implementieren.
- 3.Laufend: session_status-Monitoring und wöchentliche Review-Routine einrichten.
Acht Hebel. Ein Ergebnis: planbare Kosten ohne Fähigkeitsverlust.