Claude Code Cost Controls für Daily Driver, in 10 Schritten unter 30 Dollar pro Tag bleiben
Wie Du Token-Verbrauch kontrollierst, das richtige Modell wählst und MCP-Overhead reduzierst. Konkrete Slash-Commands, Settings, Patterns aus dem echten Alltag.
Anthropic selbst sagt, der Schnitt liegt bei 13 Dollar pro Entwickler pro Tag. 90 Prozent bleiben unter 30 Dollar. Wenn Du oben raus brichst, liegt es fast nie am Modell. Es liegt fast immer am Kontext der mitgeschleift wird, an MCP-Servern die nichts tun, an einem Opus der einen Format-Fix macht. Dieses Playbook zeigt wie ich das im Alltag in den Griff bekomme. Du brauchst keinen extra Tracker, Claude Code bringt alles mit.
1. /usage einmal pro Stunde druecken
Der eingebaute Befehl heisst /usage. Aliase /cost und /stats funktionieren gleich. Was er zeigt: Total cost (Schaetzung lokal aus Token-Counts), API-Dauer, Wall-Dauer, Lines added/removed. Das Dollar-Zeichen ist eine Schaetzung, nicht die Rechnung. Für die echte Abrechnung gibt es die Usage-Page in der Claude Console.
Mein Workflow, ich druecke /usage am Anfang einer Session und nach jedem groesseren Block. Wenn ich nach 30 Minuten schon bei 4 Dollar bin obwohl die Aufgabe klein war, weiss ich es ist was schief gelaufen. Meistens ein MCP-Server der unkontrolliert Tools laedt oder eine Datei die immer wieder reingelesen wird.
Wer auf Claude Pro oder Max ist, sieht keinen Dollar-Wert sondern Plan-Usage-Limits. Trotzdem nützlich, Du siehst wie schnell Du Dein Quota verbrennst.
2. /model bewusst wechseln, nicht alles in Opus
Die offizielle Empfehlung ist klar, Sonnet für fast alles, Opus nur für komplexe Architektur-Entscheidungen oder Multi-Step Reasoning. Haiku für simple Subagent-Tasks.
Ich starte fast immer in Sonnet. Wenn ich merke der Task ist trivial (Format-Fix, Doku-Update, Refactor mit klarem Pattern), wechsel ich mit /model auf Haiku. Wenn ich merke das wird schwer (neue Architektur, Performance-Debug, kniffliger Bug), gehe ich auf Opus. Aber bewusst und zurück wenn es nicht mehr noetig ist.
Default setzen geht ueber /config. Wenn Du bisher in Opus gestartet bist, stell auf Sonnet. Du wirst kaum Qualitaet verlieren.
3. Subagents auf haiku stellen
Wenn Du Subagents oder Slash-Commands schreibst, gehoert in die YAML-Frontmatter ein Modell-Feld. Beispiel für einen Format-Command,
---
description: Format code file
model: haiku
---
Haiku ist ein Bruchteil der Kosten und macht solche Tasks problemlos. Wenn Du Dir das nicht angewoehnst, läuft jeder kleine Sub-Aufruf in dem Modell das gerade aktiv ist. Bei einem Opus-Default ist das richtig teuer, weil Subagents oft im Loop laufen.
Faustregel die ich nutze, Format / Lint / Json-Parse / kleine Klassifikation → haiku. Code-Review / Refactor / Test schreiben → sonnet. Architektur planen → opus.
4. /clear zwischen unzusammenhaengenden Tasks
Stale Context kostet Tokens auf jeder einzelnen Folge-Message. Wenn Du gerade einen Bug in der Auth-Komponente gefixt hast und jetzt was am Newsletter-Layout machen willst, hat der alte Auth-Kontext null Wert. Aber er wird mit jedem Prompt mitgeschickt.
/clear macht hart Schluss. Vorher /rename druecken damit Du die Session spaeter wiederfindest, dann /resume falls Du zurück musst. Das ist der einzige Befehl mit dem Du wirklich Tokens loswirst, alles andere komprimiert nur.
Mein Rhythmus, alle 60 bis 90 Minuten oder wenn ich Themenwechsel mache. Lieber zu oft als zu selten.
5. /context lesen wer wirklich Platz frisst
/context zeigt was im Context-Window steht. Wer da Platz frisst, gehoert raus. Klassische Verdaechtige sind, MCP-Server die ihre Tools voll laden, riesige Dateien die Claude vor 20 Messages reingezogen hat, lange Tool-Outputs aus frueheren Steps.
Wenn /context zeigt dass ein bestimmter MCP-Server 8000 Tokens belegt obwohl Du ihn diese Session noch nicht benutzt hast, uberleg ob er uberhaupt rein muss. Aus dem .mcp.json rausnehmen oder per Plugin-Toggle deaktivieren ist oft die saubere Loesung.
6. /compact mit eigenen Anweisungen verwenden
Wenn Du nahe ans Limit kommst, fasst Claude Code automatisch zusammen. Das Default-Verhalten ist okay, aber Du kannst Steuern was erhalten bleibt. Beispiel,
/compact Focus on code samples and API usage
Das spart oft die 30 Prozent die wirklich relevant waren. Default-Compaction wirft manchmal genau die Datei-Pfade weg die Du im naechsten Schritt brauchst.
Du kannst Compaction-Anweisungen auch in CLAUDE.md festschreiben damit jeder Compact gleich läuft,
# Compact instructions
When you are using compact, please focus on test output and code changes
7. CLI-Tools statt MCP-Server bevorzugen wenn möglich
Anthropic-Doku sagt es selbst, MCP-Tool-Definitionen werden zwar deferred (nur Namen laden bis ein Tool benutzt wird), aber sobald Du einen Tool-Call machst kommt die volle Definition rein. CLI-Tools wie gh, aws, gcloud, docker brauchen keinen MCP-Server, Claude kann sie ueber Bash aufrufen und der Output ist deterministisch klein.
Wenn Du also wählen kannst zwischen GitHub-MCP-Server und einfach gh pr list ueber Bash, ist Bash oft billiger und schneller. MCP-Server lohnen sich vor allem für komplexe API-Surface (Stripe, Notion, eigene Backends) wo CLI fehlt oder schmerzhaft ist.
8. Auto-Compaction antizipieren statt uberraschen lassen
Claude Code komprimiert automatisch wenn Du nahe ans Context-Limit kommst. Das Problem, die Compaction selbst kostet Tokens und Du verlierst Detail. Wenn Du das frueh genug siehst, kannst Du selber /clear oder gezielt /compact druecken bevor das Auto-Verhalten greift.
/usage zeigt Dir aktuelle Token-Counts. Eine Statusline-Konfiguration die das permanent anzeigt, hilft enorm. Oben in der Anthropic-Doku steht der Hinweis, configure your status line to display it continuously. Macht euch das. Eine Sekunde Setup, spart für immer Surprises.
9. Spend-Limits auf Workspace-Ebene setzen
Wenn Du ueber API laeufst (nicht Pro/Max), kannst Du in der Claude Console Workspace-Spend-Limits setzen. Das ist die einzige harte Bremse. Anthropic enforced Rate-Limits in drei Achsen, RPM (Requests pro Minute), ITPM (Input Tokens pro Minute) und OTPM (Output Tokens pro Minute), pro Modell-Klasse und pro Usage-Tier.
Konkrete Tier-1-Limits laut offizieller Doku, Sonnet 4.x oder Opus 4.x liegen bei 50 RPM mit 30.000 ITPM und 8.000 OTPM. Haiku 4.5 hat 50 RPM mit 50.000 ITPM und 10.000 OTPM. Tier 2 springt auf 1.000 RPM mit 450.000 ITPM bei Sonnet/Opus/Haiku-4.5. Tier 3 sind 2.000 RPM, Tier 4 sind 4.000 RPM. Du wechselst in den naechsten Tier wenn Du den jeweiligen Credit-Schwellenwert erreicht hast (Tier 1 ab 5 USD eingezahlt, Tier 2 ab 40 USD, Tier 3 ab 200 USD, Tier 4 ab 400 USD).
Wichtig für Daily-Driver-Cost-Optimierung, Cache-Reads zaehlen bei den meisten Modellen NICHT gegen Dein ITPM-Limit. Nur input_tokens (nach dem letzten Cache-Breakpoint) und cache_creation_input_tokens werden gezaehlt. cache_read_input_tokens ist frei. Mit 80 Prozent Cache-Hit-Rate bekommst Du also 5x den effektiven Throughput aus dem gleichen Tier-Limit. Workspace-Spend-Limits in der Console setzen, harte Bremse aktiv.
Pro/Max nutzt Plan-Quotas statt Spend-Limits. Wenn Du im Plan bist und reissende Quoten siehst, bedeutet das meistens Du brauchst gar kein Cost-Tooling, Du brauchst Quoten-Disziplin.
Bei Bedrock, Vertex oder Foundry gibt es keine Anthropic-Metriken, da empfiehlt die Doku LiteLLM als Open-Source-Tracker. Nicht von Anthropic auditiert, also bewusst entscheiden.
10. Agent-Teams nur mit Plan einsetzen
Agent-Teams (mehrere Claude Code Instances die parallel arbeiten) skalieren Token-Verbrauch linear mit Team-Groesse. Jeder Teammate hat seinen eigenen Context, laedt CLAUDE.md, MCP-Server, Skills. Das wird teuer schnell.
Defaults laut Anthropic-Doku, Agent-Teams sind aus per Default. Du musst CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1 in settings.json oder Environment setzen. Wenn Du sie nutzt, drei Regeln, Sonnet für Teammates (nicht Opus), Teams klein halten, Teams beenden wenn der Job durch ist (idle Teammates verbrennen weiter Tokens).
Das ist genau der Hebel mit dem aus 30 Dollar pro Tag schnell 200 Dollar werden, wenn man nicht aufpasst.
Was als naechstes
Wenn Du das alles drin hast und trotzdem zu hoch laeufst, schau Dir das Playbook hooks-gegen-halluzinationen an. Falsche Tool-Calls die im Loop laufen sind oft der wahre Token-Killer, nicht das Modell. Und das Recipe 2.5-github-mcp zeigt wie Du MCP-Server schlanker konfigurierst.
Source
- code.claude.com/docs/en/costs (offiziell, abgerufen 2026-04-27)
- code.claude.com/docs/en/commands (offiziell, abgerufen 2026-04-27)
- Frontmatter Field model, github.com/anthropics/claude-code Plugin-Dev Skills (offiziell)
- platform.claude.com/docs/en/api/rate-limits (offiziell, Tier-Tabellen abgerufen 2026-04-27)
- CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS bestaetigt via github.com/anthropics/claude-code Issues #23420, #25375, #29660, #29766, #32368