Kontext und Tokens, was das Modell sieht
Warum das Modell nach 50 Nachrichten vergisst und was Du dagegen tun kannst.
Was ist ein Token?
Ein Token ist eine Wort-Einheit für das Modell. Grob: 1 Wort = 1 bis 2 Tokens im Deutschen, ein bisschen weniger im Englischen. "Halluzinieren" = 4 Tokens.
Was ist das Kontext-Fenster?
Die maximale Menge Tokens die das Modell auf einmal "sehen" kann. Wie viel Text auf einen Tisch passt. Wenn Du mehr reinschiebst, fällt der aelteste Teil runter.
Typische Groessen (Stand April 2026, ändert sich schnell):
- GPT-5: 128k Standard, 200k via API
- Claude Opus: 1M Tokens im 1M-Context-Modus
- Gemini 2.5 Pro: 2M Tokens
200k Tokens sind ungefähr 400 Seiten Text. 1M sind 2.000 Seiten. Die Zahlen wachsen, was heute das Maximum ist, ist in sechs Monaten vermutlich Standard.
Warum das wichtig ist
In einem langen Chat wird irgendwann der aelteste Teil der Konversation aus dem Kontext geworfen. Das Modell "vergisst" dann was am Anfang besprochen wurde. Das ist kein Bug, das ist die Architektur.
Für Dich heisst das:
- Wenn Du viel Kontext brauchst, erwaehne die wichtigsten Punkte nochmal
- Sehr lange Dokumente zusammenfassen bevor Du sie reingibst
- Bei wirklich komplexen Themen: neue Session starten und mit sauberem Kontext anfangen
Context Cache
Moderne Modelle cachen wiederkehrende Prompts. Wenn Du einen Text-Block (System-Prompt, Dokument) oft wiederholst, wird der gecached, das spart Kosten und Zeit. Das erklären wir in Level 2.
Effort-Level und Token-Budget
Bei Claude Code seit April 2026 gibt es ein zweites Stellrad neben dem Modell: das Effort-Level. Niedrigerer Effort = weniger Tokens für internes Reasoning = günstiger und schneller, aber weniger gründlich. Höherer Effort = mehr Reasoning-Tokens = besser bei komplexen Aufgaben, aber teurer.
Die fünf Stufen seit Opus 4.7 (16. April 2026):
- low: schnelle Antworten, kaum thinking. Gut für simple Lookups, einfache Refactors, Boilerplate-Code.
- medium: Standard-Reasoning. Default für die meisten Use-Cases.
- high: gründliches Reasoning. Bei Architektur-Entscheidungen, Debug-Sessions die Du nicht selbst durchschauen willst, schwierige Migrationen.
- xhigh: neu in Opus 4.7. Zwischen high und max. Für Probleme wo Du wirklich tiefe Analyse brauchst aber max-Kosten vermeiden willst. Claude Code defaultet seit dem Opus-4.7-Release darauf.
- max: maximales Reasoning. Bei wirklich kniffligen Sessions wo Du einmal eine sehr gute Antwort brauchst.
Was kostet das? Bei Opus 4.7 sind die Reasoning-Tokens gleich teuer wie Output-Tokens (25 USD pro Million Tokens). Eine xhigh-Session kann gut 30 bis 60 Prozent mehr Tokens verbraten als eine medium-Session. Auf Max Plan ist das im Flat-Rate, auf API zahlst Du Pro-Token.
Praktischer Tipp: Setze Default auf medium oder high, nutze xhigh oder max gezielt für die schwierigen Aufgaben des Tages. In ~/.bashrc als CLAUDE_CODE_EFFORT_LEVEL=high oder in ~/.claude/settings.json, plus pro Session per Flag override falls nötig. Wenn Du auf Opus 4.7 noch nicht mit max arbeitest aber bei kniffligen Aufgaben das Modell zu oberflächlich antwortet, ist xhigh oft der bessere Mittelweg.
Der Game-Changer
Ab Level 4 lernst Du Memory-Systeme die über den Context hinaus gehen. Das ist der Ausweg aus dem "Modell vergisst" Problem.