Skip to main content

Schluss mit billigem Claude: Vier Grundprinzipien der Token-Ökonomie im Jahr 2026 🇩🇪

April 23, 2026

In Kürze: Token-Ökonomie im Zeitalter der Knappheit

Ihr Claude-Pro-Abo stößt schneller an Grenzen als noch im Januar. Anthropic hat die Obergrenze still und leise neu bepreist, und jeder KI-Anbieter rationiert derzeit Rechenleistung. Wer mit Claude weiterhin so arbeitet wie vor sechs Monaten, erlebt eine böse Überraschung. Dieser Artikel liefert Ihnen vier Prinzipien, die erklären, wie Token-Ökonomie tatsächlich funktioniert. Überwinden Sie das Flatrate-Syndrom und fangen Sie an, Ihr Budget stattdessen bewusst einzusetzen.

 

Image
No More Cheap Claude: Four First Principles of Token Economics in 2026, Separating Professionals from Amateurs - by PST Stefan Wolpers of Berlin-Product-People.com.

 

🗞 Shall I notify you about articles like this one? Awesome! You can sign up here for the ‘Food for Agile Thought’ newsletter and join 35,000-plus subscribers.

Das Ende des billigen Claude und der Aufstieg der Token-Ökonomie

April 2026: Die Subventionen sind vorbei.

Wer ein Claude-Pro-Abo hat und schon vor dem Mittagessen an seine Limits stößt, bildet sich das nicht ein. Anthropic hat am 26. März bestätigt, dass Session-Limits an Werktagen während der Stoßzeiten (5-11 Uhr Pacific Time bzw. 13-19 Uhr GMT) schneller verbraucht werden. Das ist Absicht und kein Fehler. Laut PCWorld werden rund 7 % der Nutzer, „insbesondere in den Pro-Tarifen“, auf Limits stoßen, die sie im Januar 2026 nicht erreicht hätten, und The Register liefert zusätzlichen Kontext zu den Drosselungsmechanismen. Neun Tage später, am 4. April, hat Anthropic Drittanbieter-Tools wie Cline, Cursor und Windsurf von der Nutzung der Abo-Authentifizierung ausgeschlossen und damit Automatisierungs-Workloads auf die verbrauchsbasierte API-Abrechnung gezwungen. Weder das eine noch das andere wurde auf der Anthropic-Startseite angekündigt. Beides tauchte zuerst auf Reddit und X auf.

Anthropic ist nicht knauserig, sondern reagiert auf Marktkräfte: Die GPU-Mietpreise für Nvidias Blackwell-Chips sind innerhalb von zwei Monaten um 48 % gestiegen und erreichten Anfang April 2026 4,08 US-Dollar pro Stunde. CoreWeave hat die Mindestvertragslaufzeit von einem auf drei Jahre verlängert. Diese Zahlen werden weiter steigen, und zwar solange, bis Energieinfrastruktur und Rechenzentrumsausbau hinterherkommen. Die Finanzchefin von OpenAI sagt öffentlich, ihr Unternehmen treffe „gerade einige sehr harte Entscheidungen gegen Dinge, die wir nicht verfolgen, weil wir nicht genug Rechenleistung haben“. Die Infrastruktur ist der Engpass. Jeder große Anbieter rationiert den Zugang über irgendeine Kombination aus Preis, Drosselung bzw. gezielter Verfügbarkeit. Anthropic muss alle drei Hebel nutzen; der konservative Ansatz beim Kapazitätsausbau hat seinen Preis.

Für Ihre Arbeit mit Claude bedeutet das eine Sache: Die Pauschalerfahrung vom Januar 2026 wurde still und leise neu bepreist. Und sie wird weiterhin neu bepreist werden. Effizienz ist kein Nice-to-have mehr. Token-Ökonomie anzuwenden ist zur Pflicht geworden.

Es ist verlockend, darauf mit einer Liste von Tricks zu antworten: Extended Thinking abschalten, Nachrichten bearbeiten statt nachzuhaken, Haiku für einfache Aufgaben nutzen. Diese Taktiken funktionieren, und ich komme später darauf zurück. Aber Taktiken allein sind brüchig: Anthropic veröffentlicht ein Produkt-Update, z. B. Opus 4.7, und ein Trick bricht weg, und der Praktiker rät wieder. Was bleibt, ist das Verständnis des zugrunde liegenden Mechanismus, also der vier Prinzipien, die ihn beschreiben. Jede Taktik, die Sie diesen Monat in einem Substack-Beitrag gelesen haben, lässt sich auf eines dieser vier Prinzipien zurückführen.

Token-Ökonomie-Prinzip 1: Jeder Turn verbraucht alles Vorherige noch einmal

Claude erinnert sich nicht an Ihr Gespräch wie ein menschlicher Kollege. Jedes Mal, wenn Sie eine Nachricht senden, liest Claude das gesamte Gespräch von oben nach unten: Ihre erste Frage, Claudes erste Antwort, Ihre zweite Frage und so weiter. Nachricht 30 bezahlt dafür, die Nachrichten 1 bis 29 noch einmal zu lesen, bevor sie überhaupt mit Ihrer neuen Frage beginnt.

Ein Forschungsteam der Concordia University hat diesen Effekt in einem Multi-Agenten-Coding-System auf Basis von GPT-5 Reasoning direkt gemessen und festgestellt, dass Input-Tokens 53,9 % des gesamten Token-Verbrauchs über 30 Softwareentwicklungsaufgaben hinweg ausmachten. Mehr als die Hälfte des Budgets ging für das wiederholte Einlesen von Kontext drauf, nicht für die Erzeugung neuer Ausgabe. Das genaue Verhältnis variiert je nach Claude-Produkt und Anwendungsfall, der Mechanismus bleibt jedoch derselbe.

Dieser Effekt ist der Grund, warum „Starten Sie einen neuen Chat, wenn sich das Thema ändert“ der am häufigsten wiederholte Ratschlag in jedem Artikel zu diesem Thema ist. Bei dem Ratschlag geht es nicht um Organisation, sondern um Ökonomie.

Token-Ökonomie-Prinzip 2: Das Kontextfenster ist ein gemeinsamer Container mit unsichtbaren Inputs

Sie halten Ihren Prompt für das, was Sie eingeben. Claude sieht etwas viel Größeres.

Jede Datei, die Claude während einer Sitzung liest, bleibt für den Rest dieser Sitzung im Kontext. Jeder Tool-Output, jede Connector-Antwort, jedes Suchergebnis, jedes Artefakt, das Sie vor drei Turns erzeugt haben, der System-Prompt, den Sie nie geschrieben haben, die CLAUDE.md oder Project-Instructions, die Sie einmal hochgeladen und dann vergessen haben, die stillen Ergänzungen des Memory-Features und die gesamte Nachrichtenhistorie: All das teilt sich dasselbe endliche Fenster. Das meiste davon ist für Sie im Interface unsichtbar.

Jenny Ouyang, die über Claude Code schreibt, nachdem sie innerhalb von zwei Monaten eine API-Rechnung über 1.600 US-Dollar erhalten hat, stuft Tool-Call-Ausgaben als den größten Einzelposten im Token-Budget ein. Sie schätzt sie als wichtiger ein als die Gesprächslänge. Eine 10.000-Zeilen-Log-Datei, die Claude frühzeitig in einer Sitzung liest, bleibt für jede folgende Nachricht im Kontext. Auf Claude.ai ist das Äquivalent ein großes PDF, das Sie in den Chat hochgeladen haben. Anthropics eigene Dokumentation zur Token-Zählung zeigt, dass ein 51-seitiges PDF (als Beispiel wird ein Quartalsbericht von Tesla bei der SEC verwendet) mit rund 119.000 Tokens zu Buche schlägt, also etwa 2.300 Tokens pro Seite. Ein Standard-JPEG-Bild liegt bei rund 1.550 Tokens für ein typisches Foto. Laden Sie dasselbe 15-seitige PDF in vier verschiedene Chats hoch, weil Sie vergessen haben, dass Sie es bereits einmal hochgeladen und dafür viermal bezahlt haben.

Paweł Huryn, der ein Open-Source-Dashboard gebaut hat, das Claude-Code-Transkripte lokal liest, schreibt, dass /usage die Tokens nicht nach Modell, Projekt oder Sitzung aufschlüsselt. Sie stoßen an ein Limit und haben keine direkte Möglichkeit, zu sehen, was es ausgelöst hat. Huryns Dashboard zeigte auf seinem Account einen Tagesspitzenwert von 700 Millionen gecachten Tokens, der sich als Bug bei Anthropic herausstellte, nicht als seine Nutzung. Ohne das Dashboard hätte er es nicht bemerkt.

Auch was Claude schreibt, zählt. Ausführliche Antworten, Extended-Thinking-Ausgaben, erzeugte Artefakte und die Ergebnisse von Research-Sessions verbrauchen das Budget auf dem Rückweg. Danach werden sie Teil der Gesprächshistorie, die im nächsten Turn wieder gelesen wird. Output-Tokens werden in Anthropics aktueller API über Opus, Sonnet und Haiku hinweg genau zum fünffachen Satz von Input-Tokens abgerechnet. Im Abo versteckt sich dieser Kostenfaktor im Nutzungsmesser, aber der Mechanismus ist derselbe: Sie bezahlen für eine 2.000-Wörter-Antwort, die Sie eigentlich nicht brauchten, mehrfach, einmal beim Schreiben und einmal bei jedem folgenden Turn, der sie wieder einliest.

Das ist die Situation, in der Ihr Publikum arbeitet: Der Container ist geteilt; der Großteil seiner Inhalte ist unsichtbar, und die Werkzeuge zur Inspektion sind nur für API-Nutzer verfügbar, die bereit sind, sie selbst zu bauen. Pro- und Max-Abonnenten fliegen im Blindflug.

Token-Ökonomie Prinzip 3: Stabiler Kontext ist billig, veränderlicher Kontext ist teuer

Anthropics Caching-System gewährt einen großen Rabatt auf Kontext, der über Anfragen hinweg identisch bleibt. Cache-Reads kosten rund 10 Prozent des Basispreises für Input-Tokens. Cache-Writes kosten 25 Prozent mehr als der Basis-Input, werden einmalig bezahlt und über jeden weiteren Treffer amortisiert. Die Standard-Lebensdauer des Caches beträgt fünf Minuten und lässt sich gegen Aufpreis auf eine Stunde verlängern.

Die Caching-Hierarchie verarbeitet Anfragen in folgender Reihenfolge: zuerst Tools, dann System-Prompt, dann die Nachrichtenhistorie. Eine Änderung früh in dieser Reihenfolge invalidiert alles, was danach folgt. Ordnen Sie Ihren System-Prompt um, fügen Sie einen neuen MCP-Server hinzu und laden Sie eine neue Datei in Ihr Projekt: Das gecachte Präfix bricht. Die nächste Anfrage baut den Cache vom ersten geänderten Byte an zu vollem Kostensatz neu auf.

Dieser Mechanismus erklärt, warum dieselbe Aufgabe an zwei verschiedenen Tagen unterschiedlich teuer sein kann. Sie waren 30 Minuten beim Kaffee weg. Der Cache ist abgelaufen. Ihre nächste Nachricht hat den gesamten Kontext zum Write-Kostensatz neu aufgebaut, nicht zum Read-Kostensatz. Piunikaweb berichtet, dass Thariq Shihipar von Anthropic einige der extremen Session-Verbrauchsfälle, die Nutzer Ende März gemeldet haben, auf „teure Prompt-Cache-Misses“ zurückführte, wenn lange Gespräche mit großen Kontextfenstern fortgesetzt werden.

Auf Claude.ai können Sie keine eigenen Cache-Breakpoints festlegen. Was Sie tun können, ist, sich so zu verhalten, dass Caching funktioniert:

  • Halten Sie Ihren persistenten Kontext (Project-Instructions, About-me-Dateien, CLAUDE.md) kurz und stabil.
  • Ordnen Sie hochgeladene Dateien nicht um.
  • Machen Sie mitten in intensiver Arbeit keine langen Pausen.
  • Beenden Sie eine Sitzung, bevor sie vom Thema abdriftet.

Claude Projects verdienen eine gesonderte Betrachtung, weil die meisten Artikel sie falsch erklären. In kostenpflichtigen Tarifen nutzen Claude Projects Retrieval-Augmented Generation (RAG), aber nur, wenn Ihr hochgeladenes Wissen sich dem Limit des Kontextfensters nähert oder es überschreitet, das bei rund 200.000 Tokens liegt. Anthropic veröffentlicht den genauen Auslösepunkt nicht, und dieser kann sich ändern. Unterhalb dieser Schwelle wird jede Datei im Projekt für jeden einzelnen Prompt in den Kontext geladen. Oberhalb davon holt Claude nur die relevanten Teile, und im Interface erscheint ein visueller Indikator. Die praktische Folge: Wenn Sie unterhalb der Schwelle sitzen, sind weniger und kürzere Projektdateien strikt besser, denn Sie zahlen bei jedem Turn für alle. Wenn Sie oberhalb der Schwelle sitzen, können Sie mehr Material hinzufügen, ohne dass die Kosten linear steigen. Die Ratschläge, die Claude Projects als automatische Effizienzmaschinen darstellen, sind für die meisten Pro-Nutzer falsch. Deren Projekte enthalten ein paar Style Guides und Referenzdokumente und liegen weit unter der Schwelle.

Der schlechteste Ort liegt knapp unterhalb der Schwelle. Ein Projekt nahe der 200.000-Token-Linie zahlt bei jedem Prompt die vollen Kosten für jede Datei, ohne die Retrieval-Effizienz, die einsetzt, sobald RAG aktiviert wird. Nennen Sie dies das Tal des Todes. Wenn Sie sich dort wiederfinden, haben Sie drei sinnvolle Optionen:

  • Trimmen Sie das Projekt aggressiv auf ein Viertel der Schwelle, damit die Kosten pro Prompt im Rahmen bleiben. Trimmen ist richtig, wenn der Großteil Ihrer Arbeit auf einem kleinen, stabilen Set an Referenzen aufbaut.
  • Polstern Sie das Projekt mit tatsächlich nützlichem Referenzmaterial auf, um die Schwelle zu überschreiten und den RAG-Modus auszulösen. Polstern ist richtig, wenn Sie eine wirklich große Wissensbasis haben, aus der Claude sitzungsübergreifend schöpfen muss.
  • Oft der beste Zug: Partitionieren. Spalten Sie ein überladenes Projekt in mehrere aufgabenspezifische Projekte auf. Ein Marketing-Projekt mit 180.000 Tokens aus Brand Voice, Social-Copy-Richtlinien und Wettbewerbsrecherche ist in Wahrheit drei Projekte, die sich als eines tarnen. Trennen Sie sie, und Sie bleiben in jedem Projekt weit unter der Schwelle, und Claude liest die Wettbewerbsrecherche nicht mehr jedes Mal neu, wenn Sie einen Tweet schreiben. Partitionieren ist richtig, wenn der Inhalt des Projekts verschiedenen Aufgaben dient, die einander selten brauchen.

Es ist hingegen nicht zu rechtfertigen, das Claude Projekt an der Schwellenlinie treiben zu lassen und für minimale Effizienz maximale Kosten zu zahlen.

Token-Ökonomie-Prinzip 4: Knappheit ist strukturell, nicht zyklisch

Die großzügigen Pauschalpreise waren das Marketing der Marktanteilsgewinnung. Sie waren nie der Dauerzustand.

Tomasz Tunguz, ein Venture-Capitalist, der über KI-Infrastruktur schreibt, nennt das, was gerade passiert, „den Beginn der Knappheit in der KI“. Er benennt fünf Kennzeichen:

  • Beziehungsbasierter Vertrieb (SOTA-Modelle werden privilegierten Kunden vorbehalten),
  • KI an den Meistbietenden,
  • Verfügbarer, aber langsamer Zugang,
  • Inflationäre Preise und
  • Erzwungene Diversifikation hin zu kleineren oder selbst gehosteten Modellen.

Zitat: „The age of abundant AI is over, and it will remain so for years.“

Die PYMNTS-Berichterstattung zum selben Zeitraum beschreibt das als „KI-Rationierung“ und weist darauf hin, dass Google, Anthropic und andere gleichzeitig explizite tägliche Prompt-Obergrenzen veröffentlichen, wo früher vage Zugangsformulierungen standen. Anthropics Sperrung von Drittanbieter-Abo-Routing am 4. April 2026 passt in dieses Muster: Der Abo-Zugang wird aktiv als Retail-Produkt verteidigt, und Arbitrage über Automatisierungswerkzeuge wird unterbunden.

Ihr Pro-Abo im April 2026 ist nicht mehr dasselbe Produkt wie Ihr Pro-Abo im Januar 2026. Der Marketingtext ist derselbe, aber die ökonomische Realität dahinter hat sich verändert. Wenn Ihre Arbeit mit Claude auf der Januar-Annahme basierte, läuft sie jetzt auf geliehener Zeit. Diese Realität verändert die Frage, die der Nutzer sich stellen sollte.

Die alte Frage lautete: „Wie spare ich Token?“ Diese Frage behandelt Token als zu minimierende Kosten. Die nützlichere Frage lautet: „Wie hoch ist der Intelligenzertrag pro Token?“ Jeder Token, den Sie ausgeben, sollte Intelligenz kaufen, die den Preis wert ist. Fünfzigtausend Token, um eine Routine-E-Mail zu entwerfen, die auch eine Vorlage hätte produzieren können, sind ökonomisch unsinnig, egal ob Sie an Ihr Limit stoßen oder nicht. Fünftausend Token, um vor einem schwierigen Gespräch eine komplexe Anreizstruktur zu entschlüsseln, bringen einen hohen Ertrag. Die Disziplin heißt nicht „weniger Token verbrauchen“. Die Disziplin heißt, zu wissen, was Sie kaufen.

In einem Knappheitsregime ist dieses Urteil das, was einen professionellen Nutzer vom Konsumenten unterscheidet.

Image
No More Cheap Claude: Four First Principles of Token Economics in 2026, Separating Professionals from Amateurs - Age-of-Product.com

Das Sichtbarkeitsproblem

Knappheit plus Intransparenz erzeugt Angst, und das ist die Situation, in der Ihr Publikum arbeitet. Pro- und Max-Abonnenten haben keine Token-Aufschlüsselung pro Prompt. Keine Echtzeit-Nutzungsanzeige. Keine Möglichkeit, zu wissen, ob eine bestimmte Nachricht den Cache getroffen oder verfehlt hat. Das einzige Signal ist der Nutzungsmesser, der in diskreten Schritten bewegt wird und sich an einem rollierenden Zeitplan orientiert, der je nach Tageszeit variiert. Sie können nicht messen, was Sie nicht sehen.

Klassische Optimierungsratschläge setzen Instrumentierung voraus: Erst messen, dann die wirkungsstärksten Bereiche optimieren. Dieser Rat ist solide für API-Nutzer mit Dashboards und für produktive LLM-Anwendungen, in denen ein Team Prompt-Varianten per A/B-Test prüfen kann. Er gilt nicht für einen Produktmanager, der Cowork im Pro-Tarif nutzt. Diese Nutzer können nicht messen. Was ihnen bleibt, ist informiertes Standardverhalten. Gewohnheiten, die den Nutzungsmesser unter der Wasserlinie halten, ohne Instrumente zu verlangen.

Das bringt mich zurück zu meiner Lieblingsbehauptung: Hier geht es nicht um Optimierung im ingenieurtechnischen Sinn der Token-Ökonomie, sondern um menschliches Urteilsvermögen.

Das Gegenargument und warum es teilweise richtig ist

Kurz vorab, bevor ich das Gegenargument entkräfte: Einem LLM Kontext zu geben ist kein Planen. Es heißt, dem Modell das Material zu geben, mit dem es überhaupt arbeiten kann. Was Sie in diesem Material machen, bleibt iterativ, komplex und agil. Context Engineering steckt das Problem ab; es legt die Lösung nicht fest.

Es gibt ein ernstzunehmendes Gegenargument zu allem, was in diesem Artikel über Token-Ökonomie steht. Es lautet ungefähr so: Tokennutzung zu optimieren ist vorzeitige Optimierung. Der eigentliche Engpass Ihrer Arbeit mit Claude ist die Qualität Ihres Denkens, nicht die Anzahl Ihrer Token. Komprimieren Sie Ihre Prompts, sonst verwirren Sie das Modell, erhalten schlechtere Antworten und verbrauchen bei Wiederholungsversuchen mehr Token. Qualität zuerst, Kosten zweitens.

Das Gegenargument ist teilweise richtig. Schroffe oder unklare Prompts führen zu schlechterer Arbeit. Ein vager Prompt aus 15 Wörtern, der Claude dazu zwingt, drei Rückfragen zu stellen, kostet in Summe mehr als ein präziser Prompt mit 60 Wörtern, der beim ersten Versuch funktioniert. Vorzeitige Optimierung ist real, und auf eine Metrik zu optimieren, die Sie nicht sehen können, ist ein Rezept für Scheinersparnis. Streichen Sie einem Prompt nicht im Namen der Token-Hygiene den Kontext, wenn dieser Kontext tragend war.

In einem Punkt liegt das Gegenargument falsch: In einem Knappheitsregime sind klares Denken und disziplinierter Token-Einsatz dieselbe Fähigkeit, nicht zwei konkurrierende. Ein gut formuliertes Problem verbraucht weniger Tokens, weil Klarheit selbst kompressiv wirkt. Ein Entwickler, der Claude effizient nutzt, spart keine Abkürzungen. Er demonstriert genau das Entwicklungsurteilsvermögen, das Senior-Entwickler schon immer gezeigt haben: das Problem verstehen, bevor man es formuliert, sauber zerlegen, den richtigen Kontext liefern und nicht mehr, den Output kritisch bewerten. Die Zahl der Token ist ein Nebeneffekt klaren Denkens. Oder, anders gesagt: Das Denken ist der eigentliche Zweck der Übung.

Dieser Ansatz ist für Ihr Publikum wichtig, weil er die Frage neu rahmt. Token-Disziplin ist keine durch Knappheit erzwungene Sparsamkeit. Sie ist ein beobachtbares Signal professioneller Kompetenz im Umgang mit KI, genauso wie Scope-Disziplin ein Signal professioneller Kompetenz im Sprint Planning ist.

Urteilsvermögen als professionelle Antwort

Sie haben dieses Muster in anderen Domänen schon gesehen: aus Pauschale bzw. Flatrate wurde zum Verbrauch, aus Großzügigkeit wurde Gatekeeping. Das Internet ging von unbegrenzt auf gedeckelt. Enterprise-Software ging von Site-Lizenzen zu Seat-Pricing über. Das Muster kam immer mit demselben Signal: Das vorherige Modell hatte Wachstum subventioniert, das Wachstum verlangsamte sich, und die Ökonomie musste an die Oberfläche.

Bei KI ist es jetzt so weit. Die Antwort, die wirkt, ist dieselbe, die in früheren Zyklen gewirkt hat: Entwickeln Sie Urteilsvermögen über die Ressource, bevor Sie dazu gezwungen werden. Lernen Sie Token-Ökonomie.

Vier Praktiken, nach Prinzipien gruppiert, verdienen es, zur Gewohnheit zu werden:

Prinzip 1 (jeder Turn verbraucht alles Vorherige noch einmal): Ein Thema pro Chat. Starten Sie ein neues Gespräch, wenn der Gegenstand wechselt. Am Ende einer substanziellen Sitzung bitten Sie Claude, eine kurze Notizdatei mit den Entscheidungen und den nächsten Schritten zu erstellen. Starten Sie die nächste Sitzung, indem Sie diese Datei laden. Sie nehmen genau das mit, was zählt, und lassen den Rest zurück. (Natürlich können Sie dafür auch einen Skill schreiben, so wie ich es getan habe.)

Prinzip 2 (unsichtbare Inputs teilen sich den Container): Laden Sie keinen Kontext, den Claude nicht braucht. Wählen Sie nur die Projektdateien aus, die für die aktuelle Aufgabe relevant sind. Schalten Sie Search, Connectors und Extended Thinking ab, wenn Sie sie nicht benötigen. Wandeln Sie PDFs und Screenshots nach Möglichkeit vor dem Hochladen in reinen Text um. Wenn Sie Claude eigene Dateien für Sie durchlesen lassen, nutzen Sie entweder ein Skript oder das Dateisystem direkt. Claude muss beim Lesen nicht in der Schleife sein. Für längere Ausgaben nutzen Sie Skeleton-of-Thought: Bitten Sie Claude zuerst um die Gliederung und die Kernpunkte, prüfen Sie diese und erweitern Sie dann nur die Abschnitte, die Sie tatsächlich benötigen, idealerweise in einem neuen, sauberen Chat. So behandeln Sie das Token-Budget als chirurgisches Werkzeug und nicht als Feuerwehrschlauch, und das kostet weit weniger als ein 2.000-Wörter-Bericht, den Sie dann lesen, korrigieren und teilweise wegwerfen müssen. Wenn Sie kurze Ausgaben brauchen, schränken Sie sie explizit ein: „Top-drei-Bullet-Points, keine Kommentare“, „nur die Tabelle, keine Einleitung“. Claude tendiert standardmäßig zur Gründlichkeit; aber Gründlichkeit hat ihren Preis, und Sie zahlen ihn doppelt, einmal bei der Erzeugung der Antwort und einmal bei jedem folgenden Turn, der sie wieder einliest.

Prinzip 3 (stabiler Kontext ist billig): Halten Sie Ihre Projektanweisungen und den persistenten Kontext kurz. Wenn Ihre About-me-Datei und die Projektinstruktionen mit der Zeit auf Tausende Wörter angewachsen sind, so trimmen Sie diese aggressiv. Die Kosten für dieses Gewicht fallen bei jedem einzelnen Prompt an. Ordnen Sie Dateien nicht mitten in einer Sitzung um und laden Sie sie nicht neu hoch. Erledigen Sie intensive Arbeit in einer Sitzung, nicht über eine Zwei-Stunden-Lücke verteilt, die den Cache killt.

Prinzip 4 (Knappheit ist strukturell): Standardmäßig mit Haiku beginnen, bei Bedarf auf bessere Modelle eskalieren. Lassen Sie Logik- und Strukturprüfungen zuerst von Haiku durchführen, da Geschwindigkeit und Quota kaum ins Gewicht fallen. Sobald der Ansatz steht, verschieben Sie den geschärften Prompt für den Großteil des Tages auf Sonnet und reservieren Sie Opus für Fälle, in denen Sonnet sichtbar gescheitert ist oder das Reasoning wirklich schwierig ist. Jede Sitzung mit Opus zu starten, ist ein Luxus aus 2024, der das Stoßzeiten-Regime von 2026 nicht überlebt. Planen Sie im Chat, führen Sie in Cowork oder Artifacts aus, denn die teuren Oberflächen sollten nur die Arbeit erledigen, die sie wirklich benötigen. Wenn Sie Automatisierungen im Zeitplan laufen lassen, verlagern Sie sie in Nebenzeiten. Der Aufpreis für ein Max-Abo kann sich leicht durch eine einzige Woche auszahlen, in der Sie im Pro-Tarif nicht an Limits stoßen.

Beachten Sie, was diese Vorschläge nicht sind: Sie sind keine Hacks. Sie sind keine Checkliste, die Sie bis Montag abhaken. Sie sind die professionellen Standards von jemandem, der verinnerlicht hat, dass die Maschine, mit der er arbeitet, ein endliches, unsichtbares und aktiv schrumpfendes Budget hat, und der beschlossen hat, innerhalb dieser Realität zu arbeiten statt gegen sie.

Urteilsvermögen ist eine menschliche Sache; das Werkzeug ist neutral, aber Ihre Kompetenz mit dem Werkzeug ist es nicht.

Token-Ökonomie: Fazit

Picken Sie sich aus diesem Artikel eine Token-Ökonomie-Praktik heraus und testen Sie diese diese Woche. Mein Vorschlag: die Notizdatei am Sitzungsende. Bitten Sie Claude am Ende Ihrer nächsten echten Arbeitssitzung mit Cowork oder Chat darum, zusammenzufassen, was Sie entschieden haben, was noch offen ist und was der nächste Schritt ist. Speichern Sie die Ausgabe. Starten Sie Ihre nächste Sitzung damit. Die Praxis kostet neunzig Sekunden pro Sitzung und bricht mit der teuersten Gewohnheit aus Prinzip 1: eine komplette, ausufernde Unterhaltung in den nächsten Tag zu tragen, nur weil sie da ist.

Machen Sie das einen Monat lang. Dann kommen Sie zurück und sagen Sie mir, ob sich der Nutzungsmesser anders verhält.

Übrigens eignet sich diese Praxis perfekt zur Erstellung eines Skills. Ich habe das schon vor einem Monat gemacht.

 


What did you think about this post?

Comments (0)

Be the first to comment!