Rachunek to nowe wąskie gardło: ekonomia agentowej AI

Większość rozmowy o agentowej AI dotyczy zdolności — co agenty potrafią, jak są autonomiczne, jak dobrze rozumują. Niemal nic nie dotyczy faktury. To błąd, bo dla każdego zespołu naprawdę uruchamiającego agenty na produkcji wiążącym ograniczeniem w 2026 roku nie jest to, czy agent potrafi wykonać pracę. To, czy stać cię, by mu na to pozwolić. Rachunek to nowe wąskie gardło i zachowuje się zupełnie inaczej niż modele kosztów przeniesione z ery chatbotów.

Oto ta zmiana w jednym zdaniu: generowanie staniało, ale działanie pętli nie. Pojedyncze wywołanie modelu jest tanie i tanieje. Agent to nie pojedyncze wywołanie — to pętla, która wywołuje model raz za razem, ciągnąc za sobą za każdym razem całą nagromadzoną historię. A koszt tej pętli rośnie w sposób, który po cichu rujnuje budżety zbudowane na intuicji kosztu-za-wywołanie.

Podatek od pętli

Zacznij od liczby, która przeformułowuje wszystko. W audycie 30 zespołów produkcyjnych pięciokrokowa pętla agenta kosztowała około 3,2x to, co pojedyncze wywołanie chatbota za tę samą pracę — 0,049 USD stało się 0,158 USD. Nie brzmi to alarmująco, dopóki nie zobaczysz krzywej, na której leży: przy 200 krokach — rutynowej długości sesji autonomicznego debugowania — mnożnik przekracza 100x. Szacunki branżowe stawiają obciążenia agentowe na 10 do 100 razy zużycia tokenów porównywalnej interakcji chatbota.

Dlaczego? Bo każdy krok pętli ponownie przesyła całą nagromadzoną historię — prompt systemowy, definicje narzędzi, każdy wcześniejszy krok i wynik narzędzia. Przy kroku 20 płacisz za przesłanie tego samego promptu systemowego i tej samej historii rozmowy dwadzieścia razy. Praca, którą agent wykonuje, rośnie, ale kontekst, który ponownie czyta, rośnie szybciej, i jesteś rozliczany za to ponowne czytanie co turę.

Audyt czyni to konkretnym. Z typowego rachunku agentowego: 62% idzie na ponownie przesyłany kontekst (tokeny wejściowe, które model już widział), 14% na definicje narzędzi, 11% na właściwy wynik rozumowania, którego chciałeś, 8% na prompty systemowe, a 5% na zmarnowane ponowne próby. Przeczytaj ten rozkład jeszcze raz. To, za co płacisz — faktyczne nowe myślenie agenta — to jedenaście procent rachunku. Większość tego, co wydajesz, to agent ponownie czytający to, co już zna.

Modelowanie tej samej zmiany przez EY z innej strony: interakcja obsługi klienta, która kosztowała około 0,04 USD w 2023 roku jako prosty przepływ wejście-pobranie-odpowiedź, kosztuje około 1,20 USD w 2026 roku, gdy staje się wielokrokową orkiestracją z narzędziami i subagentami. To wzrost 30x za tę samą powierzchowną funkcję — a EY starannie zauważa, że rachunek za tokeny to tylko jedna z siedmiu kategorii kosztów. Infrastruktura, ewaluacja, zarządzanie, zarządzanie zmianą i odzyskiwanie po awariach nie pojawiają się na fakturze dostawcy modelu, ale są równie realne.

Cztery dźwignie, które naprawdę działają

Dobra wiadomość jest taka, że podatek od pętli to problem inżynierski, a nie prawo natury — i ten sam audyt, który go zdiagnozował, wskazuje dźwignie, które działają. Żadna nie wymaga lepszego modelu. Wszystkie to decyzje, które podejmujesz w harness:

Buforowanie promptów (prompt caching). Prompt systemowy i definicje narzędzi są identyczne w każdej turze — więc buforuj je, zamiast rozliczać ponownie. W audycie buforowanie obcięło koszt promptu systemowego o około 88%. To pojedyncza zmiana o najwyższej dźwigni dla większości agentów i jest niemal darmowa we wdrożeniu.
Routing po poziomach modeli. Nie każdy krok potrzebuje twojego najdroższego modelu. Kierowanie czarnej roboty — odczytów plików, prostych edycji, formatowania — do taniego modelu, a zarezerwowanie premium na trudne rozumowanie daje dramatyczne wyniki: podział 80% tani / 20% premium kosztował około 12% przepływu w całości na premium. Ten sam wynik, jedna ósma rachunku.
Przycinanie kontekstu (context pruning). Tu kosztowy obiektyw spotyka się z obiektywem dokładności. Przycięcie tego, co agent niesie — powiedzmy, istotnego fragmentu pliku zamiast całych 8000 tokenów — oszczędza realne pieniądze na pętlę, a jak argumentowaliśmy w inżynierii kontekstu, zwykle czyni agenta też dokładniejszym. Liczba 62%-na-ponownie-przesyłany-kontekst to ten sam problem, który rozwiązuje inżynieria kontekstu; tutaj pojawia się jako pozycja na rachunku. Wytnij context rot, a wytniesz rachunek.
Limity budżetowe na użytkownika. Twardy dzienny pułap (50–100 USD na użytkownika to typowe ustawienie) zamienia rozbieganą pętlę z otwartego zobowiązania w ograniczone, możliwe do odzyskania. To argument o warunku zatrzymania w formie finansowej: nieograniczona pętla nie tylko ryzykuje zły kod, ryzykuje nieograniczoną fakturę.

Te się kumulują. W audycie jeden zespół zastosował je przez trzy tygodnie i sprowadził koszty miesięczne z 87 000 USD do 24 000 USD — cięcie o 73% — bez utraty zdolności. Lekcja jest dosadna: większość rachunków agentowych nie jest wysoka dlatego, że agenty są drogie. Są wysokie, bo nikt nie zaprojektował kosztu.

Furtka open-weight

Jest druga dźwignia, strukturalna, nie taktyczna: być może wcale nie potrzebujesz frontierowego modelu. Do połowy 2026 roku otwarte modele kodujące zamknęły większość luki za ułamek ceny. DeepSeek V4 Flash chodzi za około 0,14 / 0,28 USD na milion tokenów wejścia/wyjścia i osiąga 80,6% na SWE-bench Verified — ustępując czołowemu modelowi własnościowemu jak Claude Opus 4.8 o jakieś osiem punktów, kosztując rzędu dwadzieścia razy mniej za token wyjścia. MiniMax M3 plasuje się przy 0,30 USD za milion tokenów wejścia; GLM-5.1 wychodzi na licencji MIT, którą możesz samodzielnie hostować i dostrajać. Wobec frontierowych cen własnościowych — Opus 4.8 po 5 / 25 USD — otwarte wagi lądują na mniej więcej jednej dziesiątej do jednej dwudziestej kosztu.

Dla sporej części pracy agentowej — mechanicznych 80%, edycji plików, generowania testów i szablonów — osiem punktów różnicy w benchmarku jest niewidoczne, a redukcja kosztu 10–20x jest decydująca. Frontierowy model zarabia na swoją premię na najtrudniejszym rozumowaniu; model open-weight obsługuje wolumen. To znów po prostu routing po poziomach modeli — doprowadzony do swojego logicznego, samodzielnie hostowalnego końca.

Dlaczego to przewaga Azji Południowo-Wschodniej, a nie ograniczenie

Oto część, która najbardziej liczy się dla regionu, i odwraca ona zwykłe ujęcie. Zespół ubogi w kapitał ma rzekomo być w gorszej pozycji kosztowej. W agentowej AI jest odwrotnie — jeśli zespół traktuje koszt jako dyscyplinę inżynierską, a nie rachunek, który przychodzi.

Rozważ tę asymetrię. Dobrze finansowany konkurent może wchłonąć niedbały rachunek agentowy; ma budżet do spalenia, a spalanie go to dokładnie to, co robią niezdyscyplinowane wdrożenia. Mały zespół w Phnom Penh albo Da Nang nie może — i to ograniczenie wymusza dyscyplinę, która okazuje się prawdziwą przewagą. Buforowanie, routing po poziomach, przycinanie kontekstu, twarde limity i otwarte modele do większości pracy pozwalają temu zespołowi uruchamiać te same systemy agentowe za ułamek kosztu — a marża to miejsce, gdzie małe zespoły wygrywają lub giną. Inżynieria, która kontroluje rachunek, to ta sama wolna od GPU umiejętność o wysokiej dźwigni, którą — jak wciąż twierdzimy — region powinien budować: bez klastra, tylko osąd, gdzie idą pieniądze.

I kumuluje się to z suwerennością. Zespół, który potrafi kompetentnie uruchomić samodzielnie hostowany model open-weight, jest nie tylko tańszy — jest niezależny od cennika, limitów i warunków danych zagranicznego dostawcy, co ma ogromne znaczenie dla pracy w lokalnym kontekście nad systemami w języku khmerskim, regionalnej zgodności i wrażliwych danych, które nie powinny opuszczać kraju.

Frontierowe laboratorium chętnie sprzeda ci rozliczaną pętlę i pozwoli jej działać. Czego nigdy nie zrobi, to powie ci, że 62% twojego rachunku to agent ponownie czytający własne notatki, albo że osiem na dziesięć twoich kroków mogłoby działać na modelu kosztującym jedną dwudziestą. To rozliczenie — wiedza, ile agent naprawdę kosztuje, i zaprojektowanie tego w dół — jest pracą. W 2026 roku jest też różnicą między strategią agentową, która się skaluje, a taką, która po cichu doprowadza eksperyment do bankructwa.