Jak agenty kodujące naprawdę rozumują

W tekście Harness jest produktem postawiliśmy tezę, że tylko około 1,6% produkcyjnego agenta kodującego to logika decyzyjna AI — część, która „myśli”. Pozostałe 98,4% to rusztowanie. Ta liczba wykonuje ważną pracę: mówi Ci, gdzie wydawać swoją inżynierię. Ale zostawia też wiszące pytanie. Jeśli myślenie to tak cienki skrawek, to co ono właściwie robi tam w środku? Jak agent przerozumowuje swoją drogę od „napraw ten błąd” do poprawnego diffa?

Ten wpis otwiera te 1,6%. Nie dlatego, że to tam włożysz większość wysiłku — bo nie tam — ale dlatego, że nie da się zbudować dobrego harness wokół procesu rozumowania, którego się nie rozumie. A sposób, w jaki agenty rozumują, okazuje się bardziej podatny na kształtowanie i mniej magiczny, niż zakłada większość ludzi.

Rozumowanie to rozmowa ze światem, a nie monolog

Instynkt, który większość ludzi przynosi z chatbotów, mówi, że model „rozumuje”, myśląc mocniej za jednym zamachem — długi wewnętrzny monolog, chain-of-thought, który dochodzi do odpowiedzi. Dla agenta kodującego ten model myślowy jest błędny, a różnica to cała gra.

Dominującym wzorcem jest ReAct — skrót od Reason + Act — i przeplata on trzy ruchy w pętli: Myśl → Działanie → Obserwacja. Agent ma myśl („test pada na wejściu null, więc prawdopodobnie brakuje klauzuli strażniczej”), podejmuje działanie (otwiera plik, uruchamia test), a następnie obserwuje, co rzeczywiście wróciło. Ta obserwacja zasila kolejną myśl. Zamiast rozumować raz i zatwierdzać, agent myśli, dotyka realnego świata, widzi, co jest prawdą, i myśli ponownie.

To ten sam cykl Postrzegaj → Rozumuj → Działaj → Obserwuj, który omawialiśmy w Projektowaniu pętli agentowych działających, gdy śpisz — ale widziany od środka, z punktu widzenia modelu, a nie pętli. I wyjaśnia wynik, który ludzi zaskakuje: słabszy model w dobrej pętli obserwuj-i-popraw rutynowo bije silniejszy model odpowiadający za jednym zamachem. To obserwacja koryguje pewne siebie domysły modelu, zanim staną się błędami. Chain-of-thought halucynuje prawdopodobną historyjkę; ReAct sprawdza tę historyjkę z padającym testem.

Dlaczego obserwacja bije bystrość

Pociągnij za tę nitkę, a znajdziesz nośną ideę: w rozumowaniu agentowym ugruntowanie liczy się bardziej niż surowe IQ pojedynczej myśli.

Czysty model chain-of-thought, który zdecyduje, że funkcja zwraca złą wartość, nie ma jak wiedzieć, że się myli — rozumuje w próżni. Agent, który uruchomi tę funkcję, dostaje z powrotem fakt, a fakt unieważnia domysł. Dlatego tak duża część inżynierii harness jest naprawdę o ulepszaniu obserwacji: czysty wynik testu, precyzyjne komunikaty błędów, informacja zwrotna od type-checkera, padająca asercja wskazująca dokładną linię. Nie czynisz modelu mądrzejszym. Dajesz jego rozumowaniu coś prawdziwego, o co może się oprzeć w każdej turze. Lepsze obserwacje dają szybszą zbieżność i mniej pewnych-ale-błędnych dygresji — różnicę między agentem, który naprawia błąd, a takim, który radośnie przepisuje trzy pliki, które nigdy nie były zepsute.

To także przeformułowuje wzorce o dłuższym horyzoncie. Plan-and-Execute stawia osobnego planistę, który rozkłada kroki, zanim napisany zostanie jakikolwiek kod, co pomaga przy zadaniach zbyt długich, by zmieścić je w jednym oddechu. Reflexion dodaje zwerbalizowaną samokrytykę — agent zapisuje, co poszło nie tak ostatnim razem, i niesie tę lekcję dalej. Oba są, w gruncie rzeczy, sposobami strukturyzowania rozumowania tak, by obserwacja lądowała tam, gdzie może najwięcej pomóc.

Zmuszanie modelu, by argumentował jak logik

Najciekawszy ostatni dowód na to, że rozumowanie da się inżynierować — że nie jest stałą własnością modelu — pochodzi z marcowej pracy Meta z 2026 roku, Agentic Code Reasoning autorstwa Shubhama Ugare i Satisha Chandry. Postawili oni ostre pytanie: czy agent potrafi rozumować o tym, co kod znaczy, bez jego uruchamiania? I odkryli, że to, jak zmusisz go do rozumowania, dramatycznie zmienia odpowiedź.

Ich metoda, rozumowanie półformalne, prowadzi agenta przez trzy zdyscyplinowane kroki zamiast swobodnego chain-of-thought: konstruowanie jawnych przesłanek, śledzenie ścieżek wykonania i wyprowadzanie formalnych wniosków. Sednem jest dyscyplina. Jak ujmują to autorzy, struktura „działa jak certyfikat: agent nie może pominąć przypadków ani stawiać nieuzasadnionych twierdzeń”. Chatbotowi wolno machać rękami; logik musi pokazać każdy przypadek.

Korzyść nie jest subtelna. Przy ocenie, czy dwie łatki są równoważne, dokładność wzrosła z 78% do 88% na wyselekcjonowanych przykładach i osiągnęła 93% na rzeczywistych łatkach wygenerowanych przez agenta. Na RubberDuckBench, benchmarku pytań o kod, rozumowanie półformalne sięgnęło 87% — wzrost o 9 punktów względem standardowego rozumowania agentowego — a lokalizacja usterek też się poprawiła. Ten sam model, ten sam kod. Jedyne, co się zmieniło, to kształt, jaki rozumowanie zostało zmuszone przyjąć. Spraw, by model argumentował jak logik, a nie jak chatbot, a jego ocena kodu wspina się o dwucyfrowe wartości.

Dlaczego to dobra wiadomość — i otwarcie dla Azji Południowo-Wschodniej

Oto praktyczny wniosek, który ląduje tam, gdzie nasze inne wpisy. Gdyby jakość rozumowania była stałą gałką wewnątrz modelu, jedynym sposobem na jej zwiększenie byłoby czekanie na kolejne frontierowe wydanie — grę, w którą może grać garstka laboratoriów. Ale nie jest stała. Ustrukturyzowany protokół rozumowania, podział na twórcę/sprawdzającego, kanał obserwacji dostrojony, by wydobywać właściwe fakty — to wszystko podnosi jakość myślenia bez dotykania wag modelu. Rozumowanie jest w dużej mierze czymś, co inżynierujesz wokół modelu.

To ten sam powód, dla którego wciąż argumentujemy, że era agentowa stoi szeroko otworem dla programistów z Azji Południowo-Wschodniej. Zaprojektowanie dobrego protokołu rozumowania dla konkretnej domeny — jak zweryfikować fakturę w języku khmerskim, jak sprawdzić kambodżańską regułę zgodności, jak prześledzić logikę bankowego zadania wsadowego — to inżynieria oprogramowania i wgląd domenowy, a nie budżet na GPU. Model wynajmuje się po stałej stawce z Kalifornii. Rusztowanie rozumowania, które czyni go niezawodnym na Twoim problemie, jest Twoje do zbudowania, i to dokładnie taki rodzaj starannej, ustrukturyzowanej pracy systemowej, którą ten region robi dobrze.

Co z tego wynieść

Nie traktuj rozumowania modelu jak czarnej skrzynki, do której możesz się tylko modlić. Możesz je kształtować. Daj mu ciaśniejszą pętlę obserwuj-i-popraw. Przeprowadź go przez jawne przesłanki, zamiast pozwalać mu na swobodne skojarzenia. Rozdziel agenta, który proponuje, od tego, który sprawdza. Dostrój kanał obserwacji tak, by prawda przychodziła szybko i jasno.

Te 1,6% to miejsce, gdzie dzieje się myślenie. Ale to, jak dobrze ono myśli, rozstrzyga się w dużej mierze przez te 98,4%, które budujesz wokół niego — a teraz także przez kształt rozumowania, o którego podążanie je prosisz. Model wnosi inteligencję. Ty wnosisz dyscyplinę.