Harness, który przepisuje sam siebie

Przez rok stawialiśmy jeden argument wciąż na nowo: harness jest produktem. Model to cienki skrawek, który myśli; rusztowanie wokół niego — prompty, narzędzia, weryfikacja, odzyskiwanie — to miejsce, gdzie naprawdę żyje niezawodność. Addy Osmani ujmuje tę samą ideę w jednym zdaniu: harness to „rusztowanie, które zaciska się za każdym razem, gdy agent się poślizgnie”.

Zatrzymaj się nad tą frazą — zaciska się za każdym razem, gdy agent się poślizgnie — bo do niedawna tym, co dokonywało zaciskania, zawsze był człowiek. Inżynier obserwował, jak agent zawodzi, diagnozował awarię i poprawiał rusztowanie. W połowie 2026 roku nowa klasa badań zadała oczywiste następne pytanie: a co, gdyby agent zaciskał własny harness? Bez człowieka w pętli, bez mądrzejszego modelu do skopiowania — tylko agent, badający własne porażki i przepisujący rusztowanie wokół siebie. To self-harness, i jest to najbardziej zgodna z naszą marką idea, jaką omawialiśmy przez cały rok: pętla zwrócona do wewnątrz.

Czym właściwie jest self-harness

Najjaśniejszą demonstracją jest czerwcowa praca z arXiv z 2026 roku, Self-Harness: Harnesses That Improve Themselves. Metoda to trójetapowa pętla, a jej elegancja tkwi w tym, jak przyziemnie brzmi każdy etap:

Wydobywanie słabości (Weakness Mining) — agent czyta własne ślady wykonania i znajduje powtarzalne wzorce porażek właściwe dla tego, jak się zachowuje. Nie „to jedno zadanie się nie udało”, lecz „wciąż zapominam zweryfikować, że zapis pliku się powiódł, zanim ruszę dalej”.
Propozycja harness (Harness Proposal) — generuje garść konkretnych, wykonywalnych poprawek wymierzonych w te słabości: podrasowany prompt systemowy, wrapper narzędzia dodający kontrolę bezpieczeństwa, wstrzyknięty krok walidacji, lepszy szablon planowania.
Walidacja propozycji (Proposal Validation) — testuje każdą propozycję na zadaniach odłożonych na bok i zachowuje tylko te zmiany, które poprawiają wyniki bez psucia tego, co już działało.

Zauważ, co jest tu przepisywane. Nie wagi modelu — harness. Prompt systemowy, wrappery narzędzi, kroki walidacji, rusztowania planowania. Dokładnie te warstwy, o których mówi Osmani, gdy stwierdza, że „każdy komponent harness koduje założenie o tym, czego model nie potrafi sam”. Self-harness pozwala modelowi odkryć te założenia samodzielnie i zapisać je jako kod.

Ujęcie z tej pracy to niemal manifest: „Model powinien umieć rozpoznawać i naprawiać własne systematyczne słabości, a nie polegać na mądrzejszym modelu, który powie mu, co jest nie tak”.

Liczby nie są subtelne

To mogłaby być urocza idea, która niczym nie rusza. Nie jest. Na Terminal-Bench 2.0 — 89 rzeczywistych zadań z ML, systemów, bezpieczeństwa i biologii — te same trzy modele, bez zmiany wag, poprawiły się dramatycznie, gdy każdemu pozwolono przepisać własne rusztowanie:

MiniMax M2.5: 40,5% → 61,9%
Qwen3.5-35B-A3B: 23,8% → 38,1%
GLM-5: 42,9% → 57,1%

Względny skok o 33–60%, z niczego poza lepszym rusztowaniem, które model napisał sobie sam. Równoległy nurt badań stawia ten sam punkt od strony rankingów: AutoAgent, otwartoźródłowy meta-agent, który autonomicznie dostraja prompty, narzędzia i orkiestrację agenta zadaniowego, sięgnął #1 na SpreadsheetBench (96,5%) i zdominował TerminalBench — bijąc każde ręcznie zinżynierowane zgłoszenie — po mniej więcej 24 godzinach samooptymalizacji. Harness, który ludzie dostrajali miesiącami, agent dorównał i przewyższył w jedną noc.

To najmocniejszy jak dotąd dowód na tezę, do której wciąż wracamy. Jeśli model może zyskać 50% na trudnym benchmarku bez zmiany ani jednej wagi, to wartość nigdy nie tkwiła tylko w wagach. Tkwiła w harness — a teraz nawet budowanie harness jest automatyzowalne.

Dwie dźwignie i dlaczego człowiek wciąż trzyma jedną

Warto być precyzyjnym co do tego, co się poprawia, bo druga praca z 2026 roku — SIA: Self-Improving AI — rysuje to rozróżnienie czysto. Są dwie dźwignie, które możesz pociągnąć w agencie. Możesz zaktualizować harness (narzędzia, prompty, logikę ponawiania — jak model szuka i działa) albo zaktualizować wagi (intuicję domenową modelu). Zdanie z SIA to najczystsze podsumowanie w literaturze: „Aktualizacje harness czynią model agentowym, kształtując, jak szuka i działa, podczas gdy aktualizacje wag budują intuicję domenową, której żaden prompt ani rusztowanie nie wpoi”.

Self-harness automatyzuje pierwszą dźwignię — a to ta, która nie potrzebuje klastra GPU, bo to oprogramowanie, a nie trening. Ale oto część istotna dla każdego, kto martwi się, że to wypisuje ludzi z opowieści: samodoskonalący się harness optymalizuje ku celowi, który mu dano. Wydobywa słabości względem benchmarka, który ktoś wybrał. Waliduje propozycje wobec odłożonych zadań, które ktoś zdefiniował. Akceptuje zmiany poprawiające metrykę, którą ktoś uznał za właściwą metrykę.

Innymi słowy, samodoskonaląca się pętla wciąż działa wewnątrz ramy budowanej przez człowieka: cel, evals, definicja „gotowe”, guardrails na to, co agentowi wolno zmieniać. Pisaliśmy wcześniej, że zła pętla po prostu szybciej wypuszcza zły kod — a samodoskonalący się harness optymalizujący wobec złego eval poprawia się szybciej w złym kierunku. Człowiek przesuwa się o poziom wyżej, od dostrajania rusztowania do określania, co dobre rusztowanie w ogóle znaczy. Ta praca się nie kurczy. Pożyczając znów od Osmaniego: harnessy „nie kurczą się, lecz przesuwają”. Tak samo praca inżyniera.

Dlaczego to dobra wiadomość dla Azji Południowo-Wschodniej

Za każdym razem, gdy granica się przesuwa, idzie za nią to samo niespokojne pytanie: czy to zamyka drzwi przed programistami spoza wielkich laboratoriów? Self-harness robi coś przeciwnego.

Tym, co jest automatyzowane, jest ręczne dostrajanie rusztowania — powtarzalna, specyficzna dla modelu mozolna robota obserwowania śladów i łatania promptów. Tym, co nie jest automatyzowane i być nie może, jest wybór celu, projektowanie evals, kodowanie wiedzy domenowej i ustawianie guardrails. To metainżynieria, i nadal jest inżynierią: staranne, ustrukturyzowane myślenie systemowe, takie, które potrzebuje dobrych programistów i głębokiego rozumienia problemu, a nie stumilionowego treningu.

To ląduje dokładnie tam, gdzie wciąż lądujemy. Samodoskonalący się harness potrafi dostroić się tak, by przejść Twój benchmark — ale tylko jeśli ktoś zbudował benchmark, który ujmuje, co znaczy poprawnie dla dokumentu w języku khmerskim, dla kambodżańskiej reguły zgodności, dla zapisów spółdzielni rolniczej. Frontierowe laboratorium może wręczyć Ci model, który przepisuje własne rusztowanie. Nie może wręczyć Ci definicji „gotowe” dla problemu, którego nigdy nie widziało. Ta definicja to wiedza lokalna, a wiedza lokalna to pozycja, której laboratoria nie zbudują z Kalifornii.

Co z tego wynieść

Jeśli budujesz z agentami, zacznij projektować z myślą o harnessach, które ulepszają same siebie — ale inwestuj własny wysiłek o poziom wyżej: w evals, które definiują poprawność, w guardrails, które ograniczają, co wolno zmieniać, i w wiedzę domenową, której żaden samodoskonalacz nie wymyśli. Pozwól agentowi zaciskać rusztowanie. Ty decydujesz, ku czemu je zaciska.

Harness zawsze był rzemiosłem. Teraz harness potrafi przepisać sam siebie — a rzemiosło przesuwa się ku decydowaniu, czym jest dobry harness. Model wnosi zdolność. Self-harness wnosi dostrajanie. Ty wnosisz osąd, dla czego warto dostrajać.