Harness jest produktem: dlaczego 98,4% agenta AI to nie model

Jest pewna liczba, która powinna zmienić sposób, w jaki myślisz o budowaniu z AI, a niemal nikt poza ludźmi piszącymi kod agentów jeszcze jej nie przyswoił.

Gdy badacze z MBZUAI przeszli przez źródła Claude Code — około 1884 plików i pół miliona linii — i posortowali to, co znaleźli, podział okazał się zaskakujący. Około 1,6% produkcyjnego agenta kodującego to logika decyzyjna AI. Model, prompty, ta część, która „myśli”. Pozostałe 98,4% to harness: kod, który karmi model kontekstem, uruchamia jego narzędzia, waliduje wyniki, ponawia po awariach, zarządza pamięcią i decyduje, kiedy praca jest skończona. Cztery różne zespoły zbudowały cztery różne agenty i wszystkie zbiegły się mniej więcej do tego samego kształtu.

Zatrzymaj się na chwilę nad tą proporcją. To, o czym wszyscy mówią — model — to cienki skrawek. To, o czym prawie nikt nie mówi — harness — to praktycznie cały produkt. Dla firmy nazwanej od pętli, którą harness uruchamia, to nie jest niespodzianka. Ale to najwyraźniejszy jak dotąd dowód na coś, co argumentujemy przez cały rok: model to towar; harness to rzemiosło.

Czym właściwie jest harness

„Harness” stał się jednym z tych słów używanych luźno, więc doprecyzujmy. Harness to wszystko owinięte wokół modelu, co zamienia silnik uzupełniania tekstu w coś, co potrafi wykonać realną pracę bez człowieka wpisującego każdy krok.

Konkretnie, harness odpowiada za:

Składanie kontekstu — decydowanie, co model widzi w każdej turze: zadanie, istotne pliki, wcześniejsze wyniki, definicje narzędzi. Zrób to źle, a najmądrzejszy model na świecie da Ci pewny siebie nonsens.
Wykonywanie narzędzi — faktyczne uruchomienie polecenia w powłoce, edycję pliku, wywołanie API i przekazanie wyniku z powrotem. Typowane schematy narzędzi, jak zauważa literatura o architekturze agentów, ostro tną liczbę zniekształconych wywołań.
Pętlę — reason → act → observe, raz za razem, aż cel zostanie osiągnięty. To tutaj żyje loop engineering.
Weryfikację i zatrzymanie — naprawdę trudna część. Skąd system wie, że praca jest poprawna, i kiedy wolno mu przestać? Przechodzący test, zielone CI, model-recenzent dający akceptację.
Guardrails — sandboxing, żeby rozbiegany agent nie zniszczył systemu plików, bramki code review przed wdrożeniem zmian, oddzielenie modelu, który pisze, od modelu, który sprawdza.
Pamięć i odzyskiwanie — co przetrwa między turami i sesjami oraz jak system podnosi się po awarii lub anulowanym żądaniu.

Nic z tego nie jest modelem. Wszystko to jest różnicą między demem a produktem.

Dlaczego model wciąż maleje (jako udział)

Oto część przeciwna intuicji: w miarę jak modele stają się lepsze, harness staje się ważniejszy jako udział w pracy, nie mniej ważny.

Bardziej zdolny model wchłania część rusztowania — zeszłoroczne staranne łańcuchowanie promptów wymuszające planowanie krok po kroku jest w tym roku zachowaniem natywnym, granica, o której pisaliśmy w Modele kontra agenty. Ale bardziej zdolnemu modelowi powierza się też zadania dłuższe, bardziej ryzykowne, bardziej autonomiczne. A im dłuższe i bardziej autonomiczne zadanie, tym bardziej potrzebuje dokładnie tego, co daje harness: niezawodnego kontekstu przez wiele tur, weryfikacji, której można ufać bez nadzoru, guardrails na wypadek, gdy coś pójdzie nie tak, odzyskiwania, gdy padnie o trzeciej godzinie.

Andrej Karpathy uchwycił, dokąd to zmierza, opisując „Loopy Era” — ludzie już nie piszą większości kodu, lecz kierują, nadzorują i orkiestrują zespoły agentów. Jego własny eksperyment AutoResearch przeprowadził 700 eksperymentów w dwa dni na pojedynczym GPU. Nie uruchamiasz 700 nienadzorowanych eksperymentów na sile dobrego promptu. Uruchamiasz je na sile dobrego harness.

Dlatego udział harness się utrzymuje — albo rośnie. Model to silnik; harness to cała reszta samochodu, droga i system ruchu. Lepsze silniki nie sprawiają, że samochód mniej się liczy.

Harness jest też fosą

To przeformułowanie ma zęby dla każdego, kto decyduje, gdzie inwestować.

Jeśli model to 1,6% produktu, a Ty nie trenujesz frontierowych modeli, to konkurowanie na „mamy dostęp do dobrego modelu” jest konkurowaniem na towarze. Każdy ma dostęp do dobrego modelu. Praca, którą da się obronić — część, którą trudno skopiować, która się kumuluje, którą faktycznie możesz sprzedać — to te 98,4%: harness dostrojony do konkretnej domeny, konkretnego repozytorium, konkretnego środowiska regulacyjnego, konkretnego języka.

Sam rynek guardrails ma według prognoz przekroczyć 100 mld USD do 2034 roku, a 64% organizacji utrzymuje już polityki bezpieczeństwa AI. Te wydatki nie idą w modele. Idą w warstwę harness — walidację, sandboxing, bramki przeglądu, observability — bo to tam naprawdę żyje ryzyko produkcyjne. Gdy branża standaryzuje interfejs modelu (a wraz z Agentic AI Foundation opiekującą się teraz otwartymi standardami jak MCP i AGENTS.md — robi to), różnicowanie przesuwa się w górę stosu, do harness. Standardowe wtyczki, maszyna szyta na miarę.

Dlaczego to dobra wiadomość dla Azji Południowo-Wschodniej

Gdyby wartość tkwiła w modelu, byłaby to gra zamknięta. Frontierowy pre-training kosztuje setki milionów dolarów i kontroluje go garstka laboratoriów. Programista w Phnom Penh, Da Nang czy Cebu byłby na zawsze na zewnątrz, wynajmując dostęp.

Ale wartość tkwi w przeważającej mierze w harness — a harness to inżynieria oprogramowania. To zarządzanie kontekstem, integracja narzędzi, projektowanie testów, obsługa błędów, wiedza domenowa, staranne myślenie systemowe. Nic z tego nie wymaga klastra GPU. Wymaga dobrych inżynierów, którzy rozumieją problem dogłębnie, a Azja Południowo-Wschodnia ma ich w obfitości i szybko ich przybywa: sama Kambodża liczy dziś dziesiątki startupów AI i młody, rosnący strumień talentów wychodzący z instytucji takich jak RUPP i ITC.

Harness to także miejsce, gdzie lokalna wiedza staje się trwałą przewagą. Generyczny agent nie zna konwencji dokumentów khmerskich ani osobliwości procesu zgodności w kambodżańskim banku, ani tego, jak spółdzielnia rolnicza naprawdę księguje zbiory. Model jest wszędzie taki sam; harness to miejsce, gdzie kodujesz kontekst, który czyni go użytecznym tutaj. To nie jest wada do przezwyciężenia — to pozycja do obrony, której frontierowe laboratoria nie zbudują z Kalifornii.

Co z tym zrobić

Jeśli jesteś programistą: przestań optymalizować prompty i zacznij inżynierować harness. Dźwignia nie leży w sprytniejszym sformułowaniu — leży w lepszym składaniu kontekstu, ciaśniejszej pętli weryfikacji, guardrails, którym można ufać bez nadzoru. To umiejętność, która się kumuluje, i umiejętność, za którą rynek właśnie zacznie płacić.

Jeśli jesteś firmą: nie kupuj „modelu AI”. Kup — albo zbuduj — harness wokół niego, ukształtowany pod Twoją pracę. Demo z półki to te 1,6%. To, co naprawdę rusza Twoimi liczbami, to 98,4%, których nikt nie umieścił na slajdzie.

A jeśli jesteś gdziekolwiek w Azji Południowo-Wschodniej i zastanawiasz się, czy jest tu prawdziwe miejsce przy stole: jest, i to większe miejsce. Droga, utowarowiona część inteligencji jest rozdawana jako API. Wartościowa, możliwa do obrony, zbuduj-to-sam część to harness — a to inżynieria, rzecz, którą ten region robi i potrafi robić tak dobrze jak każde miejsce na Ziemi.

Model to iskra. Harness to silnik. Zbuduj silnik.