Harness ដែលសរសេរខ្លួនឯងឡើងវិញ

អស់រយៈពេលមួយឆ្នាំ យើងបានធ្វើអំណះអំណាងមួយម្ដងហើយម្ដងទៀត៖ harness គឺជាផលិតផល។ Model គឺជាចំណិតស្ដើងដែលគិត ឯ scaffolding ជុំវិញវា — prompts, ឧបករណ៍, ការផ្ទៀងផ្ទាត់, ការស្ដារ — ជាកន្លែងដែលភាពអាចទុកចិត្តពិតជាស្ថិតនៅ។ Addy Osmani ដាក់គំនិតដូចគ្នាក្នុងប្រយោគមួយ៖ harness គឺជា “scaffolding ដែលរឹតបន្តឹងរាល់ពេលដែល agent រអិល”។

ពិចារណាលើឃ្លានោះ — រឹតបន្តឹងរាល់ពេលដែល agent រអិល — ព្រោះរហូតមកដល់ថ្មីៗនេះ អ្វីដែលធ្វើការរឹតបន្តឹងតែងតែជាមនុស្ស។ វិស្វករឃ្លាំមើល agent បរាជ័យ វិនិច្ឆ័យការបរាជ័យ ហើយកែ scaffolding។ នៅពាក់កណ្ដាលឆ្នាំ ២០២៦ ប្រភេទស្រាវជ្រាវថ្មីបានសួរសំណួរបន្ទាប់ដ៏ច្បាស់៖ បើ agent រឹតបន្តឹង harness ផ្ទាល់ខ្លួនវាវិញ? គ្មានមនុស្សក្នុង loop គ្មាន model ឆ្លាតជាងឱ្យចម្លង — គ្រាន់តែ agent សិក្សាការបរាជ័យផ្ទាល់ខ្លួន ហើយសរសេរ scaffolding ជុំវិញខ្លួនវាឡើងវិញ។ នោះជា self-harness ហើយវាជាគំនិតដែលត្រូវនឹងម៉ាកយើងបំផុតដែលយើងបានគ្របដណ្ដប់ពេញមួយឆ្នាំ៖ loop ដែលបែរចូលក្នុង។

តើ self-harness ពិតជាអ្វី

ការបង្ហាញច្បាស់បំផុតគឺក្រដាស arXiv ខែមិថុនា ឆ្នាំ ២០២៦ Self-Harness: Harnesses That Improve Themselves។ វិធីសាស្ត្រគឺ loop បីដំណាក់កាល ហើយភាពប្រណិតស្ថិតនៅក្នុងរបៀបដែលដំណាក់កាលនីមួយៗស្ដាប់ទៅធម្មតា៖

Weakness Mining (ការជីករកភាពខ្សោយ) — agent អានដាន (traces) ប្រតិបត្តិផ្ទាល់ខ្លួន ហើយរកលំនាំបរាជ័យ កើតឡើងដដែលៗ ជាក់លាក់ចំពោះរបៀបដែលវាប្រព្រឹត្ត។ មិនមែន “ភារកិច្ចមួយនេះបរាជ័យ” ទេ ប៉ុន្តែ “ខ្ញុំតែងតែភ្លេចផ្ទៀងផ្ទាត់ថាការសរសេរឯកសារជោគជ័យមុនពេលបន្តទៅមុខ”។
Harness Proposal (សំណើ Harness) — វាបង្កើតការជួសជុលជាក់ស្ដែង អាចប្រតិបត្តិបានមួយក្ដាប់តូចតម្រង់ទៅភាពខ្សោយទាំងនោះ៖ system prompt ដែលកែ tool wrapper ដែលបន្ថែមការត្រួតពិនិត្យសុវត្ថិភាព ជំហានផ្ទៀងផ្ទាត់ដែលបញ្ចូល planning template ល្អជាង។
Proposal Validation (ការធ្វើសុពលកម្មសំណើ) — វាសាកល្បងសំណើនីមួយៗធៀបនឹងភារកិច្ចដែលទុកដាច់ ហើយរក្សាតែការផ្លាស់ប្ដូរដែលកែលម្អ performance ដោយមិន បំផ្លាញអ្វីដែលដំណើរការរួចហើយ។

កត់សម្គាល់អ្វីដែលកំពុងត្រូវសរសេរឡើងវិញនៅទីនេះ។ មិនមែន weights របស់ model ទេ — គឺ harness។ System prompt, tool wrappers, ជំហានផ្ទៀងផ្ទាត់, planning scaffolds។ ពិតជាស្រទាប់ដែល Osmani មានន័យនៅពេលគាត់និយាយថា “រាល់សមាសភាគក្នុង harness ដាក់បញ្ចូលការសន្មតមួយអំពីអ្វីដែល model មិនអាចធ្វើដោយខ្លួនឯងបាន”។ Self-harness អនុញ្ញាតឱ្យ model រកឃើញការសន្មតទាំងនោះដោយខ្លួនវាផ្ទាល់ ហើយសរសេរវាចុះជាកូដ។

ការដាក់ស៊ុមរបស់ក្រដាសស្ទើរជាសេចក្ដីប្រកាស៖ “Model មួយគួរតែអាចកំណត់ និងជួសជុលភាពខ្សោយជាប្រព័ន្ធផ្ទាល់ខ្លួនរបស់វា មិនមែនពឹងលើ model ឆ្លាតជាងដើម្បីប្រាប់វាថាមានអ្វីខុសទេ។“

លេខមិនមែនរសើបទេ

នេះអាចជាគំនិតគួរឱ្យស្រឡាញ់ដែលមិនផ្លាស់ប្ដូរអ្វី។ វាមិនមែនទេ។ លើ Terminal-Bench 2.0 — ៨៩ ភារកិច្ចពិភពពិតឆ្លងកាត់ ML, systems, security, និងជីវវិទ្យា — model បីដូចគ្នា ដោយគ្មានការផ្លាស់ប្ដូរ weights របស់ពួកវា បានកែលម្អយ៉ាងខ្លាំងនៅពេលនីមួយៗត្រូវបានអនុញ្ញាតឱ្យសរសេរ scaffolding ផ្ទាល់ខ្លួនឡើងវិញ៖

MiniMax M2.5: ៤០,៥% → ៦១,៩%
Qwen3.5-35B-A3B: ២៣,៨% → ៣៨,១%
GLM-5: ៤២,៩% → ៥៧,១%

ការលើកឡើងធៀប ៣៣–៦០% ពីគ្មានអ្វីក្រៅពី scaffolding ល្អជាងដែល model សរសេរសម្រាប់ខ្លួនវាផ្ទាល់។ ខ្សែការងារប៉ារ៉ាឡែលធ្វើចំណុចដូចគ្នាពីខាង leaderboard៖ AutoAgent ដែលជា meta-agent ប្រភពបើកចំហដែលលៃតម្រូវ prompts, ឧបករណ៍, និង orchestration របស់ task agent ដោយស្វ័យប្រវត្តិ បានឈានដល់ #1 លើ SpreadsheetBench (៩៦,៥%) និងឈានដល់កំពូល TerminalBench — ឈ្នះរាល់ធាតុដែលធ្វើវិស្វកម្មដោយដៃ — បន្ទាប់ពីប្រហែល ២៤ ម៉ោងនៃការបង្កើនប្រសិទ្ធភាពខ្លួនឯង។ Harness ដែលមនុស្សចំណាយពេលជាច្រើនខែលៃតម្រូវ agent មួយបានស្មើ និងឆ្លងផុតក្នុងមួយយប់។

នេះជាភស្តុតាងខ្លាំងបំផុតរហូតមកដល់ពេលនេះសម្រាប់តក្កដែលយើងតែងតែត្រឡប់មក។ បើ model អាចទទួលបាន ៥០% លើ benchmark ពិបាកដោយគ្មាន weight តែមួយផ្លាស់ប្ដូរ នោះតម្លៃមិនដែលស្ថិតនៅក្នុង weights តែម្នាក់ឯងទេ។ វាស្ថិតនៅក្នុង harness — ហើយឥឡូវនេះសូម្បីតែ ការសាងសង់ harness ក៏អាចធ្វើស្វ័យប្រវត្តិបានដែរ។

ឆ្នាស់ពីរ និងហេតុអ្វីមនុស្សនៅតែកាន់មួយ

វាមានតម្លៃក្នុងការច្បាស់លាស់អំពីអ្វីដែលកំពុងកែលម្អ ព្រោះក្រដាសទីពីរនៃឆ្នាំ ២០២៦ — SIA: Self-Improving AI — គូសភាពខុសគ្នាយ៉ាងស្អាត។ មានឆ្នាស់ពីរដែលអ្នកអាចទាញលើ agent។ អ្នកអាចធ្វើបច្ចុប្បន្នភាព harness (ឧបករណ៍, prompts, retry logic — របៀប ដែល model ស្វែងរក និងធ្វើសកម្មភាព) ឬអ្នកអាចធ្វើបច្ចុប្បន្នភាព weights (វិចារណញ្ញាណ domain របស់ model)។ ខ្សែរបស់ SIA ជាសេចក្ដីសង្ខេបស្អាតបំផុតក្នុងអក្សរសិល្ប៍៖ “Harness updates ធ្វើឱ្យ model agentic រៀបរូបរាងរបៀបដែលវាស្វែងរក និងធ្វើសកម្មភាព ឯ weight updates សាងសង់វិចារណញ្ញាណ domain ដែលគ្មាន prompt ឬ scaffold អាចបណ្ដុះបាន។”

Self-harness ធ្វើស្វ័យប្រវត្តិឆ្នាស់ទីមួយ — ហើយនោះជាឆ្នាស់ដែលមិនត្រូវការ GPU cluster ព្រោះវាជាសូហ្វវែរ មិនមែនការបង្វឹក។ ប៉ុន្តែនេះជាផ្នែកដែលសំខាន់សម្រាប់នរណាម្នាក់ដែលបារម្ភថានេះសរសេរមនុស្សចេញពីរឿង៖ harness ដែលកែលម្អខ្លួនឯងបង្កើនប្រសិទ្ធភាព ទៅរកគោលដៅដែលវាត្រូវបានផ្ដល់ឱ្យ។ វាជីករកភាពខ្សោយធៀបនឹង benchmark ដែលនរណាម្នាក់បានជ្រើស។ វាធ្វើសុពលកម្មសំណើធៀបនឹងភារកិច្ចទុកដាច់ដែលនរណាម្នាក់បានកំណត់។ វាទទួលយកការផ្លាស់ប្ដូរដែលកែលម្អ metric ដែលនរណាម្នាក់សម្រេចថាជា metric ត្រឹមត្រូវ។

ម្យ៉ាងទៀត loop កែលម្អខ្លួនឯងនៅតែដំណើរការក្នុងស៊ុមដែលមនុស្សសាងសង់៖ គោលដៅ evals និយមន័យនៃ “done” guardrails លើអ្វីដែល agent អាចផ្លាស់ប្ដូរ។ យើងបានសរសេរពីមុនថា loop អាក្រក់គ្រាន់តែ ship កូដអាក្រក់លឿនជាង — ហើយ harness កែលម្អខ្លួនឯងដែលបង្កើនប្រសិទ្ធភាពធៀបនឹង eval អាក្រក់ កែលម្អ លឿនជាងក្នុងទិសដៅខុស។ មនុស្សផ្លាស់ឡើងមួយកម្រិត ពីការលៃតម្រូវ scaffolding ទៅការបញ្ជាក់ថាអ្វីដែល scaffolding ល្អមានន័យ។ ការងារនោះមិនតូចចុះទេ។ ខ្ចីពាក្យ Osmani ម្ដងទៀត៖ harnesses “មិនតូចចុះទេ ពួកវាផ្លាស់ទី”។ ការងាររបស់វិស្វករក៏ដូចគ្នា។

ហេតុអ្វីនេះជាដំណឹងល្អសម្រាប់អាស៊ីអាគ្នេយ៍

រាល់ពេលដែល frontier ផ្លាស់ទី សំណួរថប់បារម្ភដូចគ្នាតាមមក៖ តើនេះបិទទ្វារលើអ្នកអភិវឌ្ឍនៅខាងក្រៅ labs ធំៗឬ? Self-harness ធ្វើផ្ទុយ។

អ្វីដែលកំពុងត្រូវធ្វើស្វ័យប្រវត្តិគឺ ការលៃតម្រូវដោយដៃ នៃ scaffolding — ការខំប្រឹងធ្វើដដែលៗ ជាក់លាក់ចំពោះ model នៃការឃ្លាំមើល traces និងបិទភ្ជាប់ prompts។ អ្វីដែល មិន ត្រូវធ្វើស្វ័យប្រវត្តិ និងមិនអាច គឺការជ្រើសគោលបំណង ការរចនា evals ការដាក់បញ្ចូលចំណេះដឹង domain និងការកំណត់ guardrails។ នោះជា meta-engineering ហើយវានៅតែជាវិស្វកម្ម៖ ការគិតជាប្រព័ន្ធដោយប្រុងប្រយ័ត្ន មានរចនាសម្ព័ន្ធ ប្រភេទដែលត្រូវការអ្នកអភិវឌ្ឍល្អ និងការយល់ដឹងបញ្ហាស៊ីជម្រៅ ជាជាងការបង្វឹកតម្លៃរាប់រយលានដុល្លារ។

នេះធ្លាក់ចុះកន្លែងពិតប្រាកដដែល យើងតែងតែធ្លាក់ចុះ។ Harness កែលម្អខ្លួនឯងអាចលៃតម្រូវខ្លួនវាដើម្បីឆ្លងកាត់ benchmark របស់អ្នក — ប៉ុន្តែលុះត្រាតែនរណាម្នាក់សាងសង់ benchmark ដែលចាប់យកអ្វីដែលត្រឹមត្រូវមានន័យសម្រាប់ឯកសារភាសាខ្មែរ ច្បាប់អនុលោមភាពកម្ពុជា កំណត់ត្រារបស់សហករណ៍កសិកម្ម។ Frontier lab អាចប្រគល់ឱ្យអ្នកនូវ model ដែលសរសេរ scaffolding ផ្ទាល់ខ្លួនឡើងវិញ។ វាមិនអាចប្រគល់ឱ្យអ្នកនូវនិយមន័យ “done” សម្រាប់បញ្ហាដែលវាមិនដែលឃើញបានទេ។ និយមន័យនោះជាចំណេះដឹងក្នុងស្រុក ហើយចំណេះដឹងក្នុងស្រុកជាទីតាំងដែល labs មិនអាចសាងសង់ពី California បានឡើយ។

អ្វីដែលត្រូវយកពីរឿងនេះ

បើអ្នកសាងសង់ជាមួយ agents ចាប់ផ្ដើមរចនាសម្រាប់ harnesses ដែលកែលម្អខ្លួនឯង — ប៉ុន្តែវិនិយោគកិច្ចខិតខំផ្ទាល់ខ្លួនរបស់អ្នកមួយកម្រិតខាងលើ៖ លើ evals ដែលកំណត់ភាពត្រឹមត្រូវ guardrails ដែលកំណត់ព្រំដែនអ្វីដែលអាចផ្លាស់ប្ដូរ និងចំណេះដឹង domain ដែលគ្មាន self-improver អាចបង្កើតបាន។ ឱ្យ agent រឹតបន្តឹង scaffolding។ អ្នកសម្រេចថាវាកំពុងរឹតបន្តឹងទៅរកអ្វី។

Harness តែងតែជាសិល្បៈ។ ឥឡូវនេះ harness អាចសរសេរខ្លួនឯងឡើងវិញ — ហើយសិល្បៈផ្លាស់ទៅការសម្រេចថាអ្វីដែល harness ល្អជាអ្វី។ Model នាំមកនូវសមត្ថភាព។ Self-harness នាំមកនូវការលៃតម្រូវ។ អ្នកនាំមកនូវការវិនិច្ឆ័យអំពីអ្វីដែលគួរលៃតម្រូវសម្រាប់។