គម្លាតភាពជឿជាក់៖ ហេតុអ្វី Agent ល្អបំផុតរបស់អ្នក meltdown មុនគេ

ពេលអ្នកជ្រើស agent អ្នកស្ទើរតែប្រាកដជ្រើសវាចេញពី leaderboard។ Model នៅកំពូល SWE-bench ដែលមានអត្រា pass ខ្ពស់បំផុត ដែលឈ្នះការវាស់ស្ទង់ — នោះជា model ដែលអ្នក deploy។ វាជាសភាវគតិសមហេតុផល ហើយវាខុសស្ងាត់ៗ។ អ្វីដែល leaderboard វាស់ និងអ្វីដែលអ្នកត្រូវការពិតប្រាកដ មិនមែនជារបស់ដូចគ្នាទេ ហើយគម្លាតរវាងពួកវាជាកន្លែងដែលការខកចិត្តចំពោះ agent ភាគច្រើនរស់នៅ។

ការវាស់ស្ទង់វាស់ សមត្ថភាព៖ តើ model អាចជោគជ័យលើការប៉ុនប៉ងតែមួយបានទេ? Production ទាមទារ ភាពជឿជាក់៖ តើវាជោគជ័យ ស៊ីសង្វាក់ ឆ្លងកាត់ការប៉ុនប៉ងដដែលៗ លើភារកិច្ចដែលដំណើរការវែងឬទេ? ពួកវាស្ដាប់ទៅដូចជាលក្ខណៈដូចគ្នា។ ពួកវាមិនមែនទេ — ហើយការសិក្សាឆ្នាំ ២០២៦ ធ្វើឱ្យគម្លាតនោះជាក់ស្ដែងគ្រប់គ្រាន់ដើម្បីផ្លាស់ប្ដូររបៀបអ្នកជ្រើស។

លេខដែលគួរធ្វើឱ្យអ្នកមិនស្ងប់

ឯកសារនេះគឺ Beyond pass@1: A Reliability Science Framework for Long-Horizon LLM Agents (arXiv 2603.29231)។ អ្នកស្រាវជ្រាវ run model ១០ ឆ្លងកាត់ episode ២៣.៣៩២ លើការវាស់ស្ទង់ ភារកិច្ច ៣៩៦ ដោយចេតនាគ្របដណ្ដប់ duration bucket បួន និង domain បី — ភារកិច្ចខ្លីទៅវែង ឆ្លងកាត់ប្រភេទការងារផ្សេងៗ។ ចំណុចគឺមើលថាមានអ្វីកើតឡើងចំពោះ agent មិនមែននៅការប៉ុនប៉ងតែមួយល្អបំផុតរបស់វាទេ ប៉ុន្តែឆ្លងកាត់ការប៉ុនប៉ងជាច្រើនពេល horizon ភារកិច្ចលាតសន្ធឹង។

ការរកឃើញពីរគួរបញ្ឈប់អ្នក។ ទីមួយ៖ ចំណាត់ថ្នាក់សមត្ថភាព និងភាពជឿជាក់បែកគ្នាយ៉ាងសំខាន់ ដោយមានការត្រឡប់ច្រាសច្រើនថ្នាក់នៅ horizon វែង។ Model ដែលជាប់ចំណាត់ថ្នាក់ទីមួយលើសមត្ថភាពការប៉ុនប៉ងតែមួយ អាចធ្លាក់ច្រើនកន្លែងពេលអ្នកវាស់ភាពស៊ីសង្វាក់លើភារកិច្ចវែង។ លំដាប់ leaderboard មិនមែនលំដាប់ deployment ទេ។

ទីពីរ ហើយផ្ទុយនឹងវិចារណញាណជាង៖ frontier model មានអត្រា meltdown ខ្ពស់បំផុត — រហូតដល់ ១៩%។ មិនមែន model ខ្សោយបំផុតទេ។ ខ្លាំងបំផុត ទេតើ។ Agent ដែលមានសមត្ថភាពបំផុតបរាជ័យយ៉ាងវិនាសអន្តរាយញឹកញាប់បំផុតលើការងារ long-horizon ហើយឯកសារត្រង់ៗអំពីហេតុអ្វី៖ ពួកវា “ប៉ុនប៉ងយុទ្ធសាស្ត្រ multi-step មហិច្ឆតាដែលជួនកាលវិលជុំ”។ ការឈោងដែលឈ្នះការវាស់ស្ទង់នោះឯងជាអ្វីដែលផ្ទុះ run វែង។

អានម្ដងទៀត ព្រោះវាត្រឡប់ច្រាសតក្កនៃការទិញ។ Agent ដែលនៅកំពូលការវាស់ស្ទង់សមត្ថភាពរបស់អ្នកអាចជា model ដែលពឹងផ្អែកបាន តិចបំផុត ដែលអ្នកអាចដាក់ក្នុង production។

សមត្ថភាពជាការប៉ុនប៉ងតែមួយ ភាពជឿជាក់ជាលើកទីមួយរយ

ភាពខុសគ្នាមានតម្លៃក្នុងការធ្វើឱ្យច្បាស់ ព្រោះវាជាល្បែងទាំងមូល។ សមត្ថភាពជាសំណួរអំពីលទ្ធភាព៖ តើ agent នេះអាចធ្វើភារកិច្ចបានទាល់តែសោះឬទេ? ពិន្ទុ pass@1 ឆ្លើយវា — ឱ្យ model មួយឱកាស មើលថាវាចុះបានទេ។ នោះជាអ្វីដែលការវាស់ស្ទង់ចំណងជើងស្ទើរទាំងអស់រាយការណ៍ ហើយវាមានប្រយោជន៍ពិតប្រាកដសម្រាប់រឿងតែមួយ៖ ដឹងថាសមត្ថភាពមានឬទេ។

ភាពជឿជាក់ជាសំណួរអំពីការពឹងផ្អែក៖ តើ agent នេះនឹងធ្វើភារកិច្ចរាល់ពេលដែលខ្ញុំស្នើ រួមទាំងពេលវែង និងពេលឆ្គងឬទេ? នោះជា distribution មិនមែនចំណុចទេ។ វាជា pass@1 នៅការប៉ុនប៉ងទីមួយ និង ការប៉ុនប៉ងទីហាសិប លើភារកិច្ចបីជំហាន និង ភារកិច្ចកៅសិបជំហាន នៅថ្ងៃល្អ និង ថ្ងៃថយចុះ។ Production ដំណើរការលើ distribution។ អ្នកប្រើរបស់អ្នកមិនជួបការប៉ុនប៉ងល្អបំផុតរបស់ agent ទេ ពួកគេជួប ការប៉ុនប៉ងធម្មតា របស់វា ហើយពួកគេចងចាំការប៉ុនប៉ងអាក្រក់បំផុតរបស់វា។

នេះជាហេតុអ្វីពិន្ទុការវាស់ស្ទង់ខ្ពស់ និង deployment ដែលគួរឱ្យអផ្សុករួមរស់ជាមួយគ្នាញឹកញាប់។ ពិន្ទុជាការពិត — សមត្ថភាពនៅទីនោះ។ ប៉ុន្តែវាត្រូវបានវាស់នៅចុងងាយនៃអ័ក្ស duration លើការប៉ុនប៉ងតែមួយ បន្ទាប់មកអ្នក deploy agent ចូលការងារវែង ដដែលៗ ចម្រុះ ដែលលក្ខណៈផ្សេងគ្រប់គ្រង។ អ្នកទិញសមត្ថភាព ហើយអ្នកត្រូវការភាពជឿជាក់ ហើយគ្មាននរណាប្រាប់អ្នកថាពួកវាជាផលិតផលផ្សេងគ្នាទេ។

មានការប្រៀបធៀបមានប្រយោជន៍ក្នុង hardware។ ល្បឿន clock កំពូលនៃ chip មួយប្រាប់អ្នកអ្វីដែលវាអាចធ្វើបានសម្រាប់ការផ្ទុះក្រោមការត្រជាក់ល្អ ឯ clock ទ្រទ្រង់របស់វាក្រោមបន្ទុកកម្ដៅប្រាប់អ្នកអ្វីដែលអ្នកនឹងទទួលបានពិតប្រាកដពេញមួយថ្ងៃ។ អ្នកទិញដែលអានតែលេខកំពូលត្រូវភ្ញាក់ផ្អើលជានិច្ចចំពោះ throughput ពិភពពិត។ ពិន្ទុសមត្ថភាព agent ជា clock កំពូល។ ភាពជឿជាក់ជា clock ទ្រទ្រង់ — ហើយសម្រាប់អ្វីដែលអ្នក run ក្នុង production លេខទ្រទ្រង់ជាលេខតែមួយគត់ដែលបង់វិក្កយបត្រ។

ហេតុអ្វី model ខ្លាំងបំផុត meltdown

យន្តការភ្ជាប់ត្រង់ៗទៅអ្វីដែលយើងបានសរសេរអំពីពីមុន។ យើងបានអះអាងថា agent កាន់តែអាក្រក់ ពេលវាដំណើរការកាន់តែយូរ — ថាគុណភាពសឹករិចរិលវេនមួយបន្ទាប់ពីវេនមួយពេល horizon លាតសន្ធឹង។ Framework ភាពជឿជាក់បន្ថែមគែមមុត៖ កាន់តែមានសមត្ថភាព model កាន់តែវាអាចបរាជ័យយ៉ាងគួរឱ្យកត់សម្គាល់នៅអ័ក្សនោះឯង ព្រោះសមត្ថភាពទិញមហិច្ឆតា ហើយមហិច្ឆតានៅ horizon វែងជារបៀបអ្នកវិលជុំ។

Model ខ្សោយជាងប៉ុនប៉ងផែនការមធ្យម ហើយបញ្ចប់វា ឬបរាជ័យតូច។ Frontier model ប៉ុនប៉ងយុទ្ធសាស្ត្រ multi-step ទូលំទូលាយ — refactor នេះ ធ្វើទូទៅនោះ ភ្ជាប់របស់ផ្សេង — ហើយពេលជំហានដំបូងមួយខុសល្អិតៗ រាល់ជំហានក្រោយសាងសង់លើកំហុស។ ផែនការមិនបរាជ័យដោយរលូនទេ វា meltdown។ រហូតដល់ ១៩% នៃពេលវេលា លើភារកិច្ចវែង agent ដែលមានសមត្ថភាពបំផុតធ្វើដូចនេះឯង។

Horizon ជាកន្លែងវាបង្ហាញ។ មើលរបៀបពិន្ទុដួលរលំពេលការវាស់ស្ទង់ពិតជាលាតសន្ធឹងភារកិច្ច៖ លើ SWE-EVO (arXiv 2512.18470) ការវាស់ស្ទង់ software-evolution long-horizon នៃភារកិច្ច ៤៨ ដោយនីមួយៗប៉ះឯកសារជាមធ្យម ២១ ជាមួយ test suite ជាមធ្យម ៨៧៤ test, agent ចុះប្រហែល ២៥% — ធៀបនឹង ~៧៣% ដែល model គ្រួសារដូចគ្នាបង្ហោះលើ SWE-bench Verified ឯកសារតែមួយ។ Model ដូចគ្នាប្រហែល។ លាតសន្ធឹង horizon ពី “ជួសជុលឯកសារតែមួយ” ទៅ “វិវត្ត codebase ទាំងមូល” ហើយសមត្ថភាពដែលលេចចេញភាគច្រើនរលាយបាត់។ លេខឯកសារតែមួយមិនដែលជាការសន្យាអំពីការងារ long-horizon ទេ។

អ្នកមិនអាចជួសជុលអ្វីដែលអ្នកមិនវាស់

បើសមត្ថភាព និងភាពជឿជាក់ជាលក្ខណៈផ្សេងគ្នា នោះពិន្ទុសមត្ថភាពតែមួយមិនអាចប្រាប់អ្នកថា agent ណាត្រូវទុកចិត្ត — ហើយការឆ្លើយតបដែលមានផល គឺ វាស់ភាពជឿជាក់ដោយផ្ទាល់។ Framework ភាពជឿជាក់ផ្ដល់វាក្យសព្ទដែលមានតម្លៃក្នុងការទទួលយក សូម្បីក្រៅផ្លូវការ៖ Reliability Decay Curve (របៀបអត្រាជោគជ័យធ្លាក់ពេល horizon ភារកិច្ចលូតលាស់), Variance Amplification Factor (បរិមាណដែលដំណើរការខ្ចាត់ខ្ចាយឆ្លងកាត់ការប៉ុនប៉ងដដែលៗ), Graceful Degradation Score (តើវាបរាជ័យទន់ ឬ meltdown) និង Meltdown Onset Point (នៅ horizon ណាដែលវាធ្លាក់ចេញពីច្រាំងថ្ម)។ អ្នកមិនត្រូវការគណិតវិទ្យាជាក់លាក់ដើម្បីប្រើគំនិតទេ។ អ្នកត្រូវឈប់សួរថា “តើវាអាចធ្វើនេះបានទេ?” ហើយចាប់ផ្ដើមសួរថា “តើវាបរាជ័យយ៉ាងណាពេលភារកិច្ចកាន់តែវែង ហើយញឹកញាប់ប៉ុណ្ណា?”

ហើយពេលអ្នកវាស់របៀបបរាជ័យជំនួសសមត្ថភាពកំពូល ការជួសជុលឈប់ជា “ទិញ model ល្អជាង” ហើយក្លាយជា “វិស្វកម្ម loop”។ Model ដែលមានពិន្ទុសមត្ថភាពអាក្រក់ជាង ប៉ុន្តែ decay curve រាបជាង និងរបៀបបរាជ័យទន់ជាង ជារឿយៗជាជម្រើស production ល្អជាង — ហើយ harness ដែលកំណត់វិសាលភាពការងារតូច checkpoint ញឹកញាប់ និងផ្ទៀងផ្ទាត់មុនបន្ត ប្រែ model ដែលងាយ meltdown ឱ្យក្លាយជា model ដែលពឹងផ្អែកបាន។ នេះជាអំណះអំណាងដូចគ្នាដែលយើងតែងតែចុះមក៖ harness ជាផលិតផល និង loop អាក្រក់ដឹកកូដអាក្រក់លឿនជាង។ ភាពជឿជាក់មិនមែនជាលក្ខណៈដែលអ្នកទិញចេញពី leaderboard ទេ។ វាជាលក្ខណៈដែលអ្នកសាងសង់ ដោយវាស់របស់ត្រឹមត្រូវ និងបង្កើតរូបរាង loop ជុំវិញវា។ Model ផ្គត់ផ្គង់សមត្ថភាព loop ផ្គត់ផ្គង់ភាពជឿជាក់។

ចលនាជាក់ស្ដែង៖ មុនអ្នក deploy run agent លើកំណែ វែង នៃភារកិច្ចពិតរបស់អ្នក ច្រើនដង ហើយមើល distribution — មិនមែន run ល្អបំផុតទេ ការខ្ចាត់ខ្ចាយ និងអាក្រក់បំផុត។ ជ្រើស agent ដែលថយចុះដោយរលូន មិនមែនមួយដែលកំពូលខ្ពស់បំផុតទេ។ បន្ទាប់មករចនា harness ឱ្យរក្សា horizon ខ្លីគ្រប់គ្រាន់ដែលចំណុច meltdown មិនដែលឈានដល់។

ហេតុអ្វីនេះអនុគ្រោះអាស៊ីអាគ្នេយ៍

នេះជាផ្នែកដែលសំខាន់សម្រាប់តំបន់នេះ ហើយវាជារូបរាងដូចគ្នានឹងអំណះអំណាងគ្រប់យ៉ាងដែលយើងធ្វើ។ វិស្វកម្មភាពជឿជាក់មិនមែនជាសមត្ថភាពដែលអ្នកបណ្ដុះបណ្ដាលទេ — វាជាវិន័យនៃ ការវាស់ និងការវិនិច្ឆ័យ។ វាមិនចំណាយ GPU ទេ។ វាមិនត្រូវការ frontier lab ទេ។ វាស្ទើរទាំងស្រុងជាការងារនៃការសម្រេចចិត្តថាត្រូវវាស់អ្វី run agent លើករណីវែង និងឆ្គង អាន distribution ដោយស្មោះត្រង់ និងបង្កើតរូបរាង loop ឱ្យរបៀបបរាជ័យនៅទន់។ នោះជាវិស្វកម្មដែលដំណើរការលើ laptop។

ហើយវាជាគែមពិតប្រាកដ ព្រោះទីផ្សារភាគច្រើនកំពុងធ្វើផ្ទុយ។ ចលនាលំនាំដើមគ្រប់កន្លែងគឺចាប់យកអ្វីដែលនៅកំពូល leaderboard សមត្ថភាព ហើយ deploy វា — ដែលដូចការស្រាវជ្រាវបង្ហាញ ជារឿយៗជា agent ដែលងាយ បំផុត នឹង meltdown លើការងារវែងដែលសំខាន់ពិតប្រាកដ។ ក្រុមនៅភ្នំពេញ ឬ Da Nang ដែលផ្ទុយទៅវិញវាស់ភាពជឿជាក់ ជ្រើសសម្រាប់ការថយចុះដោយរលូន និងវិស្វកម្ម loop ដែលរក្សា horizon ខ្លី នឹងដឹក agent ដែលពឹងផ្អែកបាន ខណៈគូប្រកួតដែលមានមូលនិធិច្រើនជាងដេញតាមលេខការវាស់ស្ទង់ដែលមិនរស់រានពេលប៉ះ production។ សភាវគតិដូចគ្នាឱ្យ loop ដំណើរការដោយគ្មានការមើលថែ ខណៈអ្នកគេង ដោយមិនរអិលចេញពីផ្លូវ — ព្រោះ loop ត្រូវបានសាងសង់សម្រាប់ថ្ងៃអាក្រក់ មិនមែនការ demo ទេ។

Leaderboard នឹងបន្តតែងតាំង model ដែលមានសមត្ថភាពបំផុត។ អ្វីដែលវានឹងមិនដែលប្រាប់អ្នកគឺ model ណាដែលអ្នកអាច ពឹងផ្អែក បាន។ ចម្លើយនោះមិនមកពី lab ទេ — វាមកពីការវាស់ភាពជឿជាក់ដោយខ្លួនអ្នកផ្ទាល់ លើភារកិច្ចផ្ទាល់របស់អ្នក និងវិស្វកម្ម loop រហូតចម្លើយជា “រាល់ពេល”។ ការងារនោះជាការងារដែលត្រូវបានគេមើលស្រាលបំផុតក្នុង stack agentic ហើយវាមានសម្រាប់នរណាម្នាក់ដែលសុខចិត្តធ្វើ។