តើ Coding Agents វែកញែកយ៉ាងដូចម្ដេចពិតប្រាកដ

នៅក្នុង Harness គឺជាផលិតផល យើងបានអះអាងថាមានតែប្រហែល ១,៦% នៃ coding agent ផលិតកម្មប៉ុណ្ណោះដែលជា AI decision logic — ផ្នែកដែល “គិត”។ ឯ ៩៨,៤% ដែលនៅសល់ គឺជា scaffolding។ លេខនោះធ្វើការងារសំខាន់៖ វាប្រាប់អ្នកថាត្រូវចំណាយវិស្វកម្មរបស់អ្នកនៅឯណា។ ប៉ុន្តែវាក៏ទុកសំណួរមួយចោល។ បើការគិតជាចំណិតស្ដើងបែបនេះ តើវាពិតជាកំពុង ធ្វើអ្វី នៅខាងក្នុងនោះ? តើ agent វែកញែកពី “ជួសជុល bug នេះ” ទៅជា diff ត្រឹមត្រូវយ៉ាងដូចម្ដេច?

អត្ថបទនេះបើក ១,៦% នោះ។ មិនមែនព្រោះវាជាកន្លែងដែលអ្នកនឹងចំណាយកិច្ចខិតខំភាគច្រើនទេ — វាមិនមែនទេ — ប៉ុន្តែព្រោះអ្នកមិនអាចសាងសង់ harness ល្អជុំវិញដំណើរការវែកញែកដែលអ្នកមិនយល់បានទេ។ ហើយរបៀបដែល agents វែកញែកប្រែជាអាចរៀបរូបរាងបានច្រើនជាង និងមិនអស្ចារ្យជាងអ្វីដែលមនុស្សភាគច្រើនសន្មត។

ការវែកញែកគឺជាការសន្ទនាជាមួយពិភពលោក មិនមែនជាឯកវាចា

សភាវគតិដែលមនុស្សភាគច្រើនយកមកពី chatbots គឺថា model “វែកញែក” ដោយគិតខ្លាំងជាងក្នុងវេនតែមួយ — ឯកវាចាខាងក្នុងវែង chain-of-thought ដែលឈានដល់ចម្លើយ។ សម្រាប់ coding agent គំរូផ្លូវចិត្តនោះខុស ហើយភាពខុសគ្នានោះជាល្បែងទាំងមូល។

រូបរាងលេចធ្លោគឺ ReAct — កាត់ពី Reason + Act — ហើយវាដាក់ជ្រៀតចលនាបីក្នុង loop៖ Thought → Action → Observation (គិត → ធ្វើសកម្មភាព → សង្កេត)។ Agent មានគំនិតមួយ (“test បរាជ័យលើ input null ដូច្នេះ guard clause ប្រហែលជាបាត់”) ធ្វើសកម្មភាព (បើកឯកសារ ដំណើរការ test) ហើយបន្ទាប់មក សង្កេត អ្វីដែលត្រឡប់មកវិញពិតប្រាកដ។ ការសង្កេតនោះផ្ដល់ទៅគំនិតបន្ទាប់។ ជំនួសឱ្យការវែកញែកម្ដង ហើយប្ដេជ្ញា agent គិត ប៉ះពិភពលោកពិតប្រាកដ មើលឃើញអ្វីដែលជាការពិត ហើយគិតម្ដងទៀត។

នេះជាវដ្ត Perceive → Reason → Act → Observe ដូចគ្នាដែលយើងបានគ្របដណ្ដប់នៅក្នុង ការរចនា Agent Loops ដែលដំណើរការខណៈអ្នកដេក — ប៉ុន្តែមើលពីខាងក្នុង ពីទស្សនៈរបស់ model ជាជាងរបស់ loop។ ហើយវាពន្យល់លទ្ធផលមួយដែលធ្វើឱ្យមនុស្សភ្ញាក់ផ្អើល៖ model ខ្សោយជាង នៅក្នុង loop សង្កេត-និង-កែតម្រូវល្អ តែងតែឈ្នះ model ខ្លាំងជាង ដែលឆ្លើយក្នុងវេនតែមួយ។ ការសង្កេតគឺជាអ្វីដែលកែតម្រូវការទាយដ៏ប្រាកដប្រជារបស់ model មុនពេលវាក្លាយជា bugs។ Chain-of-thought បង្កើតរឿងដ៏សមហេតុផល ឯ ReAct ពិនិត្យរឿងនោះធៀបនឹង test ដែលបរាជ័យ។

ហេតុអ្វីការសង្កេតឈ្នះភាពឆ្លាតវៃ

ទាញខ្សែនោះ នោះអ្នករកឃើញគំនិតដែលទ្រទ្រង់ទម្ងន់៖ ក្នុងការវែកញែក agentic ការចាក់គ្រឹះ សំខាន់ជាង IQ ឆៅនៃគំនិតតែមួយណាមួយ។

Model chain-of-thought សុទ្ធដែលសម្រេចថា function ត្រឡប់តម្លៃខុស គ្មានវិធីដឹងថាវាខុសទេ — វាកំពុងវែកញែកក្នុងភាពទទេ។ Agent ដែលដំណើរការ function ទទួលបានការពិតមួយត្រឡប់មកវិញ ហើយការពិតលុបបំបាត់ការទាយ។ នេះជាមូលហេតុដែលផ្នែកធំនៃវិស្វកម្ម harness ពិតជាអំពី ការកែលម្អការសង្កេត៖ test output ស្អាត error messages ច្បាស់លាស់ មតិកែលម្អ type-checker assertion ដែលបរាជ័យដែលចង្អុលទៅបន្ទាត់ជាក់លាក់។ អ្នកមិនកំពុងធ្វើឱ្យ model ឆ្លាតជាងទេ។ អ្នកកំពុងផ្ដល់ឱ្យការវែកញែករបស់វានូវអ្វីដែលជាការពិតដើម្បីរុញធៀបនៅរាល់វេន។ ការសង្កេតប្រសើរជាងផលិតការប្រសព្វលឿនជាង និងផ្លូវវាងប្រាកដប្រជា-តែ-ខុសតិចជាង — ភាពខុសគ្នារវាង agent ដែលជួសជុល bug និងមួយដែលសរសេរឡើងវិញដោយរីករាយនូវឯកសារបីដែលមិនដែលខូច។

នេះក៏រៀបរូបរាងឡើងវិញនូវរូបរាងផ្ដេកវែងជាង។ Plan-and-Execute មាន planner ដាច់ដោយឡែករៀបជំហានមុនពេលកូដណាមួយត្រូវបានសរសេរ ដែលជួយលើភារកិច្ចវែងពេកមិនអាចទុកក្នុងដង្ហើមតែមួយ។ Reflexion បន្ថែមការរិះគន់ខ្លួនឯងជាពាក្យសម្ដី — agent សរសេរចុះអ្វីដែលខុសលើកមុន ហើយយកមេរៀននោះទៅមុខ។ ទាំងពីរ នៅមូលដ្ឋាន គឺជាវិធីរៀបរចនាការវែកញែកដើម្បីឱ្យការសង្កេតធ្លាក់នៅកន្លែងដែលវាអាចធ្វើល្អបំផុត។

ការធ្វើឱ្យ model ជជែកដូចអ្នកតក្កវិទ្យា

ភស្តុតាងថ្មីៗគួរឱ្យចាប់អារម្មណ៍បំផុតថាការវែកញែក អាចធ្វើវិស្វកម្មបាន — មិនមែនជាលក្ខណៈថេររបស់ model ទេ — មកពីក្រដាស Meta ខែមីនា ឆ្នាំ ២០២៦ Agentic Code Reasoning ដោយ Shubham Ugare និង Satish Chandra។ ពួកគេបានសួរសំណួរមុតស្រួច៖ តើ agent អាចវែកញែកអំពីអ្វីដែលកូដ មានន័យ ដោយមិនដំណើរការវាបានទេ? ហើយពួកគេបានរកឃើញថា របៀប ដែលអ្នកធ្វើឱ្យវាវែកញែកផ្លាស់ប្ដូរចម្លើយយ៉ាងខ្លាំង។

វិធីសាស្ត្ររបស់ពួកគេ semi-formal reasoning បង្ខំ agent ឱ្យឆ្លងកាត់ជំហានបីដែលមានវិន័យ ជំនួសឱ្យ chain-of-thought ដោយសេរី៖ បង្កើត premises ច្បាស់លាស់ តាមដាន execution paths និងទាញ conclusions ផ្លូវការ។ ចំណុចសំខាន់គឺវិន័យ។ ដូចអ្នកនិពន្ធនិយាយ រចនាសម្ព័ន្ធនេះ “ដើរតួជាវិញ្ញាបនបត្រ៖ agent មិនអាចរំលងករណី ឬធ្វើការអះអាងគ្មានការគាំទ្របានទេ។” Chatbot ត្រូវបានអនុញ្ញាតឱ្យគ្រវីដៃ ឯអ្នកតក្កវិទ្យាត្រូវបង្ហាញរាល់ករណី។

ផលចំណេញមិនមែនរសើបទេ។ លើការវិនិច្ឆ័យថាតើ patch ពីរស្មើគ្នាឬអត់ ភាពត្រឹមត្រូវកើនពី ៧៨% ទៅ ៨៨% លើឧទាហរណ៍ដែលរើសរក ហើយឈានដល់ ៩៣% លើ patches ដែលបង្កើតដោយ agent ពិតប្រាកដ។ លើ RubberDuckBench ដែលជា benchmark សំណួរកូដ semi-formal reasoning ឈានដល់ ៨៧% — កើនឡើង ៩ ខ្ទង់ធៀបនឹងការវែកញែក agentic ស្ដង់ដារ — ហើយ fault localization ក៏ប្រសើរឡើងដែរ។ Model ដូចគ្នា កូដដូចគ្នា។ អ្វីតែមួយគត់ដែលផ្លាស់ប្ដូរគឺ រូបរាង ដែលការវែកញែកត្រូវបានបង្ខំឱ្យយក។ ធ្វើឱ្យ model ជជែកដូចអ្នកតក្កវិទ្យាជំនួសឱ្យ chatbot នោះការវិនិច្ឆ័យរបស់វាអំពីកូដឡើងជាខ្ទង់ពីរ។

ហេតុអ្វីនេះជាដំណឹងល្អ — និងជាឱកាសសម្រាប់អាស៊ីអាគ្នេយ៍

នេះជាការសន្និដ្ឋានជាក់ស្ដែង ហើយវាធ្លាក់ចុះកន្លែងដូចគ្នានឹងអត្ថបទផ្សេងទៀតរបស់យើង។ បើគុណភាពការវែកញែកជាប៊ូតុងថេរនៅខាងក្នុង model នោះវិធីតែមួយគត់ដើម្បីទទួលបានវាច្រើនជាងគឺរង់ចាំការចេញផ្សាយ frontier បន្ទាប់ — ល្បែងដែលមានតែ labs មួយក្ដាប់តូចអាចលេងបាន។ ប៉ុន្តែវាមិនថេរទេ។ ពិធីការវែកញែករៀបរចនា ការបែងចែក maker/checker ប៉ុស្តិ៍សង្កេតដែលលៃតម្រូវដើម្បីលើកការពិតត្រឹមត្រូវឱ្យលេចចេញ — ទាំងនេះលើកគុណភាពនៃ ការគិត ដោយមិនប៉ះទម្ងន់ model។ ការវែកញែក ភាគច្រើន គឺជាអ្វីដែលអ្នកធ្វើវិស្វកម្មជុំវិញ model។

នោះជាមូលហេតុដូចគ្នាដែល យើងតែងតែអះអាង ថាយុគ agentic បើកចំហទូលាយដល់អ្នកអភិវឌ្ឍនៅអាស៊ីអាគ្នេយ៍។ ការរចនាពិធីការវែកញែកល្អសម្រាប់ domain ជាក់លាក់ — របៀបផ្ទៀងផ្ទាត់វិក្កយបត្រភាសាខ្មែរ របៀបពិនិត្យច្បាប់អនុលោមភាពកម្ពុជា របៀបតាមដានតក្កវិជ្ជានៃ batch job ធនាគារ — គឺជាវិស្វកម្មសូហ្វវែរ និងការយល់ដឹង domain មិនមែនថវិកា GPU ទេ។ Model ត្រូវបានជួលក្នុងតម្លៃថេរពី California។ Scaffold ការវែកញែកដែលធ្វើឱ្យវា អាចទុកចិត្តបានលើបញ្ហារបស់អ្នក គឺជារបស់អ្នកដែលត្រូវសាងសង់ ហើយវាជាប្រភេទការងារប្រព័ន្ធដែលរៀបរចនាដោយប្រុងប្រយ័ត្នដែលតំបន់នេះធ្វើបានល្អ។

អ្វីដែលត្រូវយកពីរឿងនេះ

កុំចាត់ទុកការវែកញែករបស់ model ជា black box ដែលអ្នកអាចតែអធិស្ឋានទៅ។ អ្នកអាចរៀបរូបរាងវាបាន។ ផ្ដល់ឱ្យវានូវ loop សង្កេត-និង-កែតម្រូវតឹងជាង។ បង្ខំវាឱ្យឆ្លងកាត់ premises ច្បាស់លាស់ ជំនួសឱ្យការអនុញ្ញាតឱ្យវាភ្ជាប់គំនិតដោយសេរី។ បំបែក agent ដែលស្នើចេញពីមួយដែលពិនិត្យ។ លៃតម្រូវប៉ុស្តិ៍សង្កេតដើម្បីឱ្យការពិតមកដល់លឿន និងច្បាស់។

១,៦% គឺជាកន្លែងដែលការគិតកើតឡើង។ ប៉ុន្តែវាគិតបានល្អប៉ុនណា ត្រូវបានសម្រេច ភាគច្រើន ដោយ ៩៨,៤% ដែលអ្នកសាងសង់ជុំវិញវា — ហើយឥឡូវនេះដោយ រូបរាង នៃការវែកញែកដែលអ្នកស្នើឱ្យវាធ្វើតាម។ Model នាំមកនូវបញ្ញា។ អ្នកនាំមកនូវវិន័យ។