វិក្កយបត្រជាឧបសគ្គថ្មី៖ សេដ្ឋកិច្ចនៃ Agentic AI

ការសន្ទនាភាគច្រើនអំពី agentic AI គឺអំពីសមត្ថភាព — អ្វីដែល agent អាចធ្វើ វាស្វយ័តប៉ុនណា វាវែកញែកល្អប៉ុនណា។ ស្ទើរគ្មានអ្វីអំពីវិក្កយបត្រ។ នោះជាកំហុស ព្រោះសម្រាប់ក្រុមណាដែលដំណើរការ agent ក្នុង production ពិតប្រាកដ ឧបសគ្គដែលចងភ្ជាប់ក្នុងឆ្នាំ ២០២៦ មិនមែនថាតើ agent អាច ធ្វើការងារទេ។ វាជាថាតើអ្នកអាចមានលទ្ធភាពឱ្យវាធ្វើ។ វិក្កយបត្រជាឧបសគ្គថ្មី ហើយវាមានឥរិយាបថមិនដូចគំរូថ្លៃដែលមនុស្សយកមកពីយុគ chatbot ទេ។

នេះជាការផ្លាស់ប្ដូរក្នុងប្រយោគមួយ៖ ការបង្កើតក្លាយជាថោក ប៉ុន្តែការដំណើរការ loop មិនថោកទេ។ ការហៅ model តែមួយថោក និងកាន់តែថោក។ Agent មិនមែនការហៅតែមួយទេ — វាជា loop ដែលហៅ model ម្ដងហើយម្ដងទៀត ដោយអូសប្រវត្តិកកកុញទាំងមូលរបស់វាជាមួយរាល់ពេល។ ហើយថ្លៃនៃ loop នោះកើនឡើងតាមរបៀបដែលបំផ្លាញថវិកាដែលសាងសង់លើវិចារណញាណក្នុងមួយការហៅស្ងាត់ៗ។

ពន្ធ loop

ចាប់ផ្ដើមជាមួយលេខដែលរៀបចំក្របខ័ណ្ឌអ្វីៗឡើងវិញ។ ក្នុងការ audit production ៣០ ក្រុម loop agent ប្រាំជំហានចំណាយប្រហែល ៣,២ ដង នៃអ្វីដែលការហៅ chatbot តែមួយចំណាយសម្រាប់ការងារ ដូចគ្នា — $0.049 ក្លាយជា $0.158។ នោះមិនស្ដាប់ទៅគួរឱ្យព្រួយបារម្ភ រហូតអ្នកឃើញខ្សែកោងដែលវាស្ថិតនៅ៖ ត្រឹម ២០០ ជំហាន — ប្រវែងធម្មតាសម្រាប់វគ្គ debug ស្វយ័ត — មេគុណលើស ១០០ ដង។ ការប៉ាន់ស្មានរបស់វិស័យដាក់បន្ទុកការងារ agentic នៅ ១០ ទៅ ១០០ ដង នៃការប្រើ token នៃអន្តរកម្ម chatbot ប្រៀបធៀប។

ហេតុអ្វី? ព្រោះរាល់ជំហានក្នុង loop ដាក់ស្នើ context កកកុញទាំងមូលឡើងវិញ — system prompt និយមន័យឧបករណ៍ រាល់ជំហានមុន និងលទ្ធផលឧបករណ៍។ ត្រឹមជំហាន ២០ អ្នកកំពុងបង់ដើម្បីផ្ញើ system prompt ដូចគ្នា និងប្រវត្តិសន្ទនាដូចគ្នាម្ភៃដង។ ការងារដែល agent ធ្វើ កើនឡើង ប៉ុន្តែ context ដែលវាអានឡើងវិញកើនលឿនជាង ហើយអ្នកត្រូវបានគិតថ្លៃលើការអានឡើងវិញរាល់វេន។

ការ audit ធ្វើឱ្យវាជាក់ស្ដែង។ នៃវិក្កយបត្រ agentic ធម្មតា៖ ៦២% ទៅ context ដែលផ្ញើឡើងវិញ (input token ដែល model បានឃើញរួច) ១៤% ទៅនិយមន័យឧបករណ៍ ១១% ទៅ output វែកញែកពិតប្រាកដដែលអ្នកចង់បាន ៨% ទៅ system prompts និង ៥% ទៅការព្យាយាមឡើងវិញដែលខ្ជះខ្ជាយ។ អានការបំបែកនោះម្ដងទៀត។ របស់ដែលអ្នកកំពុងបង់ — ការគិតថ្មីពិតប្រាកដរបស់ agent — ជា ដប់មួយភាគរយ នៃវិក្កយបត្រ។ ភាគច្រើននៃអ្វីដែលអ្នកចំណាយជា agent អាននូវអ្វីដែលវាស្គាល់រួច។

ការធ្វើគំរូរបស់ EY នៃការផ្លាស់ប្ដូរដូចគ្នាពីមុំខុសគ្នា៖ អន្តរកម្មសេវាអតិថិជនដែលចំណាយប្រហែល $0.04 ក្នុងឆ្នាំ ២០២៣ ជា workflow input-retrieve-respond សាមញ្ញ ចំណាយប្រហែល $1.20 ក្នុងឆ្នាំ ២០២៦ ពេលវាក្លាយជា orchestration ប្រើឧបករណ៍ ច្រើនជំហាន sub-agent។ នោះជាការកើនឡើង ៣០ ដង សម្រាប់មុខងារផ្ទៃដូចគ្នា — ហើយ EY ប្រុងប្រយ័ត្នកត់សម្គាល់ថាវិក្កយបត្រ token ជាតែមួយក្នុងចំណោមប្រភេទថ្លៃប្រាំពីរ។ ហេដ្ឋារចនាសម្ព័ន្ធ ការវាយតម្លៃ អភិបាលកិច្ច ការគ្រប់គ្រងការផ្លាស់ប្ដូរ និងការស្ដារពីការបរាជ័យ មិនបង្ហាញលើវិក្កយបត្ររបស់អ្នកលក់ model ប៉ុន្តែពិតប្រាកដស្មើគ្នា។

ឧបករណ៍បួនដែលដំណើរការពិតប្រាកដ

ដំណឹងល្អគឺថាពន្ធ loop ជាបញ្ហា វិស្វកម្ម មិនមែនច្បាប់ធម្មជាតិ — ហើយការ audit ដូចគ្នាដែលធ្វើរោគវិនិច្ឆ័យវាកំណត់ឧបករណ៍ដែលដំណើរការ។ គ្មានមួយក្នុងចំណោមពួកវាត្រូវការ model ល្អជាង។ ទាំងអស់ជាការសម្រេចចិត្តដែលអ្នកធ្វើក្នុង harness៖

Prompt caching។ System prompt និងនិយមន័យឧបករណ៍ដូចគ្នារាល់វេន — ដូច្នេះ cache ពួកវាជាជាងគិតថ្លៃឡើងវិញ។ ក្នុងការ audit caching កាត់ថ្លៃ system-prompt ប្រហែល ៨៨%។ នេះជាការផ្លាស់ប្ដូរឥទ្ធិពលខ្ពស់បំផុតសម្រាប់ agent ភាគច្រើន ហើយវាស្ទើរឥតគិតថ្លៃក្នុងការអនុវត្ត។
Model-tier routing។ មិនមែនរាល់ជំហានត្រូវការ model ថ្លៃបំផុតរបស់អ្នកទេ។ ការបញ្ជូនការងារធ្ងន់ — ការអានឯកសារ ការកែសាមញ្ញ ការ format — ទៅ model ថោក ហើយរក្សា model ថ្លៃសម្រាប់ការវែកញែកពិបាក ទទួលបានលទ្ធផលគួរឱ្យភ្ញាក់ផ្អើល៖ ការបែងចែក ៨០% ថោក / ២០% ថ្លៃ ចំណាយប្រហែល ១២% នៃ workflow ថ្លៃទាំងអស់។ Output ដូចគ្នា ប្រាំបីភាគមួយនៃវិក្កយបត្រ។
Context pruning។ នេះជាកន្លែងដែលកញ្ចក់ថ្លៃជួបកញ្ចក់ភាពត្រឹមត្រូវ។ ការកាត់អ្វីដែល agent កាន់ — និយាយថា ផ្នែកឯកសារពាក់ព័ន្ធជាជាងឯកសារ ៨,០០០ token ទាំងមូល — សន្សំលុយពិតប្រាកដក្នុងមួយ loop ហើយដូចយើងបានអះអាងក្នុង វិស្វកម្ម context វាជាធម្មតាធ្វើឱ្យ agent ត្រឹមត្រូវ ជាងផងដែរ។ តួលេខ ៦២%-លើ-context-ផ្ញើឡើងវិញ ជាបញ្ហាដូចគ្នាដែលវិស្វកម្ម context ដោះស្រាយ ទីនេះវាបង្ហាញជាធាតុបន្ទាត់។ កាត់ context rot ហើយអ្នកកាត់វិក្កយបត្រ។
ដែនកំណត់ថវិកាក្នុងមួយអ្នកប្រើ។ ពិដានប្រចាំថ្ងៃរឹង ($50–$100 ក្នុងមួយអ្នកប្រើជាការកំណត់ទូទៅ) ប្រែ loop រត់ហួសពីបំណុលគ្មានទីបញ្ចប់ទៅជាមួយដែលមានកំណត់ ស្ដារឡើងវិញបាន។ នេះជាអំណះអំណាង លក្ខខណ្ឌឈប់ ក្នុងទម្រង់ហិរញ្ញវត្ថុ៖ loop គ្មានព្រំដែនមិនត្រឹមតែប្រថុយកូដអាក្រក់ វាប្រថុយវិក្កយបត្រគ្មានព្រំដែន។

ទាំងនេះគុណ។ ក្នុងការ audit ក្រុមមួយអនុវត្តពួកវាក្នុងបីសប្ដាហ៍ ហើយយកថ្លៃប្រចាំខែពី $87,000 ទៅ $24,000 — ការកាត់ ៧៣% — ដោយគ្មានការបាត់បង់សមត្ថភាព។ មេរៀនត្រង់៖ វិក្កយបត្រ agentic ភាគច្រើនមិនថ្លៃព្រោះ agent ថ្លៃទេ។ ពួកវាថ្លៃព្រោះគ្មាននរណារចនាថ្លៃ។

ផ្លូវគេចចេញ open-weight

មានឧបករណ៍ទីពីរ រចនាសម្ព័ន្ធជាជាងយុទ្ធវិធី៖ អ្នកប្រហែលជាមិនត្រូវការ frontier model ទាល់តែសោះ។ ត្រឹមពាក់កណ្ដាលឆ្នាំ ២០២៦ model coding open-weight បានបិទគម្លាតភាគច្រើនក្នុងតម្លៃមួយភាគ។ DeepSeek V4 Flash ដំណើរការប្រហែល $0.14 / $0.28 ក្នុងមួយលាន token input/output ហើយទទួល ៨០,៦% លើ SWE-bench Verified — តាមក្រោយ model ឯកជនកំពូលដូច Claude Opus 4.8 ប្រហែលប្រាំបីពិន្ទុ ខណៈចំណាយប្រហែល ម្ភៃដងតិចជាង ក្នុងមួយ token នៃ output។ MiniMax M3 អង្គុយជិត $0.30 ក្នុងមួយលាន token input ឯ GLM-5.1 ship ក្រោមអាជ្ញាប័ណ្ណ MIT ដែលអ្នកអាច self-host និង fine-tune។ ធៀបនឹងតម្លៃឯកជន frontier — Opus 4.8 នៅ $5 / $25 — open weights ចុះចតប្រហែល មួយភាគដប់ ទៅមួយភាគម្ភៃ នៃថ្លៃ។

សម្រាប់ការងារ agentic ច្រើន — ៨០% មេកានិក ការកែឯកសារ ការបង្កើត test និង boilerplate — ប្រាំបីពិន្ទុនៃភាពខុសគ្នា benchmark មើលមិនឃើញ ហើយការកាត់បន្ថយថ្លៃ ១០–២០ ដងជាការសម្រេច។ Frontier model រកប្រាក់បន្ថែមរបស់វាលើការវែកញែកពិបាកបំផុត ឯ open-weight model គ្រប់គ្រងបរិមាណ។ នោះម្ដងទៀតគ្រាន់តែ model-tier routing — យកទៅសេចក្ដីសន្និដ្ឋានដែលអាច self-host បាន។

ហេតុអ្វីនេះជាគុណសម្បត្តិអាស៊ីអាគ្នេយ៍ មិនមែនឧបសគ្គ

នេះជាផ្នែកដែលសំខាន់បំផុតសម្រាប់តំបន់ ហើយវាបញ្ច្រាសក្របខ័ណ្ឌធម្មតា។ ក្រុមស្រាលដើមទុនត្រូវបានគេសន្មតថាមានគុណវិបត្តិលើថ្លៃ។ ក្នុង agentic AI ផ្ទុយទៅវិញជាការពិត — បើ ក្រុមចាត់ទុកថ្លៃជាវិន័យវិស្វកម្មជាជាងវិក្កយបត្រដែលមកដល់។

ពិចារណាភាពមិនស្មើគ្នា។ គូប្រកួតដែលមានមូលនិធិល្អអាចស្រូបវិក្កយបត្រ agentic ដោយធ្វេសប្រហែស វាមានថវិកាដុត ហើយការដុតវាគឺពិតជាអ្វីដែលការ rollout គ្មានវិន័យធ្វើ។ ក្រុមតូចនៅភ្នំពេញ ឬ Da Nang មិនអាច — ហើយឧបសគ្គនោះបង្ខំវិន័យដែលប្រែទៅជាគែមពិតប្រាកដ។ Caching, tier routing, context pruning, ដែនកំណត់រឹង និង model open-weight សម្រាប់ការងារភាគច្រើន អនុញ្ញាតឱ្យក្រុមនោះដំណើរការប្រព័ន្ធ agentic ដូចគ្នាក្នុងតម្លៃមួយភាគ — ហើយ margin ជាកន្លែងដែលក្រុមតូចឈ្នះ ឬស្លាប់។ វិស្វកម្មដែលគ្រប់គ្រងវិក្កយបត្រជា ជំនាញ គ្មាន GPU ឥទ្ធិពលខ្ពស់ ដូចគ្នាដែលយើងតែងតែអះអាងថាតំបន់គួរសាងសង់៖ មិនត្រូវការ cluster គ្រាន់តែការវិនិច្ឆ័យអំពីកន្លែងដែលលុយទៅ។

ហើយវាគុណជាមួយអធិបតេយ្យភាព។ ក្រុមដែលអាចដំណើរការ model open-weight self-host បានយ៉ាងស្ទាត់ មិនត្រឹមតែថោកជាង — វាឯករាជ្យពីតម្លៃ ដែនកំណត់អត្រា និងលក្ខខណ្ឌទិន្នន័យរបស់អ្នកលក់បរទេស ដែលសំខាន់ខ្លាំងសម្រាប់ ការងារបរិបទក្នុងស្រុក លើប្រព័ន្ធភាសាខ្មែរ អនុលោមភាពតំបន់ និងទិន្នន័យរសើបដែលមិនគួរចេញពីប្រទេស។

Frontier lab នឹងលក់ឱ្យអ្នកដោយរីករាយនូវ loop ដែលវាស់ ហើយឱ្យវាដំណើរការ។ អ្វីដែលវានឹងមិនដែលធ្វើគឺប្រាប់អ្នកថា ៦២% នៃវិក្កយបត្ររបស់អ្នកជា agent អានកំណត់ត្រាផ្ទាល់របស់វាឡើងវិញ ឬថាប្រាំបីក្នុងដប់ជំហានរបស់អ្នកអាចដំណើរការលើ model ដែលចំណាយមួយភាគម្ភៃ។ ការគណនានោះ — ដឹងថា agent ពិតជាចំណាយប៉ុន្មាន និងរចនាវាចុះ — ជាការងារ។ ក្នុងឆ្នាំ ២០២៦ វាក៏ជាភាពខុសគ្នារវាងយុទ្ធសាស្ត្រ agentic ដែលធ្វើមាត្រដ្ឋាន និងមួយដែលធ្វើឱ្យក្ស័យធនការពិសោធន៍ស្ងាត់ៗ។