صدور Kimi K2 Thinking:أفضل نموذج بالعالم اصبح من الصين؟

أطلقت شركة Moonshot AI الصينية في نوفمبر 2025 نموذج Kimi K2 Thinking، وهو نموذج يمثل لحظة فارقة في تاريخ النماذج مفتوحة المصدر. هذا الإطلاق يعتبر أكبر من إطلاق DeepSeek R1 الأصلي، حيث أصبح النموذج الأقرب على الإطلاق من ان يكون افضل نموذج بالعالم، إما مطابقاً أو متأخراً بفارق بسيط جداً عن GPT-5-High.[1][2][3][4]

المواصفات التقنية

النموذج ضخم بكل المقاييس:
تريليون Parameter إجمالي مع 32 مليار Parameter نشط في كل استدعاء،
مستخدماً معمارية Mixture of Experts مع 384 خبير، يتم تفعيل 8 منهم لكل token.
يدعم النموذج context window بحجم 256K token
ويستخدم INT4 quantization أصلياً، مما حقق تسريعاً بمقدار 2x في سرعة الاستدلال دون التضحية بالجودة.[3:1][5][1:1]

التركيز على Agent Workloads واستدعاءات الأدوات

ما يميز Kimi K2 Thinking حقاً هو تركيزه الاستثنائي على عمليات الـAgents ودقة استدعاء الأدوات. يستطيع النموذج تنفيذ 200-300 tool call متسلسل دون تدخل بشري، مع استدلال متماسك عبر مئات الخطوات لحل المشكلات المعقدة. يدعم النموذج أيضاً Interleaved thinking، وهي ميزة متقدمة تسمح للنموذج بالعودة لمرحلة التفكير أثناء الرد نفسه، بدلاً من البدء برد جديد.[6][1:2][3:2]

الأداء في الاختبارات

النتائج مذهلة: حقق النموذج 67 نقطة على Artificial Analysis Intelligence Index، وهو أعلى رقم على الإطلاق لنموذج مفتوح الاوزان. على Humanity’s Last Exam حقق 44.9% مع الأدوات، متفوقاً على GPT-5 الذي حقق 41.7%.
على BrowseComp، وهو اختبار يقيس القدرة على البحث والتصفح المستمر، حقق 60.2% مقارنة بـ54.9% لـGPT-5 و24.1% فقط لـClaude Sonnet 4.5.[2:1][4:1][1:3][3:3]

في مهام البرمجة، حقق 71.3% على SWE-Bench Verified و61.1% على SWE-Multilingual. بينما لا يزال GPT-5 متقدماً قليلاً في بعض المهام البرمجية القصيرة (74.9%)، فإن Kimi K2 يتفوق في سيناريوهات multi-step reasoning وworkflows التي تتطلب استخدام أدوات متعددة.[7][1:4][3:4]

الفجوة بين Benchmarks والواقع

رغم هذه النتائج المبهرة، تشير بعض التجارب الأولية للمستخدمين إلى أن الأداء الفعلي في البرمجة ليس بنفس مستوى التوقعات من الاختبارات. هذا يعزز الشكوك المتزايدة حول مدى فائدة الاختبارات الحالية كمعيار موثوق.

على سبيل المثال، يُظهر LiveCodeBench أن GPT-OSS-120b حصل على 88%، مما يجعله يبدو “أفضل نموذج” على الإطلاق، وهو ما لا يعكس الواقع العملي بتاتاً. هذه الفجوة بين الأرقام والتجربة الفعلية تذكّرنا بأن الاختبارات ليست بديلاً عن الاستخدام الحقيقي، وأن التقييم الموضوعي يتطلب أكثر من مجرد النظر إلى النتائج.[1:5][3:5][6:1]

جودة الكتابة باللغة الإنجليزية

ما يثير الدهشة حقاً هو تفوق النموذج في الكتابة الطبيعية بالإنجليزية، رغم كونه نموذجاً صينياً. لقد ركز فريق Moonshot بشكل صريح على تحسين الكتابة الطبيعية بالإنجليزية، لدرجة أنه أصبح أفضل من GPT-5 وClaude Sonnet 4.5 في هذا المجال. السبب؟ تجنب الإفراط في استخدام القوائم والنقاط، مما يجعل النصوص أكثر طبيعية وتدفقاً.[1:6]

على SketchBench (اختبار مضحك لتسمية حركات التزلج)، حقق النموذج 60%، وهو أعلى رقم لنموذج صيني على الإطلاق، مما يدل على تقارب الفجوة الثقافية بين النماذج الصينية والأمريكية.

تكلفة التدريب: أرقام مذهلة لكن بتحفظات

حسب مصدر مطلع نقلته CNBC، بلغت تكلفة تدريب نموذج Kimi K2 Thinking هي 4.6 مليون دولار فقط. هذا الرقم اقل من DeepSeek R1 الذي كلف 294 ألف دولار للتدريب (لكن مع 6 ملايين دولار للبنية التحتية الكاملة)، وأرخص بشكل هائل من النماذج الأمريكية حيث صرح Sam Altman من OpenAI أن تكلفة تدريب النماذج الأساسية تتجاوز 100 مليون دولار “بكثير”.[8][9][10][11][12][1:7]

لكن يجب الحذر عند المقارنة: المعامل الصينية عادة ما تقصد بتكلفة التدريب آخر محاولة ناجحة فقط، بينما قد تشمل الأرقام الأمريكية التكلفة الكاملة من الفكرة الأولى إلى محاولات التدريب المتعددة والفاشلة وصولاً إلى النموذج النهائي. هذا الاختلاف في طريقة الحساب يجعل المقارنة المباشرة مضللة إلى حد ما، رغم أن الفارق يظل ضخماً في جميع الأحوال.[13][8:1]

سرعة تطور النماذج مفتوحة المصدر

الأمر الأكثر إثارة للقلق بالنسبة للشركات الكبرى هو سرعة مواكبة النماذج المفتوحة لنماذجهم الرائدة. Kimi K2 Thinking يقارب او يطابق أداء GPT-5 بعد أقل من ثلاثة أشهر فقط من إطلاقه. هذه السرعة المذهلة في التطور تضع ضغطاً هائلاً على المختبرات الأمريكية الكبرى.[14][1:8]

ردود الفعل والتسريبات

يبدو أن المختبرات الكبرى بدأت تتفاعل مع هذا التهديد. بدأت تسريبات حول GPT-5.1، مع ظهور نموذج Polaris Alpha الغامض على OpenRouter.ai، والذي يُشتبه بقوة أنه GPT-5.1. التسريبات من JavaScript bundles لـOpenAI تؤكد وجود GPT-5.1 Pro وGPT-5.1 Reasoning في الكود.[1:9]

الخلاصة

نموذج Kimi K2 Thinking ليس مجرد نموذج جديد، بل هو إعلان واضح أن النماذج مفتوحة المصدر أصبحت على مسافة قريبة جداً من State of the Art. مع تريليون Parameter، وقدرات استثنائية في agent workflows، وأداء متميز على الاختبارات الرئيسية، ودعم حقيقي لمئات الـtool calls المتسلسلة، وتكلفة تدريب منخفضة بشكل مذهل، يمثل هذا النموذج تحدياً حقيقياً للنماذج المغلقة. لكن يجب التعامل مع نتائج الـbenchmarks وأرقام التكلفة بحذر، فالتجربة الفعلية والمحاسبة الدقيقة قد تختلف عن الأرقام المعلنة.[4:2][13:1][3:6][6:2][1:10]

السؤال الآن: هل ستتمكن الشركات الأمريكية من الحفاظ على تفوقها، أم أننا نشهد بداية عصر جديد من الهيمنة الصينية في مجال النماذج اللغوية؟[1:11]

تم كتابة الموضوع مع Claude 4.5 Sonnet Thinking على Perplexity مع تنقيحات وتصحيحات مني.


  1. Alibaba-backed Moonshot releases its second AI update in four months as China’s AI race heats up ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  2. China’s Moonshot AI launches new model lauded as No 1 among open-source systems | South China Morning Post ↩︎ ↩︎

  3. kimi-k2-thinking ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  4. Kimi K2 thinking: The open-source model giving closed AI labs a run for their money - TechTalks ↩︎ ↩︎ ↩︎

  5. Reddit - The heart of the internet ↩︎

  6. Reddit - The heart of the internet ↩︎ ↩︎ ↩︎

  7. Kimi K2 Thinking vs GPT-5 vs Claude Sonnet 4.5 - Which is better? - Bind AI ↩︎

  8. Reddit - The heart of the internet ↩︎ ↩︎

  9. Kimi K2 Thinking ↩︎

  10. Deepseek-R1: AI training costs less than $300,000 | heise online ↩︎

  11. https://www.cnn.com/2025/09/19/business/deepseek-ai-training-cost-china-intl ↩︎

  12. https://www.reuters.com/world/china/chinas-deepseek-says-its-hit-ai-model-cost-just-294000-train-2025-09-18/ ↩︎

  13. Kimi K2 Thinking, a SOTA open-source trillion-parameter reasoning model | Hacker News ↩︎ ↩︎

  14. Moonshot's Kimi K2 Thinking emerges as leading open source AI, outperforming GPT-5, Claude Sonnet 4.5 on key benchmarks | VentureBeat ↩︎