Story Content
लॉन्च: Moonshot AI ने 20 अप्रैल, 2026 को Kimi K2.6 लॉन्च किया—एक ओपन-सोर्स, 1-ट्रिलियन-पैरामीटर वाला 'मिक्सचर-ऑफ़-एक्सपर्ट्स' मॉडल। इसने SWE-Bench Pro पर 58.6 का स्कोर किया है और यह 4,000 समन्वित चरणों में 300 सब-एजेंट चला सकता है, जिसकी API कीमत Claude Opus की कीमत का लगभग एक-चौथाई है।
बेंचमार्क बढ़त: इस मॉडल का SWE-Bench Pro पर स्कोर 58.6% है, जो GPT-5.4 (57.4%) और Claude Opus (53.4%) से बेहतर है। साथ ही, इसमें एक साथ 300 सब-एजेंट (पहले के 100 के बजाय) चलाने की 'एजेंट स्वार्म' क्षमता भी है। इसे क्या अलग बनाता है? K2.6 का सबसे खास पहलू है लंबे समय तक चलने वाला एग्ज़ीक्यूशन—यानी बिना किसी इंसानी मदद के, हज़ारों स्टेप्स वाला अपने-आप होने वाला काम। एक और टेस्ट में, इस मॉडल ने 13 घंटों के अंदर एक ट्रेडिंग इंजन को फाइनेंशियल ट्रेडिंग की खूबियों के साथ फिर से कॉन्फ़िगर कर दिया; इसमें 4,000 से ज़्यादा लाइनों का कोड बदला गया, और परफ़ॉर्मेंस में 185% की औसत बढ़ोतरी देखी गई।
यह कहाँ पीछे रह जाता है: GPT-5.4 और Gemini 3.1 Pro, सिर्फ़ तर्क-शक्ति वाले टेस्ट—जैसे AIME 2026, GPQA Diamond, और बिना किसी टूल के इस्तेमाल के किए जाने वाले तर्क-शक्ति वाले कामों में सबसे आगे बने हुए हैं। अगर कोई मुश्किल सवाल सिर्फ़ एक बार में हल करना हो, तो GPT-5.4 ज़्यादा असरदार विकल्प है।
चीनी मॉडल्स का मुकाबला—चीनी मॉडल्स से मिलने वाला मुकाबला अभी से दिखने लगा है। Anthropic ने पिछले एक साल में अपना काफ़ी मार्केट शेयर गँवा दिया है, और तुलना करने पर पता चलता है कि MiniMax M2.7 भी वैसी ही क्वालिटी दे रहा है जैसी Claude देता है, लेकिन इसकी कीमत Claude की कीमत का सिर्फ़ 7% है। The Register
इंडस्ट्री की प्रतिक्रिया: जानकारों का मानना है कि Anthropic और OpenAI, K2.6 के जवाब में 30 दिनों के अंदर कोई कदम उठाएँगे—या तो वे Claude Opus की कीमतें बदलेंगे या फिर 'कॉन्टेक्स्ट विंडो' (context windows) जोड़ेंगे। AI के क्षेत्र में मुकाबला अब और भी ज़्यादा रोमांचक हो गया है।




Comments
Add a Comment:
No comments available.