هوش مصنوعی در اندازه جیبی؛ معجزه DeepSeek
شرکت هوش مصنوعی DeepSeek اخیراً یک نسخه کوچکتر و بهینهشده از مدل R1 خود را با نام DeepSeek-R1-0528-Qwen3-8B معرفی کرده است. این مدل که بر پایه مدل Qwen3-8B شرکت علیبابا توسعه یافته، در آزمونهای ریاضی پیچیده مانند AIME 2025 عملکردی بهتر از مدل Gemini 2.5 Flash گوگل داشته است.
مدلهای تقطیر شده مانند DeepSeek-R1-0528-Qwen3-8B معمولاً از نظر توانایی کمتر از نسخههای اصلی هستند، اما مزیت آنها نیاز به منابع محاسباتی کمتر است. برای مثال، این مدل تنها به یک کارت گرافیک با 40 تا 80 گیگابایت حافظه نیاز دارد، در حالی که نسخه اصلی R1 به حدود یک دوجین کارت گرافیکی نیاز دارد.
DeepSeek این مدل را با استفاده از متنهای تولید شده توسط نسخه اصلی R1 و بهینهسازی مدل Qwen3-8B آموزش داده است. این مدل با لایسنس MIT منتشر شده و برای استفاده تحقیقاتی و تجاری در دسترس است. /



