مدل هوش مصنوعی جدید اپل با معماری دیفیوژن، کدنویسی را متحول می‌کند

Wait 5 sec.

اپل در سکوت خبری، مدل هوش مصنوعی جدیدی را با نام DiffuCoder‑7B‑cpGRPO بر روی پلتفرم Hugging Face منتشر کرده که برخلاف مدل‌های زبانی مرسوم، توانایی تولید کد به‌صورت غیردنباله‌ای دارد و می‌تواند چند بخش کد را به‌طور هم‌زمان تولید و بهبود دهد. این مدل با بهره‌گیری از معماری دیفیوژن (Diffusion)، نه‌تنها سرعت تولید کد را افزایش داده، بلکه عملکردی قابل‌رقابت با بهترین مدل‌های متن‌باز تولید کد را نیز ارائه داده است؛ اما چگونه؟مدل هوش مصنوعی جدید اپل با معماری دیفیوژندر بیشتر مدل‌های زبانی بزرگ (LLM)، تولید متن بر پایه خودبازگشتی (Autoregression) است؛ به این معنا که مدل، پاسخ را از چپ به راست و بالا به پایین تولید می‌کند، توکن به توکن. این روش اگرچه طبیعی به‌نظر می‌رسد، اما ذاتاً کند است.در مقابل، مدل‌های دیفیوژن که بیشتر در تولید تصویر مانند Stable Diffusion استفاده می‌شوند، با یک ورودی پرنویز شروع می‌کنند و در چند مرحله‌ی تکراری، آن را پالایش می‌کنند تا به نتیجه دلخواه برسند. وقتی این روش در تولید متن یا کد به‌کار گرفته می‌شود، مدل می‌تواند کل متن را به‌طور هم‌زمان و موازی اصلاح کند؛ که در کدنویسی، جایی که ساختار کلی مهم‌تر از ترتیب خطی توکن‌هاست، بسیار مؤثرتر عمل می‌کند.چه چیزی DiffuCoder را خاص کرده است؟مدل اپل با نام DiffuCoder‑7B‑cpGRPO بر پایه مقاله‌ای به‌نام DiffuCoder طراحی شده که ماه گذشته منتشر شده است. ایده اصلی مقاله، استفاده از معماری دیفیوژن برای تولید کد بود، اما با یک نوآوری مهم:با افزایش دمای نمونه‌گیری (sampling temperature) از ۰.۲ به ۱.۲، مدل از قید تولید چپ‌به‌راست آزاد می‌شود و می‌تواند توکن‌ها را به‌شکلی منعطف و غیردنباله‌ای تولید کند. این ویژگی امکان تولید بخش‌هایی از کد خارج از ترتیب خطی را فراهم می‌کند که برای کدنویسی مدرن مزیتی بزرگ به‌شمار می‌آید.همچنین، با افزودن یک مرحله آموزشی اضافی تحت عنوان coupled-GRPO، اپل توانسته کیفیت نهایی کد تولیدشده را بالا ببرد و تعداد مراحل تولید را کاهش دهد.مدل هوش مصنوعی جدید اپل با معماری دیفیوژنهمکاری غیرمنتظره با علی‌باباجالب است بدانید اپل این مدل را برپایه Qwen2.5‑7B، یک مدل متن‌باز منتشرشده توسط علی‌بابا توسعه داده است. ابتدا مدل اصلی توسط علی‌بابا برای کدنویسی بهینه‌سازی شد (Qwen2.5‑Coder‑7B) و سپس اپل آن را به نسخه‌ای با رمزگشای مبتنی بر دیفیوژن تبدیل کرد، قابلیت دنبال‌کردن دستورالعمل‌ها را بهبود بخشید و درنهایت آن را با بیش از ۲۰٬۰۰۰ نمونه انتخاب‌شده از کدهای باکیفیت آموزش داد.نتیجه این فرایند، مدلی بود که در آزمون‌های معتبر تولید کد، ۴.۴٪ بهبود عملکرد نسبت به نسخه اولیه خود داشته و وابستگی کمتری به تولید چپ‌به‌راست دارد.سخن پایانیهرچند DiffuCoder‑7B‑cpGRPO هنوز به سطح مدل‌هایی مانند GPT-4 یا Gemini Diffusion نرسیده، اما عملکرد آن در مقایسه با سایر مدل‌های دیفیوژن چشمگیر بوده است. با وجود محدودیت‌هایی مانند تعداد نسبتاً پایین پارامترها (۷ میلیارد)، حرکت اپل در مسیر معماری‌های جدیدتر و پشتیبانی از تولید موازی و انعطاف‌پذیر کد، نشان می‌دهد که این شرکت درحال پایه‌گذاری جدی برای ورود قدرتمند به دنیای هوش مصنوعی مولد است. این مدل، نوآوری در ساختار، بهینه‌سازی آموزشی و ادغام تجربیات بازیگران دیگر (مانند علی‌بابا) را با هم ترکیب کرده و نمایی از رویکرد آینده‌ی اپل در حوزه‌ی AI را به‌نمایش می‌گذارد.نوشته مدل هوش مصنوعی جدید اپل با معماری دیفیوژن، کدنویسی را متحول می‌کند اولین بار در ترنجی پدیدار شد.