گوگل درحال ارائه یک مدل هوش مصنوعی جدید و جاهطلبانه است که برای تعامل با اینترنت به شیوهای کاملاً انسانی طراحی شده است. این مدل هوش مصنوعی تخصصی که Gemini 2.5 Computer Use نام دارد، میتواند در مرورگرهای وب پیمایش کند، روی دکمهها کلیک کند، فرمها را پر کند و حتی در صفحات پیمایش کند و همه اینها بر اساس یک متن ساده انجام میشود. این یک گام مهم بهسوی ایجاد عاملهای هوش مصنوعی (AI agents) است که میتوانند وظایف پیچیده دیجیتال را بهصورت خودکار انجام دهند. این مدل همچنین میتواند فراتر از پاسخهای ساده چتبات باشد تا بهطور فعال با رابطهای کاربری تعامل داشته باشد.خلاصه و نکات کلیدی🔹 گوگل نسخه پیشنمایش عمومی مدل Gemini 2.5 Computer Use را منتشر کرد؛ یک هوش مصنوعی تخصصی که میتواند رابطهای کاربری گرافیکی مانند مرورگرها را کنترل کند.🔹 این مدل با دریافت اسکرینشات و درخواست کاربر، اقداماتی مانند کلیک کردن، تایپ کردن و کشیدن و رها کردن را بهصورت خودکار انجام میدهد.🔹 در مثالهای ارائهشده، این هوش مصنوعی توانست بهصورت خودکار اطلاعات را از یک وبسایت استخراج و در سایت دیگری وارد کند و یادداشتهای دیجیتال را مرتب نماید.🔹 این مدل از امروز، چهارشنبه ۱۶ مهر، از طریق Gemini API در Google AI Studio و Vertex AI در دسترس توسعهدهندگان قرار گرفته است.مدل هوش مصنوعی Gemini 2.5 Computer Use چگونه کار میکند؟این «مدل تخصصی» میتواند با رابطهای کاربری گرافیکی (GUI)، بهویژه مرورگرها و وبسایتها، تعامل داشته باشد. این فرآیند در یک حلقه و طی چند مرحله انجام میشود تا زمانی که وظیفه کامل شود:ارسال درخواست به مدل: ورودیها شامل «درخواست کاربر، اسکرینشات از محیط و تاریخچه اقدامات اخیر» است.تولید پاسخ توسط مدل: مدل این ورودیها را تحلیل کرده و یک پاسخ، معمولاً به شکل یک فراخوانی تابع (function call) که یکی از اقدامات رابط کاربری مانند کلیک کردن یا تایپ کردن را نشان میدهد، تولید میکند.اجرای پاسخ: کد سمت کلاینت، اقدام دریافتشده را اجرا میکند.ارسال بازخورد و تکرار: پس از اجرای اقدام، یک اسکرینشات جدید از GUI و URL فعلی بهعنوان پاسخ تابع به مدل ارسال میشود و حلقه دوباره آغاز میگردد.دیگر اقدامات رابط کاربری که توسط این مدل پشتیبانی میشوند شامل بازگشت/جلو رفتن، جستجو در وب، رفتن به یک URL خاص، نگه داشتن نشانگر موس، ترکیبهای صفحهکلید، اسکرول کردن و کشیدن و رها کردن (drag/drop) است.مدل هوش مصنوعی Gemini 2.5 Computer Useنمونههایی از قابلیتهای Gemini 2.5 Computer Useگوگل دو مثال از دستورات پیچیدهای که این مدل میتواند انجام دهد را به اشتراک گذاشته است:«از آدرس [X]، تمام جزئیات مربوط به هر حیوانی با اقامت کالیفرنیا را دریافت کن و آنها را بهعنوان مهمان در CRM اسپای من در آدرس [Y] اضافه کن. سپس، یک قرار ملاقات پیگیری با متخصص آنیما لاوار برای ۱۰ اکتبر هر زمانی بعد از ساعت ۸ صبح تنظیم کن. دلیل مراجعه همان درمانی است که درخواست کردهاند.»«باشگاه هنری من برای نمایشگاه آینده وظایفی را ایدهپردازی کرده است. تخته یادداشتها شلوغ است و برای سازماندهی وظایف به کمک تو نیاز دارم. به آدرس [Z] برو و اطمینان حاصل کن که یادداشتها به وضوح در بخشهای درست قرار دارند. اگر نیستند، آنها را به آنجا بکش کش.»محدودیتها، عملکرد و نحوه دسترسیمدل Gemini 2.5 Computer Use «در درجه اول برای مرورگرهای وب بهینهسازی شده است». بااینحال، گوگل یک بنچمارک به نام «AndroidWorld» دارد که «پتانسیل قوی برای وظایف کنترل رابط کاربری موبایل» را نشان میدهد، درحالیکه این مدل «هنوز برای کنترل در سطح سیستمعامل دسکتاپ بهینهسازی نشده است».این مدل بر پایه قابلیتهای درک و استدلال بصری Gemini 2.5 Pro ساخته شده و فناوری اصلی پشت پروژه Mariner و قابلیتهای عاملمحور AI Mode است. این مدل از امروز، چهارشنبه ۱۶ مهر، در نسخه پیشنمایش عمومی از طریق Gemini API در Google AI Studio و Vertex AI در دسترس قرار گرفته است.بهنظر شما، آیا این نوع هوش مصنوعی عاملمحور که میتواند بهصورت خودکار وظایف را در کامپیوتر انجام دهد، آینده تعامل ما با نرمافزارها خواهد بود و جایگزین روشهای دستی فعلی میشود؟نوشته گوگل از مدل Gemini 2.5 Computer Use رونمایی کرد: هوش مصنوعی که کامپیوتر شما را کنترل میکند اولین بار در ترنجی پدیدار شد.