ترکیب مدل‌های هوش مصنوعی Gemini و Veo گوگل برای درک جهان فیزیکی

۱۴۰۴/۱/۲۳ ۰۲:۵۶:۲۲

گوگل در حال توسعه استراتژی جدیدی در زمینه هوش مصنوعی است که هدف آن ایجاد یک دستیار دیجیتالی جهانی با قابلیت درک چندرسانه‌ای است.
دمیس هاسابیس، مدیرعامل DeepMind، تأکید کرده که مدل Gemini از ابتدا برای چندرسانه‌ای بودن طراحی شده است. این رویکرد بخشی از چشم‌انداز گوگل برای ساخت یک دستیار هوش مصنوعی است که بتواند در دنیای واقعی به کاربران کمک کند.
صنعت هوش مصنوعی به سمت مدل‌های "اُمنی" حرکت می‌کند که قادرند انواع مختلف رسانه را درک و ترکیب کنند. شرکت‌های بزرگ فناوری مانند گوگل، OpenAI و آمازون در حال توسعه چنین مدل‌هایی هستند.
گوگل برای آموزش مدل Veo از ویدیوهای یوتیوب استفاده می‌کند تا درک مدل از فیزیک دنیای واقعی را بهبود بخشد. این اقدام با گسترش شرایط خدمات یوتیوب در سال گذشته همراه بوده است. /

دستیار هوش مصنوعی چندرسانه‌ای با قابلیت درک دنیای فیزیکی

GeminiVeoهوش مصنوعیفناوریگوگلDeepMindمدل چندرسانه‌ایهوش مصنوعی چندرسانه‌ایمدل‌های اُمنی گوگلGemini و Veo

	سرعت گوگل در انتشار مدل‌های هوش مصنوعی از گزارش‌های ایمنی آن پیشی گرفته است
	گوگل نسخه جدید Gemini 2.5 Pro را معرفی کرد
	تحول هوش مصنوعی در رویداد Google I/O 2025؛ از متن تا ویدیو با یک کلیک
	Chrome با Gemini، فراتر از یک مرورگر ساده
	400 میلیون دلیل برای موفقیت Gemini
	گام بلند گوگل برای دسترسی‌پذیری با هوش مصنوعی
	از ساعت مچی تا تلویزیون؛ سلطه Gemini بر دستگاه‌های هوشمند
	گوگل قابلیت جدید ویرایش تصویر را به ربات هوش مصنوعی Gemini اضافه کرد

	گوگل با قابلیت‌های جدید هوش مصنوعی Gemini از اپل پیشی گرفت

ترکیب مدل‌های هوش مصنوعی Gemini و Veo گوگل برای درک جهان فیزیکی

ممکن است به این اخبار فناوری و تکنولوژی نیز علاقمند باشید