• OpenAI رونمایی از مدل‌های جدید هوش مصنوعی گفتار و رونویسی

    شرکت OpenAI مدل‌های جدید “gpt-4o-mini-tts” و “gpt-4o-transcribe” را معرفی کرد که دقت و کیفیت بالاتری دارند. مدل TTS صدایی طبیعی‌تر و قابل تنظیم ارائه می‌دهد، درحالی‌که مدل STT جایگزین Whisper شده و دقت بیشتری در تشخیص گفتار دارد. برخلاف Whisper، این مدل‌ها متن‌باز نخواهند بود.

    ۱۴۰۴/۱/۲ ۱۲:۲۲:۴۸
  • Google Meet حالا با ترجمه زنده گفتار؛ زبان دیگر مانع نیست

    🌍 گوگل در رویداد I/O 2025 اعلام کرد که قابلیت «ترجمه گفتار به‌صورت زنده» را به Google Meet اضافه کرده است 🗣️ این ویژگی با کمک مدل صوتی پیشرفته DeepMind، امکان گفت‌وگو با افراد به زبان‌های مختلف را در زمان واقعی فراهم می‌کند، آن هم با حفظ لحن، صدا و احساسات طرف مقابل 🎧💬
    مثلاً نوه‌های انگلیسی‌زبان می‌توانند با مادربزرگ اسپانیایی‌زبانشان راحت صحبت کنند یا شرکت‌های بین‌المللی جلسات چندزبانه برگزار کنند، بدون نیاز به مترجم 🌐👵🏢
    صدا با تأخیر بسیار کم ترجمه می‌شود و صدای اصلی شخص نیز به‌صورت کمرنگ در پس‌زمینه شنیده می‌شود 🎙️🔊

    ۱۴۰۴/۳/۱ ۰۱:۱۶:۵۵
  • فناوری مغزی ایلان ماسک یک گام دیگر به واقعیت نزدیک شد

    ⚡🧠🗣️ شرکت نورالینک (Neuralink) به رهبری ایلان ماسک موفق شد تأییدیه ویژه FDA ( سازمان غذا و داروی آمریکا ) را برای دستگاهی نوآورانه دریافت کند که می‌تواند امکان ارتباط دوباره را برای افرادی با ناتوانی شدید گفتاری فراهم کند. این فناوری امید تازه‌ای برای مبتلایان به ALS، سکته مغزی ، آسیب نخاعی و دیگر بیماری‌های عصبی ایجاد کرده و حالا با این تأییدیه، مسیر توسعه و عرضه آن بسیار سریع‌تر خواهد شد. 🚀✅

    ۱۴۰۴/۲/۱۳ ۰۷:۴۷:۴۳
  • دانشجویان جوان، رقیبی برای هوش مصنوعی صوتی گوگل با نام Dia ساختند

    دو دانشجوی کره‌ای بدون تجربه زیاد در هوش مصنوعی، مدلی به نام “Dia” ساخته‌اند که می‌تواند صدای مصنوعی مانند پادکست تولید کند؛ عملکرد آن مشابه ابزار NotebookLM گوگل است، اما کنترل بیشتری به کاربر می‌دهد. این مدل رایگان است و در پلتفرم‌های Hugging Face و GitHub قابل دسترسی است. کاربران می‌توانند لحن صدا، مکث‌ها، سرفه و خنده را در گفت‌وگوها تنظیم کنند و حتی صدای واقعی افراد را شبیه‌سازی کنند. هرچند این ابزار محافظت زیادی در برابر سوءاستفاده ندارد و مشخص نیست از چه داده‌هایی برای آموزش آن استفاده شده، اما سازندگان آن قصد دارند پلتفرمی با قابلیت‌های اجتماعی و چندزبانه بسازند.

    ۱۴۰۴/۲/۳ ۲۱:۰۸:۴۱
  • استارتاپ Phonic؛ راهکار جدید برای بهبود کیفیت صدای مصنوعی هوش مصنوعی

    شرکت Phonic، که توسط دو فارغ‌التحصیل MIT تأسیس شده، در حال توسعه‌ی فناوری پیشرفته‌ای برای بهبود کیفیت و اطمینان‌پذیری صدای مصنوعی است. برخلاف سایر شرکت‌ها که مدل‌های مختلف را به هم متصل می‌کنند، Phonic مدل‌های خود را از صفر و به‌ صورت کامل و یکپارچه آموزش می‌دهد. این روش باعث کاهش تأخیر، افزایش دقت و کاهش هزینه‌های اجرا می‌شود.
    مدل‌های Phonic می‌توانند حتی در شرایطی که صداها نامفهوم، دارای لهجه‌های مختلف یا نویزدار هستند، عملکرد بهتری داشته باشند.

    ۱۴۰۴/۱/۱۶ ۰۱:۵۹:۰۰
  • پادکست‌سازی با هوش مصنوعی؛ Podcastle مدل جدید متن به گفتار را معرفی کرد


    ‏podcastle یک پلتفرم پادکست، مدل هوش مصنوعی Asyncflow v1.0 را برای تبدیل متن به گفتار معرفی کرد. این استارتاپ بیش از ۴۵۰ صدای مصنوعی و قابلیت ادغام API برای توسعه‌دهندگان را ارائه می دهد. هدف اصلی این مدل، کاهش هزینه‌های تولید و افزایش کیفیت تبدیل متن به صدا است.

    ۱۴۰۳/۱۲/۱۵ ۰۱:۲۰:۵۱
  • احضار هشت شرکت فناوری بزرگ آمریکایی توسط کمیته قضایی مجلس نمایندگان

    کمیته قضایی مجلس نمایندگان آمریکا هشت شرکت فناوری بزرگ شامل گوگل، متا، اپل، ایکس، آمازون، مایکروسافت، رامبل و تیک‌تاک را احضار کرد. این شرکت‌ها باید جزئیات ارتباطات خود با سایر کشورها درباره قوانین مرتبط با محدودیت‌های گفتاری را ارائه دهند.

    ۱۴۰۳/۱۲/۹ ۱۸:۳۵:۳۴
  • رونمایی ElevenLabs از مدل هوش مصنوعی Scribe برای تبدیل گفتار به متن

    استارتاپ ElevenLabs که در زمینه تولید صدا با هوش مصنوعی فعال است، اولین مدل مستقل تبدیل گفتار به متن خود به نام Scribe را معرفی کرد. این مدل از بیش از 99 زبان پشتیبانی می‌کند و در برخی زبان‌ها دارای دقت بالای 97 درصدی است. قیمت این سرویس ساعتی 0.40 دلار بوده و قابلیت‌هایی مانند تشخیص گوینده و زمان‌بندی کلمات را دارد.

    ۱۴۰۳/۱۲/۸ ۲۲:۲۷:۵۹
  • اشتباه عجیب اپل در اپلیکیشن دیکته آیفون: جابجایی کلمات ترامپ و نژادپرست

    اپل در اپلیکیشن دیکته آیفون با یک اشکال نرم‌افزاری مواجه شده که باعث جابجایی کلمات "ترامپ" و "نژادپرست" می‌شود. این مشکل در شبکه‌های اجتماعی بازتاب گسترده‌ای داشته و کاربران آن را تجربه کرده‌اند. شرکت اپل این اشتباه را ناشی از پوشش صوتی کلمات دانسته و وعده رفع آن را داده است.

    https://t.co/zXbFsgsPVM

    ۱۴۰۳/۱۲/۸ ۱۷:۳۲:۱۶
  • استارتاپ سانس با فناوری هوش مصنوعی، تبعیض لهجه در مراکز تماس را کاهش می‌دهد

    استارتاپ سانس با استفاده از هوش مصنوعی، نرم‌افزاری توسعه داده که قادر به تعدیل لهجه گویندگان در زمان واقعی است. این شرکت که در سال ۲۰۲۰ تأسیس شده، با هدف کاهش تبعیض لهجه‌ای در مراکز تماس فعالیت می‌کند. سانس با فناوری هوش مصنوعی خود توانسته درآمد سالانه ۲۱ میلیون دلاری کسب کند و اخیراً ۶۵ میلیون دلار سرمایه جذب کرده است.

    ۱۴۰۳/۱۲/۱ ۲۱:۱۱:۵۳