-
OpenAI رونمایی از مدلهای جدید هوش مصنوعی گفتار و رونویسی
شرکت OpenAI مدلهای جدید “gpt-4o-mini-tts” و “gpt-4o-transcribe” را معرفی کرد که دقت و کیفیت بالاتری دارند. مدل TTS صدایی طبیعیتر و قابل تنظیم ارائه میدهد، درحالیکه مدل STT جایگزین Whisper شده و دقت بیشتری در تشخیص گفتار دارد. برخلاف Whisper، این مدلها متنباز نخواهند بود.
۱۴۰۴/۱/۲ ۱۲:۲۲:۴۸ -
Google Meet حالا با ترجمه زنده گفتار؛ زبان دیگر مانع نیست
🌍 گوگل در رویداد I/O 2025 اعلام کرد که قابلیت «ترجمه گفتار بهصورت زنده» را به Google Meet اضافه کرده است 🗣️ این ویژگی با کمک مدل صوتی پیشرفته DeepMind، امکان گفتوگو با افراد به زبانهای مختلف را در زمان واقعی فراهم میکند، آن هم با حفظ لحن، صدا و احساسات طرف مقابل 🎧💬
مثلاً نوههای انگلیسیزبان میتوانند با مادربزرگ اسپانیاییزبانشان راحت صحبت کنند یا شرکتهای بینالمللی جلسات چندزبانه برگزار کنند، بدون نیاز به مترجم 🌐👵🏢
صدا با تأخیر بسیار کم ترجمه میشود و صدای اصلی شخص نیز بهصورت کمرنگ در پسزمینه شنیده میشود 🎙️🔊۱۴۰۴/۳/۱ ۰۱:۱۶:۵۵ -
فناوری مغزی ایلان ماسک یک گام دیگر به واقعیت نزدیک شد
⚡🧠🗣️ شرکت نورالینک (Neuralink) به رهبری ایلان ماسک موفق شد تأییدیه ویژه FDA ( سازمان غذا و داروی آمریکا ) را برای دستگاهی نوآورانه دریافت کند که میتواند امکان ارتباط دوباره را برای افرادی با ناتوانی شدید گفتاری فراهم کند. این فناوری امید تازهای برای مبتلایان به ALS، سکته مغزی ، آسیب نخاعی و دیگر بیماریهای عصبی ایجاد کرده و حالا با این تأییدیه، مسیر توسعه و عرضه آن بسیار سریعتر خواهد شد. 🚀✅
۱۴۰۴/۲/۱۳ ۰۷:۴۷:۴۳ -
دانشجویان جوان، رقیبی برای هوش مصنوعی صوتی گوگل با نام Dia ساختند
دو دانشجوی کرهای بدون تجربه زیاد در هوش مصنوعی، مدلی به نام “Dia” ساختهاند که میتواند صدای مصنوعی مانند پادکست تولید کند؛ عملکرد آن مشابه ابزار NotebookLM گوگل است، اما کنترل بیشتری به کاربر میدهد. این مدل رایگان است و در پلتفرمهای Hugging Face و GitHub قابل دسترسی است. کاربران میتوانند لحن صدا، مکثها، سرفه و خنده را در گفتوگوها تنظیم کنند و حتی صدای واقعی افراد را شبیهسازی کنند. هرچند این ابزار محافظت زیادی در برابر سوءاستفاده ندارد و مشخص نیست از چه دادههایی برای آموزش آن استفاده شده، اما سازندگان آن قصد دارند پلتفرمی با قابلیتهای اجتماعی و چندزبانه بسازند.
۱۴۰۴/۲/۳ ۲۱:۰۸:۴۱ -
استارتاپ Phonic؛ راهکار جدید برای بهبود کیفیت صدای مصنوعی هوش مصنوعی
شرکت Phonic، که توسط دو فارغالتحصیل MIT تأسیس شده، در حال توسعهی فناوری پیشرفتهای برای بهبود کیفیت و اطمینانپذیری صدای مصنوعی است. برخلاف سایر شرکتها که مدلهای مختلف را به هم متصل میکنند، Phonic مدلهای خود را از صفر و به صورت کامل و یکپارچه آموزش میدهد. این روش باعث کاهش تأخیر، افزایش دقت و کاهش هزینههای اجرا میشود.
مدلهای Phonic میتوانند حتی در شرایطی که صداها نامفهوم، دارای لهجههای مختلف یا نویزدار هستند، عملکرد بهتری داشته باشند.۱۴۰۴/۱/۱۶ ۰۱:۵۹:۰۰ -
پادکستسازی با هوش مصنوعی؛ Podcastle مدل جدید متن به گفتار را معرفی کرد
podcastle یک پلتفرم پادکست، مدل هوش مصنوعی Asyncflow v1.0 را برای تبدیل متن به گفتار معرفی کرد. این استارتاپ بیش از ۴۵۰ صدای مصنوعی و قابلیت ادغام API برای توسعهدهندگان را ارائه می دهد. هدف اصلی این مدل، کاهش هزینههای تولید و افزایش کیفیت تبدیل متن به صدا است.۱۴۰۳/۱۲/۱۵ ۰۱:۲۰:۵۱ -
احضار هشت شرکت فناوری بزرگ آمریکایی توسط کمیته قضایی مجلس نمایندگان
کمیته قضایی مجلس نمایندگان آمریکا هشت شرکت فناوری بزرگ شامل گوگل، متا، اپل، ایکس، آمازون، مایکروسافت، رامبل و تیکتاک را احضار کرد. این شرکتها باید جزئیات ارتباطات خود با سایر کشورها درباره قوانین مرتبط با محدودیتهای گفتاری را ارائه دهند.
۱۴۰۳/۱۲/۹ ۱۸:۳۵:۳۴ -
رونمایی ElevenLabs از مدل هوش مصنوعی Scribe برای تبدیل گفتار به متن
استارتاپ ElevenLabs که در زمینه تولید صدا با هوش مصنوعی فعال است، اولین مدل مستقل تبدیل گفتار به متن خود به نام Scribe را معرفی کرد. این مدل از بیش از 99 زبان پشتیبانی میکند و در برخی زبانها دارای دقت بالای 97 درصدی است. قیمت این سرویس ساعتی 0.40 دلار بوده و قابلیتهایی مانند تشخیص گوینده و زمانبندی کلمات را دارد.
۱۴۰۳/۱۲/۸ ۲۲:۲۷:۵۹ -
اشتباه عجیب اپل در اپلیکیشن دیکته آیفون: جابجایی کلمات ترامپ و نژادپرست
اپل در اپلیکیشن دیکته آیفون با یک اشکال نرمافزاری مواجه شده که باعث جابجایی کلمات "ترامپ" و "نژادپرست" میشود. این مشکل در شبکههای اجتماعی بازتاب گستردهای داشته و کاربران آن را تجربه کردهاند. شرکت اپل این اشتباه را ناشی از پوشش صوتی کلمات دانسته و وعده رفع آن را داده است.
https://t.co/zXbFsgsPVM۱۴۰۳/۱۲/۸ ۱۷:۳۲:۱۶ -
استارتاپ سانس با فناوری هوش مصنوعی، تبعیض لهجه در مراکز تماس را کاهش میدهد
استارتاپ سانس با استفاده از هوش مصنوعی، نرمافزاری توسعه داده که قادر به تعدیل لهجه گویندگان در زمان واقعی است. این شرکت که در سال ۲۰۲۰ تأسیس شده، با هدف کاهش تبعیض لهجهای در مراکز تماس فعالیت میکند. سانس با فناوری هوش مصنوعی خود توانسته درآمد سالانه ۲۱ میلیون دلاری کسب کند و اخیراً ۶۵ میلیون دلار سرمایه جذب کرده است.
۱۴۰۳/۱۲/۱ ۲۱:۱۱:۵۳



