OpenAI رونمایی از مدل‌های جدید هوش مصنوعی گفتار و رونویسی

۱۴۰۴/۱/۲ ۱۲:۲۲:۴۸

OpenAI در راستای توسعه فناوری‌های هوش مصنوعی، مدل‌های جدیدی از تبدیل متن به گفتار و رونویسی صوتی را معرفی کرده است که قابلیت‌های چشمگیری دارند.
مدل جدید تبدیل متن به گفتار با نام "gpt-4o-mini-tts" امکان تنظیم دقیق لحن صدا را فراهم می‌کند، به طوری که توسعه‌دهندگان می‌توانند دستوراتی مانند "مانند یک دانشمند دیوانه صحبت کن" یا "با صدایی آرام مانند یک مربی مراقبه صحبت کن" را اجرا کنند.
مدل‌های رونویسی جدید با نام‌های "gpt-4o-transcribe" و "gpt-4o-mini-transcribe" جایگزین مدل قبلی Whisper شده‌اند و دقت بالاتری در ضبط گفتارهای با لهجه‌های مختلف دارند.
با این حال، دقت این مدل‌ها در زبان‌های مختلف متفاوت است و برای برخی زبان‌های هندی نرخ خطای حدود 30 درصد دارد.
OpenAI برخلاف رویه قبلی، این مدل‌های جدید را به صورت متن‌باز منتشر نخواهد کرد و آنها را تنها از طریق API در دسترس قرار خواهد داد. /

مدل‌های هوش مصنوعی تبدیل متن به گفتار با قابلیت تنظیم لحن

هوش مصنوعیفناوری صوتیOpenAIمدل گفتاررونویسی هوشمندهوش مصنوعی گفتار OpenAIمدل رونویسی پیشرفتهتبدیل متن به صدای هوشمند

	ChatGPT با لحنی انسانی‌تر از همیشه
	استارتاپ Phonic؛ راهکار جدید برای بهبود کیفیت صدای مصنوعی هوش مصنوعی
	پادکست‌سازی با هوش مصنوعی؛ Podcastle مدل جدید متن به گفتار را معرفی کرد
	ChatGPT Pro میزبان o3-pro شد؛ دقیق‌تر، هوشمندتر، گران‌تر
	OpenAI رونمایی کرد: Operator با O3 هوشمندتر از همیشه
	تغییر برنامه OpenAI برای انتشار مدل‌های هوش مصنوعی جدید
	رونمایی از مدل هوش مصنوعی صوتی با قابلیت تولید صدای انسان
	تأخیر در عرضه موتور صدای OpenAI به دلیل نگرانی‌های امنیتی
	هوش مصنوعی در دفتر کار با قابلیت‌های جدید ChatGPT
	جلسات هوشمند با رونویسی دقیق Notion

OpenAI رونمایی از مدل‌های جدید هوش مصنوعی گفتار و رونویسی

ممکن است به این اخبار فناوری و تکنولوژی نیز علاقمند باشید