OpenAI رونمایی از مدل‌های جدید هوش مصنوعی گفتار و رونویسی

۱۴۰۴/۱/۲ ۱۲:۲۲:۴۸


OpenAI در راستای توسعه فناوری‌های هوش مصنوعی، مدل‌های جدیدی از تبدیل متن به گفتار و رونویسی صوتی را معرفی کرده است که قابلیت‌های چشمگیری دارند.
مدل جدید تبدیل متن به گفتار با نام "gpt-4o-mini-tts" امکان تنظیم دقیق لحن صدا را فراهم می‌کند، به طوری که توسعه‌دهندگان می‌توانند دستوراتی مانند "مانند یک دانشمند دیوانه صحبت کن" یا "با صدایی آرام مانند یک مربی مراقبه صحبت کن" را اجرا کنند.
مدل‌های رونویسی جدید با نام‌های "gpt-4o-transcribe" و "gpt-4o-mini-transcribe" جایگزین مدل قبلی Whisper شده‌اند و دقت بالاتری در ضبط گفتارهای با لهجه‌های مختلف دارند.
با این حال، دقت این مدل‌ها در زبان‌های مختلف متفاوت است و برای برخی زبان‌های هندی نرخ خطای حدود 30 درصد دارد.
OpenAI برخلاف رویه قبلی، این مدل‌های جدید را به صورت متن‌باز منتشر نخواهد کرد و آنها را تنها از طریق API در دسترس قرار خواهد داد. /

© 2025 Copyright - All Rights Reserved By ecofori.ir