انتشار یکی از بزرگ‌ترین دیتاست‌های قانونی هوش مصنوعی توسط EleutherAI با Common Pile

۱۴۰۴/۳/۱۸ ۱۷:۴۶:۲۶

سازمان پژوهشی EleutherAI از انتشار یکی از بزرگ‌ترین مجموعه‌های متنی دارای مجوز و منبع‌باز برای آموزش مدل‌های هوش مصنوعی خبر داد. 📚
این مجموعه با نام The Common Pile v0.1 طی دو سال و با همکاری شرکت‌هایی مانند Hugging Face و Poolside و همچنین نهادهای دانشگاهی تهیه شده است. 🤝
حجم این دیتاست ۸ ترابایت است و به‌صورت رایگان از طریق پلتفرم Hugging Face و گیت‌هاب در دسترس قرار گرفته است. 💾
EleutherAI دو مدل جدید به نام‌های Comma v0.1-1T و Comma v0.1-2T را با استفاده از همین داده‌ها آموزش داده است. 🤖
این مدل‌ها با وجود بهره‌گیری از داده‌های دارای مجوز، عملکردی هم‌سطح با مدل‌هایی دارند که با داده‌های بدون مجوز و دارای حق‌نشر آموزش دیده‌اند. ⚖️
در سال‌های اخیر، بسیاری از شرکت‌های هوش مصنوعی به‌دلیل استفاده از محتوای بدون مجوز، از جمله کتاب‌ها و مقالات پژوهشی، با شکایت‌های حقوقی مواجه شده‌اند. ⚠️
EleutherAI اعلام کرد که این شکایت‌ها شفافیت پژوهش‌ها را کاهش داده و به روند تحقیقات آسیب زده‌اند. 🧩
به گفته استلا بیدرمن، مدیر اجرایی EleutherAI، این سازمان بر آن است تا با انتشار مجموعه‌های داده‌ای شفاف و قانونی، مسیر توسعه اخلاق‌مدار را دنبال کند. 📢
Common Pile v0.1 شامل منابعی چون ۳۰۰ هزار کتاب دامنه عمومی از کتابخانه کنگره و آرشیو اینترنت است. 📘
همچنین برای تبدیل محتوای صوتی به متن از مدل متن‌باز Whisper متعلق به OpenAI استفاده شده است. 🎧
هر دو مدل Comma دارای ۷ میلیارد پارامتر هستند و تنها با بخشی از این دیتاست آموزش دیده‌اند. ⚙️
EleutherAI می‌گوید این موفقیت نشان می‌دهد که استفاده از داده‌های دارای مجوز می‌تواند جایگزینی قابل‌اعتماد برای منابع بدون مجوز باشد. 🌍
این سازمان قصد دارد از این پس با همکاری شرکای پژوهشی و زیرساختی خود، مجموعه‌های داده‌ای باز بیشتری را منتشر کند. 🔄 /

© 2025 Copyright - All Rights Reserved By ecofori.ir