انتشار یکی از بزرگترین دیتاستهای قانونی هوش مصنوعی توسط EleutherAI با Common Pile
سازمان پژوهشی EleutherAI از انتشار یکی از بزرگترین مجموعههای متنی دارای مجوز و منبعباز برای آموزش مدلهای هوش مصنوعی خبر داد. 📚
این مجموعه با نام The Common Pile v0.1 طی دو سال و با همکاری شرکتهایی مانند Hugging Face و Poolside و همچنین نهادهای دانشگاهی تهیه شده است. 🤝
حجم این دیتاست ۸ ترابایت است و بهصورت رایگان از طریق پلتفرم Hugging Face و گیتهاب در دسترس قرار گرفته است. 💾
EleutherAI دو مدل جدید به نامهای Comma v0.1-1T و Comma v0.1-2T را با استفاده از همین دادهها آموزش داده است. 🤖
این مدلها با وجود بهرهگیری از دادههای دارای مجوز، عملکردی همسطح با مدلهایی دارند که با دادههای بدون مجوز و دارای حقنشر آموزش دیدهاند. ⚖️
در سالهای اخیر، بسیاری از شرکتهای هوش مصنوعی بهدلیل استفاده از محتوای بدون مجوز، از جمله کتابها و مقالات پژوهشی، با شکایتهای حقوقی مواجه شدهاند. ⚠️
EleutherAI اعلام کرد که این شکایتها شفافیت پژوهشها را کاهش داده و به روند تحقیقات آسیب زدهاند. 🧩
به گفته استلا بیدرمن، مدیر اجرایی EleutherAI، این سازمان بر آن است تا با انتشار مجموعههای دادهای شفاف و قانونی، مسیر توسعه اخلاقمدار را دنبال کند. 📢
Common Pile v0.1 شامل منابعی چون ۳۰۰ هزار کتاب دامنه عمومی از کتابخانه کنگره و آرشیو اینترنت است. 📘
همچنین برای تبدیل محتوای صوتی به متن از مدل متنباز Whisper متعلق به OpenAI استفاده شده است. 🎧
هر دو مدل Comma دارای ۷ میلیارد پارامتر هستند و تنها با بخشی از این دیتاست آموزش دیدهاند. ⚙️
EleutherAI میگوید این موفقیت نشان میدهد که استفاده از دادههای دارای مجوز میتواند جایگزینی قابلاعتماد برای منابع بدون مجوز باشد. 🌍
این سازمان قصد دارد از این پس با همکاری شرکای پژوهشی و زیرساختی خود، مجموعههای دادهای باز بیشتری را منتشر کند. 🔄 /



