مجموعات البيانات

# 🎤 كومون فويس العربية 17.0 (النسخة المجتمعية) | Common Voice Arabic ## 📄 ملخص البيانات تُعد هذه المجموعة نسخة معالجة ومحسنة تقنياً من بيانات **Mozilla Common Voice (الإصدار 17.0)**. تحتوي على آلاف الساعات من التسجيلات الصوتية باللغة العربية (فصحى ولهجات) تم جمعها من متطوعين، وهي مجهزة خصيصاً لتدريب نماذج **التعرف الآلي على الكلام (ASR)** وبناء المساعدات الصوتية الذكية. --- ## 💡 لماذا هذه النسخة (Parquet)؟ بدلاً من تحميل آلاف ملفات `mp3` الصغيرة والمبعثرة، تم دمج هذه البيانات في ملف **Parquet** واحد عالي الأداء، مما يوفر المزايا التالية للمطورين: 1. **سرعة التحميل:** ملف واحد مضغوط بدلاً من آلاف الطلبات للسيرفر. 2. **جاهزية التدريب:** متوافق تماماً مع مكتبات `Hugging Face` ويدعم خاصية `Streaming`. 3. **بدون أخطاء:** البيانات الصوتية محفوظة بصيغة `Bytes` خام داخل الملف لتجنب مشاكل فك الضغط (Decoding errors). --- ## 📊 التفاصيل التقنية * **الصيغة:** `Parquet` (بيانات صوتية مدمجة). * **اللغة:** العربية (`ar`). * **المصدر الأصلي:** مشروع Mozilla Common Voice (مساهمات مجتمعية). * **المهمة:** التعرف على الكلام (Automatic Speech Recognition). * **حجم العينة:** (حسب الملف المرفوع). --- ## 🛠 طريقة الاستخدام (Python) يمكنك استخدام البيانات مباشرة في كود التدريب باستخدام مكتبة `datasets`: ```python from datasets import load_dataset, Audio # 1. تحميل ملف البيانات من Oneurai dataset = load_dataset("parquet", data_files="train_audio.parquet") # 2. تحويل البايتات إلى صوت مسموع (عند الحاجة فقط) dataset = dataset.cast_column("audio_bytes", Audio(sampling_rate=16000)) # 3. تشغيل أو عرض عينة print(dataset['train'][0])

Common Voice Arabic

نظرة عامة