mtma / common-voice-arabic

Common Voice Arabic

تم التحديث منذ أسبوعين

جاري جلب البيانات...
بطاقة البيانات (README)
# 🎤 كومون فويس العربية 17.0 (النسخة المجتمعية) | Common Voice Arabic ## 📄 ملخص البيانات تُعد هذه المجموعة نسخة معالجة ومحسنة تقنياً من بيانات **Mozilla Common Voice (الإصدار 17.0)**. تحتوي على آلاف الساعات من التسجيلات الصوتية باللغة العربية (فصحى ولهجات) تم جمعها من متطوعين، وهي مجهزة خصيصاً لتدريب نماذج **التعرف الآلي على الكلام (ASR)** وبناء المساعدات الصوتية الذكية. --- ## 💡 لماذا هذه النسخة (Parquet)؟ بدلاً من تحميل آلاف ملفات `mp3` الصغيرة والمبعثرة، تم دمج هذه البيانات في ملف **Parquet** واحد عالي الأداء، مما يوفر المزايا التالية للمطورين: 1. **سرعة التحميل:** ملف واحد مضغوط بدلاً من آلاف الطلبات للسيرفر. 2. **جاهزية التدريب:** متوافق تماماً مع مكتبات `Hugging Face` ويدعم خاصية `Streaming`. 3. **بدون أخطاء:** البيانات الصوتية محفوظة بصيغة `Bytes` خام داخل الملف لتجنب مشاكل فك الضغط (Decoding errors). --- ## 📊 التفاصيل التقنية * **الصيغة:** `Parquet` (بيانات صوتية مدمجة). * **اللغة:** العربية (`ar`). * **المصدر الأصلي:** مشروع Mozilla Common Voice (مساهمات مجتمعية). * **المهمة:** التعرف على الكلام (Automatic Speech Recognition). * **حجم العينة:** (حسب الملف المرفوع). --- ## 🛠 طريقة الاستخدام (Python) يمكنك استخدام البيانات مباشرة في كود التدريب باستخدام مكتبة `datasets`: ```python from datasets import load_dataset, Audio # 1. تحميل ملف البيانات من Oneurai dataset = load_dataset("parquet", data_files="train_audio.parquet") # 2. تحويل البايتات إلى صوت مسموع (عند الحاجة فقط) dataset = dataset.cast_column("audio_bytes", Audio(sampling_rate=16000)) # 3. تشغيل أو عرض عينة print(dataset['train'][0])
Installation
$ pip install oneurai
تم النسخ
download.py
from oneurai import load_dataset
import os

# اسم الداتا ست
repo_id = "mtma/common-voice-arabic"

print("🚀 Starting the download process...")

dataset_path = load_dataset(repo_id)

if dataset_path:
    print(f"\n✅ تمت العملية بنجاح!")
    print(f"📂 مسار البيانات: {dataset_path}")
else:
    print("\n❌ فشل التحميل.")
تم نسخ الكود بنجاح!

نظرة عامة

التحميلات 0
الحجم 196.35 MB
نوع المهمة Translation
MTMA
ناشر معتمد