Common Voice Arabic
تم التحديث منذ أسبوعين
جاري جلب البيانات...
# 🎤 كومون فويس العربية 17.0 (النسخة المجتمعية) | Common Voice Arabic
## 📄 ملخص البيانات
تُعد هذه المجموعة نسخة معالجة ومحسنة تقنياً من بيانات **Mozilla Common Voice (الإصدار 17.0)**.
تحتوي على آلاف الساعات من التسجيلات الصوتية باللغة العربية (فصحى ولهجات) تم جمعها من متطوعين، وهي مجهزة خصيصاً لتدريب نماذج **التعرف الآلي على الكلام (ASR)** وبناء المساعدات الصوتية الذكية.
---
## 💡 لماذا هذه النسخة (Parquet)؟
بدلاً من تحميل آلاف ملفات `mp3` الصغيرة والمبعثرة، تم دمج هذه البيانات في ملف **Parquet** واحد عالي الأداء، مما يوفر المزايا التالية للمطورين:
1. **سرعة التحميل:** ملف واحد مضغوط بدلاً من آلاف الطلبات للسيرفر.
2. **جاهزية التدريب:** متوافق تماماً مع مكتبات `Hugging Face` ويدعم خاصية `Streaming`.
3. **بدون أخطاء:** البيانات الصوتية محفوظة بصيغة `Bytes` خام داخل الملف لتجنب مشاكل فك الضغط (Decoding errors).
---
## 📊 التفاصيل التقنية
* **الصيغة:** `Parquet` (بيانات صوتية مدمجة).
* **اللغة:** العربية (`ar`).
* **المصدر الأصلي:** مشروع Mozilla Common Voice (مساهمات مجتمعية).
* **المهمة:** التعرف على الكلام (Automatic Speech Recognition).
* **حجم العينة:** (حسب الملف المرفوع).
---
## 🛠 طريقة الاستخدام (Python)
يمكنك استخدام البيانات مباشرة في كود التدريب باستخدام مكتبة `datasets`:
```python
from datasets import load_dataset, Audio
# 1. تحميل ملف البيانات من Oneurai
dataset = load_dataset("parquet", data_files="train_audio.parquet")
# 2. تحويل البايتات إلى صوت مسموع (عند الحاجة فقط)
dataset = dataset.cast_column("audio_bytes", Audio(sampling_rate=16000))
# 3. تشغيل أو عرض عينة
print(dataset['train'][0])
Installation
copied = false, 2000)">
$
pip install oneurai
تم النسخ
download.py
from oneurai import load_dataset
import os
import os
# اسم الداتا ست
repo_id = "mtma/common-voice-arabic"
print("🚀 Starting the download process...")
dataset_path = load_dataset(repo_id)
dataset_path = load_dataset(repo_id)
if dataset_path:
print(f"\n✅ تمت العملية بنجاح!")
print(f"📂 مسار البيانات: {dataset_path}")
else:
print("\n❌ فشل التحميل.")
print(f"\n✅ تمت العملية بنجاح!")
print(f"📂 مسار البيانات: {dataset_path}")
else:
print("\n❌ فشل التحميل.")
تم نسخ الكود بنجاح!
نظرة عامة
التحميلات
0
الحجم
196.35 MB
نوع المهمة
Translation
MTMA
ناشر معتمد