mtma / imruqays

ImruQays

تم التحديث منذ يومين

جاري جلب البيانات...
بطاقة البيانات (README)
# 📜 مدونة تراث: النصوص العربية الكلاسيكية الموازية | Turath Corpus ## 📄 ملخص البيانات تُعد **"تراث" (Turath)** مجموعة بيانات مرجعية فريدة من نوعها، تضم نصوصاً من أمهات الكتب العربية التراثية (العصر الذهبي) مع ترجماتها الإنجليزية الدقيقة. تم إعداد هذه المجموعة لخدمة مجتمع الذكاء الاصطناعي العربي، بهدف: 1. تدريب النماذج اللغوية (LLMs) على اللغة العربية الفصحى الرصينة. 2. تحسين قدرات الترجمة الآلية للنصوص الأدبية والتاريخية. 3. حفظ التراث العربي والإسلامي رقمياً وتسهيل معالجته حاسوبياً. --- ## 📚 محتويات البيانات تحتوي المدونة على أكثر من **64,000 زوج** من النصوص الموازية (عربي - إنجليزي) مستخرجة من أعمال خالدة، تشمل: * **القانون في الطب:** لابن سينا (مصدر طبي وتاريخي). * **المقدمة:** لابن خلدون (أساس علم الاجتماع). * **كتاب المناظر:** لابن الهيثم (في الفيزياء والبصريات). * **نهج البلاغة:** للإمام علي بن أبي طالب (قمة الفصاحة العربية). * **طوق الحمامة:** لابن حزم الأندلسي. * ومجموعة مختارة من الرسائل الأدبية والفلسفية. --- ## 📊 التفاصيل التقنية * **الصيغة (Format):** `Parquet` (مضغوطة وعالية السرعة). * **اللغة (Language):** العربية الفصحى (`ar`) ↔️ الإنجليزية (`en`). * **حجم البيانات:** ~64 ألف صف. * **المهمة (Task):** الترجمة (Translation)، نمذجة اللغة (Language Modeling). --- ## 🛠 طريقة الاستخدام (Python) يمكنك تحميل واستخدام البيانات مباشرة عبر مكتبة `datasets` كالتالي: ```python from datasets import load_dataset # تحميل ملف البيانات (تأكد من وضع المسار الصحيح بعد الرفع) dataset = load_dataset("parquet", data_files="train.parquet") # عرض عينة من النصوص print(dataset['train'][0]) # النتيجة: {'text_ar': '...', 'text_en': '...'}
Installation
$ pip install oneurai
تم النسخ
download.py
from oneurai import load_dataset
import os

# اسم الداتا ست
repo_id = "mtma/imruqays"

print("🚀 Starting the download process...")

dataset_path = load_dataset(repo_id)

if dataset_path:
    print(f"\n✅ تمت العملية بنجاح!")
    print(f"📂 مسار البيانات: {dataset_path}")
else:
    print("\n❌ فشل التحميل.")
تم نسخ الكود بنجاح!

نظرة عامة

التحميلات 6
الحجم 14.48 MB
نوع المهمة Text Classification
MTMA
ناشر معتمد