ImruQays
تم التحديث منذ يومين
جاري جلب البيانات...
# 📜 مدونة تراث: النصوص العربية الكلاسيكية الموازية | Turath Corpus
## 📄 ملخص البيانات
تُعد **"تراث" (Turath)** مجموعة بيانات مرجعية فريدة من نوعها، تضم نصوصاً من أمهات الكتب العربية التراثية (العصر الذهبي) مع ترجماتها الإنجليزية الدقيقة.
تم إعداد هذه المجموعة لخدمة مجتمع الذكاء الاصطناعي العربي، بهدف:
1. تدريب النماذج اللغوية (LLMs) على اللغة العربية الفصحى الرصينة.
2. تحسين قدرات الترجمة الآلية للنصوص الأدبية والتاريخية.
3. حفظ التراث العربي والإسلامي رقمياً وتسهيل معالجته حاسوبياً.
---
## 📚 محتويات البيانات
تحتوي المدونة على أكثر من **64,000 زوج** من النصوص الموازية (عربي - إنجليزي) مستخرجة من أعمال خالدة، تشمل:
* **القانون في الطب:** لابن سينا (مصدر طبي وتاريخي).
* **المقدمة:** لابن خلدون (أساس علم الاجتماع).
* **كتاب المناظر:** لابن الهيثم (في الفيزياء والبصريات).
* **نهج البلاغة:** للإمام علي بن أبي طالب (قمة الفصاحة العربية).
* **طوق الحمامة:** لابن حزم الأندلسي.
* ومجموعة مختارة من الرسائل الأدبية والفلسفية.
---
## 📊 التفاصيل التقنية
* **الصيغة (Format):** `Parquet` (مضغوطة وعالية السرعة).
* **اللغة (Language):** العربية الفصحى (`ar`) ↔️ الإنجليزية (`en`).
* **حجم البيانات:** ~64 ألف صف.
* **المهمة (Task):** الترجمة (Translation)، نمذجة اللغة (Language Modeling).
---
## 🛠 طريقة الاستخدام (Python)
يمكنك تحميل واستخدام البيانات مباشرة عبر مكتبة `datasets` كالتالي:
```python
from datasets import load_dataset
# تحميل ملف البيانات (تأكد من وضع المسار الصحيح بعد الرفع)
dataset = load_dataset("parquet", data_files="train.parquet")
# عرض عينة من النصوص
print(dataset['train'][0])
# النتيجة: {'text_ar': '...', 'text_en': '...'}
Installation
copied = false, 2000)">
$
pip install oneurai
تم النسخ
download.py
from oneurai import load_dataset
import os
import os
# اسم الداتا ست
repo_id = "mtma/imruqays"
print("🚀 Starting the download process...")
dataset_path = load_dataset(repo_id)
dataset_path = load_dataset(repo_id)
if dataset_path:
print(f"\n✅ تمت العملية بنجاح!")
print(f"📂 مسار البيانات: {dataset_path}")
else:
print("\n❌ فشل التحميل.")
print(f"\n✅ تمت العملية بنجاح!")
print(f"📂 مسار البيانات: {dataset_path}")
else:
print("\n❌ فشل التحميل.")
تم نسخ الكود بنجاح!
نظرة عامة
التحميلات
6
الحجم
14.48 MB
نوع المهمة
Text Classification
MTMA
ناشر معتمد