Arabic Alpaca 52k
تم التحديث منذ أسبوعين
جاري جلب البيانات...
# 🧠 Arabic Alpaca 52k (Parquet Edition)
## 📄 Dataset Summary
This dataset contains **52,000 instruction-response pairs** in Arabic, based on the famous Stanford Alpaca dataset. It is provided in **Parquet format** for immediate use in training LLMs.
نسخة "ألبكا" العربية (52 ألف تعليمة) بصيغة Parquet الجاهزة. تُستخدم لتدريب النماذج اللغوية (LLMs) على اتباع التعليمات والإجابة على الأسئلة.
## 📊 Details
* **Size:** 52k rows.
* **Format:** Parquet.
* **Language:** Arabic (`ar`).
* **Task:** Text Generation / Instruction Tuning.
## 🛠 Usage
Ready-to-use for fine-tuning models like Llama 3 using `SFTTrainer`.
Installation
copied = false, 2000)">
$
pip install oneurai
تم النسخ
download.py
from oneurai import load_dataset
import os
import os
# اسم الداتا ست
repo_id = "mtma/arabic-alpaca-52k"
print("🚀 Starting the download process...")
dataset_path = load_dataset(repo_id)
dataset_path = load_dataset(repo_id)
if dataset_path:
print(f"\n✅ تمت العملية بنجاح!")
print(f"📂 مسار البيانات: {dataset_path}")
else:
print("\n❌ فشل التحميل.")
print(f"\n✅ تمت العملية بنجاح!")
print(f"📂 مسار البيانات: {dataset_path}")
else:
print("\n❌ فشل التحميل.")
تم نسخ الكود بنجاح!
نظرة عامة
التحميلات
0
الحجم
12.44 MB
نوع المهمة
Text Classification
MTMA
ناشر معتمد