Arabic Alpaca 52k

تم التحديث منذ شهرين

جاري جلب البيانات...

بطاقة البيانات (README)

# 🧠 Arabic Alpaca 52k (Parquet Edition) ## 📄 Dataset Summary This dataset contains **52,000 instruction-response pairs** in Arabic, based on the famous Stanford Alpaca dataset. It is provided in **Parquet format** for immediate use in training LLMs. نسخة "ألبكا" العربية (52 ألف تعليمة) بصيغة Parquet الجاهزة. تُستخدم لتدريب النماذج اللغوية (LLMs) على اتباع التعليمات والإجابة على الأسئلة. ## 📊 Details * **Size:** 52k rows. * **Format:** Parquet. * **Language:** Arabic (`ar`). * **Task:** Text Generation / Instruction Tuning. ## 🛠 Usage Ready-to-use for fine-tuning models like Llama 3 using `SFTTrainer`.

Installation

$ pip install oneurai

تم النسخ

download.py

from oneurai import load_dataset
import os

# اسم الداتا ست

repo_id = "mtma/arabic-alpaca-52k"

print("🚀 Starting the download process...")

dataset_path = load_dataset(repo_id)

if dataset_path:
    print(f"\n✅ تمت العملية بنجاح!")
    print(f"📂 مسار البيانات: {dataset_path}")
else:
    print("\n❌ فشل التحميل.")

تم نسخ الكود بنجاح!

نظرة عامة

التحميلات 0

الحجم 12.44 MB

نوع المهمة Text Classification

MTMA

ناشر معتمد