mtma / arabic-alpaca-52k

Arabic Alpaca 52k

تم التحديث منذ أسبوعين

جاري جلب البيانات...
بطاقة البيانات (README)
# 🧠 Arabic Alpaca 52k (Parquet Edition) ## 📄 Dataset Summary This dataset contains **52,000 instruction-response pairs** in Arabic, based on the famous Stanford Alpaca dataset. It is provided in **Parquet format** for immediate use in training LLMs. نسخة "ألبكا" العربية (52 ألف تعليمة) بصيغة Parquet الجاهزة. تُستخدم لتدريب النماذج اللغوية (LLMs) على اتباع التعليمات والإجابة على الأسئلة. ## 📊 Details * **Size:** 52k rows. * **Format:** Parquet. * **Language:** Arabic (`ar`). * **Task:** Text Generation / Instruction Tuning. ## 🛠 Usage Ready-to-use for fine-tuning models like Llama 3 using `SFTTrainer`.
Installation
$ pip install oneurai
تم النسخ
download.py
from oneurai import load_dataset
import os

# اسم الداتا ست
repo_id = "mtma/arabic-alpaca-52k"

print("🚀 Starting the download process...")

dataset_path = load_dataset(repo_id)

if dataset_path:
    print(f"\n✅ تمت العملية بنجاح!")
    print(f"📂 مسار البيانات: {dataset_path}")
else:
    print("\n❌ فشل التحميل.")
تم نسخ الكود بنجاح!

نظرة عامة

التحميلات 0
الحجم 12.44 MB
نوع المهمة Text Classification
MTMA
ناشر معتمد