مجموعات البيانات 7
arabic-news-summarization
# 📝 Arabic News Summarization | تلخيص الأخبار العربية ## 📄 Dataset Summary A large-scale dataset for **Arabic Text Summarization**, containing hundreds of thousands of news articles paired with their summaries. This dataset is pre-processed and stored in **Parquet format** for immediate use. مجموعة بيانات ضخمة مخصصة لمهام "تلخيص النصوص". تحتوي على مقالات إخبارية عربية متنوعة مع ملخصاتها، وهي مثالية لتدريب نماذج الذكاء الاصطناعي على اختصار النصوص الطويلة واستخراج النقاط الرئيسية. ## 📊 Dataset Details * **Task:** Summarization. * **Format:** Parquet. * **Language:** Arabic (`ar`). * **Content:** News Articles & Summaries. ## 🛠 Usage Used to train Abstractive Summarization models (like BERT, T5, and BART) for Arabic.
q6-k
# 🧠 Suri-Qwen 3.1 4B (Uncensored) | نسخة Q6_K عالية الدقة ## 📄 Model Summary | ملخص النموذج This is the **GGUF** version of the **Suri-Qwen-3.1-4B-Uncensored** model, quantized using **Q6_K** method. هذا النموذج هو نسخة مضغوطة بصيغة `GGUF` من الموديل القوي "Suri-Qwen". يتميز هذا الإصدار بأنه **غير مقيد (Uncensored)**، مما يمنحه حرية أكبر في الإجابة على الأسئلة دون القيود الصارمة المعتادة في النماذج التجارية. تم اختيار دقة **Q6_K** تحديداً لضمان أعلى مستوى من "الذكاء" وفهم اللغة العربية، مع الحفاظ على سرعة التشغيل. --- ## 💎 Why Q6_K? | لماذا هذه النسخة؟ Because this is a **4B parameter model** (small & fast), using standard compression (like Q4) might degrade its reasoning capabilities. * **Q6_K (This File):** Retains **99.9%** of the original model's intelligence. It is the perfect balance for running a "smart" assistant on consumer hardware. * **Size:** ~3.3 GB (Lightweight). --- ## 📊 Technical Details | تفاصيل تقنية * **Model Architecture:** Qwen 2.5/3.1 (4 Billion Parameters). * **Format:** GGUF (Compatible with `llama.cpp`, `LM Studio`, `Ollama`). * **Quantization:** Q6_K (6-bit High Precision). * **Type:** Uncensored / Instruction Following. * **Languages:** Arabic, English. --- ## 🛠 How to Run | طريقة التشغيل You can load this model easily using `llama-cpp-python` or any GGUF runner: ```python from llama_cpp import Llama # Load the model (Run on CPU or GPU) llm = Llama( model_path="./Suri-Qwen-3.1-4B-Uncensored-Hard.i1-Q6_K.gguf", n_ctx=4096, # Context window n_gpu_layers=-1 # Set to -1 to offload to GPU ) # Chat example response = llm.create_chat_completion( messages=[ {"role": "system", "content": "أنت مساعد ذكي تتحدث العربية بطلاقة."}, {"role": "user", "content": "اشرح لي نظرية النسبية باختصار."} ] ) print(response['choices'][0]['message']['content'])
arabic-alpaca-52k
# 🧠 Arabic Alpaca 52k (Parquet Edition) ## 📄 Dataset Summary This dataset contains **52,000 instruction-response pairs** in Arabic, based on the famous Stanford Alpaca dataset. It is provided in **Parquet format** for immediate use in training LLMs. نسخة "ألبكا" العربية (52 ألف تعليمة) بصيغة Parquet الجاهزة. تُستخدم لتدريب النماذج اللغوية (LLMs) على اتباع التعليمات والإجابة على الأسئلة. ## 📊 Details * **Size:** 52k rows. * **Format:** Parquet. * **Language:** Arabic (`ar`). * **Task:** Text Generation / Instruction Tuning. ## 🛠 Usage Ready-to-use for fine-tuning models like Llama 3 using `SFTTrainer`.
common-voice-arabic
# 🎤 كومون فويس العربية 17.0 (النسخة المجتمعية) | Common Voice Arabic ## 📄 ملخص البيانات تُعد هذه المجموعة نسخة معالجة ومحسنة تقنياً من بيانات **Mozilla Common Voice (الإصدار 17.0)**. تحتوي على آلاف الساعات من التسجيلات الصوتية باللغة العربية (فصحى ولهجات) تم جمعها من متطوعين، وهي مجهزة خصيصاً لتدريب نماذج **التعرف الآلي على الكلام (ASR)** وبناء المساعدات الصوتية الذكية. --- ## 💡 لماذا هذه النسخة (Parquet)؟ بدلاً من تحميل آلاف ملفات `mp3` الصغيرة والمبعثرة، تم دمج هذه البيانات في ملف **Parquet** واحد عالي الأداء، مما يوفر المزايا التالية للمطورين: 1. **سرعة التحميل:** ملف واحد مضغوط بدلاً من آلاف الطلبات للسيرفر. 2. **جاهزية التدريب:** متوافق تماماً مع مكتبات `Hugging Face` ويدعم خاصية `Streaming`. 3. **بدون أخطاء:** البيانات الصوتية محفوظة بصيغة `Bytes` خام داخل الملف لتجنب مشاكل فك الضغط (Decoding errors). --- ## 📊 التفاصيل التقنية * **الصيغة:** `Parquet` (بيانات صوتية مدمجة). * **اللغة:** العربية (`ar`). * **المصدر الأصلي:** مشروع Mozilla Common Voice (مساهمات مجتمعية). * **المهمة:** التعرف على الكلام (Automatic Speech Recognition). * **حجم العينة:** (حسب الملف المرفوع). --- ## 🛠 طريقة الاستخدام (Python) يمكنك استخدام البيانات مباشرة في كود التدريب باستخدام مكتبة `datasets`: ```python from datasets import load_dataset, Audio # 1. تحميل ملف البيانات من Oneurai dataset = load_dataset("parquet", data_files="train_audio.parquet") # 2. تحويل البايتات إلى صوت مسموع (عند الحاجة فقط) dataset = dataset.cast_column("audio_bytes", Audio(sampling_rate=16000)) # 3. تشغيل أو عرض عينة print(dataset['train'][0])
imruqays
# 📜 مدونة تراث: النصوص العربية الكلاسيكية الموازية | Turath Corpus ## 📄 ملخص البيانات تُعد **"تراث" (Turath)** مجموعة بيانات مرجعية فريدة من نوعها، تضم نصوصاً من أمهات الكتب العربية التراثية (العصر الذهبي) مع ترجماتها الإنجليزية الدقيقة. تم إعداد هذه المجموعة لخدمة مجتمع الذكاء الاصطناعي العربي، بهدف: 1. تدريب النماذج اللغوية (LLMs) على اللغة العربية الفصحى الرصينة. 2. تحسين قدرات الترجمة الآلية للنصوص الأدبية والتاريخية. 3. حفظ التراث العربي والإسلامي رقمياً وتسهيل معالجته حاسوبياً. --- ## 📚 محتويات البيانات تحتوي المدونة على أكثر من **64,000 زوج** من النصوص الموازية (عربي - إنجليزي) مستخرجة من أعمال خالدة، تشمل: * **القانون في الطب:** لابن سينا (مصدر طبي وتاريخي). * **المقدمة:** لابن خلدون (أساس علم الاجتماع). * **كتاب المناظر:** لابن الهيثم (في الفيزياء والبصريات). * **نهج البلاغة:** للإمام علي بن أبي طالب (قمة الفصاحة العربية). * **طوق الحمامة:** لابن حزم الأندلسي. * ومجموعة مختارة من الرسائل الأدبية والفلسفية. --- ## 📊 التفاصيل التقنية * **الصيغة (Format):** `Parquet` (مضغوطة وعالية السرعة). * **اللغة (Language):** العربية الفصحى (`ar`) ↔️ الإنجليزية (`en`). * **حجم البيانات:** ~64 ألف صف. * **المهمة (Task):** الترجمة (Translation)، نمذجة اللغة (Language Modeling). --- ## 🛠 طريقة الاستخدام (Python) يمكنك تحميل واستخدام البيانات مباشرة عبر مكتبة `datasets` كالتالي: ```python from datasets import load_dataset # تحميل ملف البيانات (تأكد من وضع المسار الصحيح بعد الرفع) dataset = load_dataset("parquet", data_files="train.parquet") # عرض عينة من النصوص print(dataset['train'][0]) # النتيجة: {'text_ar': '...', 'text_en': '...'}
camel
# Camel Object Detection Dataset (camel-of42k) 🐪 ## 📄 Dataset Summary | ملخص البيانات This dataset contains images of camels annotated for object detection tasks. It is designed to help researchers and developers train models for camel detection in various environments, such as deserts and highways. هذه مجموعة بيانات (Dataset) تحتوي على صور للجمال مجهزة و"معلمة" (Annotated) لمهام الكشف عن الكائنات. تهدف هذه البيانات لمساعدة الباحثين والمطورين في المملكة والمنطقة العربية لبناء نماذج ذكاء اصطناعي تخدم البيئة المحلية (مثل أنظمة سلامة الطرق واكتشاف الجمال السائبة). ## 📊 Dataset Details | تفاصيل تقنية * **Task:** Object Detection (كشف كائنات) * **Format:** YOLOv8 (TXT annotations & YAML config) * **Classes:** `Camel` * **Original Platform:** Roboflow Universe --- ## 🔗 Original Source & Attribution | المصدر والحقوق **⚠️ Disclaimer:** This dataset is a mirror hosted on **Oneurai** to facilitate access for the AI research community. **Oneurai does not own the copyright to these images.** All rights belong to the original authors and contributors on Roboflow. * **Original Project:** camel-of42k * **Source Link:** [Click here to view on Roboflow Universe](https://universe.roboflow.com/project-buqhv/camel-of42k/dataset/1) * **Publisher:** project-buqhv **License Note:** Please verify the license on the original Roboflow page before using this dataset for commercial purposes. This mirror is intended for **Educational and Research use**. الرجاء مراجعة الرابط الأصلي أعلاه للتأكد من شروط الرخصة قبل الاستخدام التجاري. هذه النسخة مرفوعة لأغراض بحثية وتعليمية لتسهيل الوصول للمطورين. --- ## 🛠 How to Use | طريقة الاستخدام You can use this dataset directly with **Ultralytics YOLOv8**: ```python from ultralytics import YOLO # 1. Load the model model = YOLO("yolov8n.pt") # load a pretrained model # 2. Train the model using this dataset # Ensure you point to the downloaded 'data.yaml' file results = model.train(data="data.yaml", epochs=50, imgsz=640)
wiki-arabic-full
اسم المصدر (Source Name): Arabic Wikipedia (ويكيبيديا العربية). المعرف البرمجي (Hugging Face ID): wikimedia/wikipedia نسخة الإصدار (Config/Version): 20231101.ar (تحديث 1 نوفمبر 2023). نوع البيانات (Type): نصوص معرفية عامة (General Knowledge / Encyclopedic Text). اللغة (Language): العربية الفصحى الحديثة (Modern Standard Arabic - MSA). عدد المقالات (Size): حوالي 1.22 مليون مقال/سجل (كما ظهر في صورتك). صيغة الحفظ (Format): Apache Arrow / Parquet (محفوظة عبر مكتبة datasets).