معالجة اللغات واللغات

IADD — Integrated Arabic Dialect Identification Dataset

نبذة

مجموعة بيانات IADD المتكاملة لتحديد اللهجات العربية: 135,804 نص من تويتر وفيسبوك والنصوص المنقولة يدويًا وتعليقات الصحافة. تغطي المغاربية (منها المغرب) والشامية والمصرية والخليجية. نُشرت 2022 في Data in Brief.

https://github.com/JihadZa/IADD

زيارة الموقع

في نفس الفئة

Goud-sum (HuggingFace) — Darija Summarization Dataset

158 ألف مقالة + عناوين من موقع Goud.ma — مجموعة بيانات تلخيص نصوص بالدارجة/العربية الفصحى

Darija Open Dataset (DODa)

أكثر من 100 ألف مدخل للترجمة من الدارجة إلى الإنجليزية — أكبر مجموعة بيانات مفتوحة المصدر للدارجة

MA_Open_Datasets — Goud.ma

مقالات Goud الإخبارية بصيغة CSV — توزيع بديل لبيانات Goud

MA_Open_Datasets — LeMatin

مقالات جريدة Le Matin مصنفة حسب الفئة — وطن، اقتصاد، ثقافة، رياضة