Retour aux données ouvertes
NLP & Langues
DarNERcorp — Named Entity Recognition in Moroccan Darija
À Propos
DarNERcorp est un corpus annoté manuellement de 65 905 tokens pour la Reconnaissance d'Entités Nommées (NER) en Darija marocaine. Couvre les catégories : personnes, lieux, organisations, date/heure, et divers. Disponible sur Mendeley Data (V4). Publié en 2023 dans Data in Brief.
https://data.mendeley.com/datasets/286sss4k9v/4
Visiter le siteDans la même catégorie
Goud-sum (HuggingFace) — Darija Summarization Dataset
158k articles + headlines from Goud.ma — Darija/MSA text summarization dataset
Darija Open Dataset (DODa)
100k+ entries darija↔English — largest open source Darija translation dataset
MA_Open_Datasets — Goud.ma
Goud news articles in CSV format — alternative distribution of Goud data
MA_Open_Datasets — LeMatin
Le Matin newspaper articles by category — nation, économie, culture, sport