دليل البيانات العربية

استعرض وقيّم مجموعات البيانات العربية لمعالجة اللغات الطبيعية

جارٍ تحميل البيانات...

حول هذا الدليل

البيانات الوصفية (الأسماء، الروابط، المهام، السنوات) مصدرها فهرس مَصَادِر — أكبر فهرس عام لمجموعات بيانات معالجة اللغة العربية، يضم أكثر من 600 مجموعة بيانات بمساهمة أكثر من 40 باحثاً.

تقييمات الجودة (الدرجات، نقاط القوة والضعف، المراجعات التفصيلية) هي عمل أصلي تم إنجازه باستخدام نظام تقييم آلي مبني على Claude من Anthropic داخل حاويات Docker معزولة، حيث فُحصت مئات العينات من كل مجموعة بيانات مع تحليل إحصائي شامل.

الاستشهاد بفهرس مَصَادِر

@misc{alyafeai2021masader,
  title={Masader: Metadata Sourcing for Arabic Text and Speech Data Resources},
  author={Zaid Alyafeai and Maraim Masoud and Mustafa Ghaleb and Maged S. Al-shaibani},
  year={2021},
  eprint={2110.06744},
  archivePrefix={arXiv},
  primaryClass={cs.CL}
}

@article{altaher2022masader,
  title={Masader Plus: A New Interface for Exploring +500 Arabic NLP Datasets},
  author={Altaher, Yousef and Fadel, Ali and Alotaibi, Mazen and others},
  journal={arXiv preprint arXiv:2208.00932},
  year={2022}
}