پیکره متنی ئاسوسافت - ویکی‌پدیا، دانشنامهٔ آزاد

پیکرهٔ متنیِ ئاسوسافت (به کردی سورانی: ئاسۆسافت) اولین پیکرهٔ متنیِ حجیم زبان کردی سورانی است که توسط گروه پژوهشیِ ئاسوسافت (ئاسۆسافت) گردآوری و پردازش شده‌است. این پیکره دربردارندهٔ ۴۵۸٬۰۰۰ سند متنیِ زبان کردی سورانی (کردی مرکزی) است که عمدتاً از وبگاه‌ها، روزنامه‌ها، کتاب و مجلات کردی جمع‌آوری شده‌است. پیکرهٔ ئاسوسافت حاوی ۱۸۸ میلیون نشانه است که حدود ۲۲ درصد از این پیکره دارای برچسب موضوعیِ متون است و می‌توان از آن برای دسته‌بندی موضوعیِ متون استفاده کرد. علاوه بر این، از پیکره برای پژوهش‌های زبان‌شناسی و سایر حوزه‌های پردازی زبان طبیعی، مانند بازشناسی گفتار، استخراج مدل زبانی، و استخراج واژه‌نامه می‌توان استفاده کرد.[۱][۲][۳]

منابع[ویرایش]

  1. Hadi Veisi, Mohammad MohammadAmini, Hawre Hosseini; Toward Kurdish language processing: Experiments in collecting and processing the AsoSoft text corpus, Digital Scholarship in the Humanities, , fqy074, https://doi.org/10.1093/llc/fqy074
  2. «نسخه آرشیو شده». بایگانی‌شده از اصلی در ۹ مارس ۲۰۱۹. دریافت‌شده در ۱۶ مارس ۲۰۱۹.
  3. https://github.com/AsoSoft/AsoSoft-Text-Corpus