O‘ZBEK-TURK PARALLEL KORPUSI UCHUN MATNLAR TOKENIZATSIYASI MASALASI

Авторы

  • Iqbola Xolmonova

Ключевые слова:

token, tokenizatsiya jarayoni, parallel korpus, Python NLTK, o‘zbek-turk parallel korpus.

Аннотация

Ushbu maqolada tokenizatsiya haqida, korpus tuzish uchun tokenizatsiya zarurligining sabablari, o‘zbek-turk parallel matnlari tokenizatsiyasini amalga oshiruvchi dasturlar va ularning mavjud imkoniyatlari yoritilgan. Shu bilan birga, o‘zbek-turk parallel korpusi uchun matn tokenizatsiyasi jarayonida duch kelish mumkin bo‘lgan muammolar va ularning yechimi haqida so‘z boradi. Undan tashqari “Python NLTK yordamida so‘z tokenizatsiyasi” dasturidan foydalanish tartibi haqida ma’lumotlar mavjud.

Загрузки

Опубликован

2024-06-12