O‘ZBEK-TURK PARALLEL KORPUSI UCHUN MATNLAR TOKENIZATSIYASI MASALASI
Keywords:
token, tokenizatsiya jarayoni, parallel korpus, Python NLTK, o‘zbek-turk parallel korpus.Abstract
Ushbu maqolada tokenizatsiya haqida, korpus tuzish uchun tokenizatsiya zarurligining sabablari, o‘zbek-turk parallel matnlari tokenizatsiyasini amalga oshiruvchi dasturlar va ularning mavjud imkoniyatlari yoritilgan. Shu bilan birga, o‘zbek-turk parallel korpusi uchun matn tokenizatsiyasi jarayonida duch kelish mumkin bo‘lgan muammolar va ularning yechimi haqida so‘z boradi. Undan tashqari “Python NLTK yordamida so‘z tokenizatsiyasi” dasturidan foydalanish tartibi haqida ma’lumotlar mavjud.
Downloads
Published
2024-06-12
Issue
Section
Maqolalar