O‘zbek tilidagi mantlarni avtomatik morfologik tahlil qilishda lemmatizatsiya va stemming jarayoni
Keywords:
o‘zbek tili, morfologik tahlil, tabiiy tilni qayta ishlash, NLP, lemmatizatsiya, stemming, ma’lumot olish texnologiyasi, tovush oʻzgarishlari, lemma, stem, normal shakl, lugʻat shakli, asos, qoidalarga asoslangan metod, lugʻatli metod, lugʻatsiz metod, stoxastik metod.Abstract
Tabiiy tilni qayta ishlash sohasida grafematik tahlil (tokenizatsiya),
morfologik tahlil (lemmatizatsiya va stemming), sintaktik tahlil
(parsing) va semantik tahlil bosqichlari NLPning deyarli barcha
yoʻnalishlari uchun muhim hisoblanadi. Raqamli texnologiya uchun
qayta ishlangan tabiiy tildan koʻpgina dasturiy ta’minotlar yaratish
mumkin. NLPda morfologik tahlilning lemmatizatsiya va stemming
texnologiyalari barcha tillar uchun xos boʻlib, ular soʻzshakllarni
lugʻatdagi normal shaklini aniqlab beradi. Lemmatizatsiya va stemming
vazifasi bir xil boʻlsa-da, natijani chiqarish jihatidan ular farqlanadi.
Tezkor jarayon sifatida stemming qiymatli boʻlsa, aniq lingvistik natijani
berishi jihatidan lemmatizatsiya muhim sanaladi. Fleksiyani aniqlash
xususiyati bilan lemmatizatsiya flektiv tillar uchun moʻljallangan boʻlsada,
hozirda agglyutinativ tillar uchun ham qoʻllaniladi. Oʻzbek tilini qayta
ishlashda har ikki texnologiya ham muhim hisoblanadi. Mazkur maqolada
lemmatizatsiya va stemmingning oʻxshash va farqli jihatlari, oʻzbek tilida
har ikki texnologiyaning qoʻllanishi, “morfologik tahlil” terminining NLP
va oʻzbek tilshunosligida farqlanishi yoritib berilgan.