Лемматизация и процессы стемминга в автоматическом морфологическом анализе узбекских мантов
Авторы
Manzura Abjalova
Ключевые слова:
Узбекский язык, морфологический анализ, обработка естественного языка, обработка естественного языка, лемматизация, стемминг, технология поиска информации, звуковые изменения, лемма, основа, нормальная форма, словарная форма, базис, метод, основанный на правилах, словарный метод, метод без словаря, стохастический метод.
Аннотация
В области обработки естественного языка этапы графематического анализа (токенизации), морфологического анализа (лемматизации и стемминга), синтаксического анализа (парсинга) и семантического анализа важны практически для всех областей NLP. Из обработанного естественного языка для цифровой технологии можно создать множество программных приложений. В NLP технологии лемматизации и стемминга морфологического анализа являются общими для всех языков, и они определяют нормальную форму словоформ в словаре. Хотя задача лемматизации и стемминга одинакова, они различаются с точки зрения получения результата. В то время как стемминг ценен как быстрый процесс, лемматизация считается важной с точки зрения предоставления четкого лингвистического результата. Хотя лемматизация с функцией определения словоизменения была предназначена для флективных языков, в настоящее время она также используется для агглютинативных языков. Обе технологии важны при обработке узбекского языка. В статье рассматриваются сходства и различия между лемматизацией и стеммингом, использование обеих технологий в узбекском языке, а также различие между термином «морфологический анализ» в естественно-языковом программировании и узбекской лингвистике.