Software Journal:
Theory and Applications

Подать статью

Вход Регистрация

Поздравляем с днем рождения Сотникова Александра Николаевича!

[29.07.2022]

Редакция поздравляет с днем рождения Сотникова Александра Николаевича,
заместителя директора Межведомственного суперкомпьютерного центра РАН, доктора
физико-математических наук, профессора, заместителя главного редактора журнала
«Программные продукты и системы» главного редактора электронного научного
журнала «Software Journal: Theory and Applications».

Желаем здоровья, благополучия, реализации планов!
Огромное спасибо за неоценимую помощь и всемерную поддержку.

Все объявления...

Построение многофункционального лексического компонента для системы анализа текстов на естественном языке

И.С. Смирнов (dru0121@gmail.com) Тверской государственный технический университет (аспирант), Тверь, Россия;
В.А. Биллиг (vladimir-billig@yandex.ru) Тверской государственный технический университет, кафедра программного обеспечения (с.н.с., доцент, профессор), Тверь, Россия, кандидат технических наук;

В работе предлагается новый улучшенный алгоритм UniLemm (универсальный лемматизатор), который позволяет решать как прямую задачу – построение леммы слова, так и обратную– построение по лемме словоформ с фиксированными граммемами.

Лемматизатор является важным компонентом продвинутых систем искусственного интеллекта, занимающихся анализом текстов на естественном языке.

Задача лемматизации заключается в приписывании каждому слову входного текста его начальной формы (леммы).

В работе задача лемматизации сводится к задаче классификации. Каждой словоформе с заданными граммемами (грамматическими категориями) приписывается некоторый класс – парадигма склонения, где под парадигмой P понимается множество правил склонения.

При построении классификатора для задачи лемматизации учитывается существование несловарных слов, а также ситуация, когда граммемы для словоформы не заданы.

Для построения дерева классификации используется обучающая выборка, роль которой играет словарь русского языка OpenCorpora. При построении узлов дерева классификации учитываются два важных ортогональных аспекта – суффиксы словоформ и множество граммем. Применяемое в работе множество граммем является подмножеством набора граммем, используемого в национальном корпусе русского языка, и надмножеством для граммем, используемых в нотации Universal Dependencies (UD).

При построении дерева классификации используется оригинальная структура данных на основе RDR-правил, позволяющих формулировать не только правило склонения для словоформы, но и возможные исключения.

Алгоритм UniLemm строит комбинированное дерево классификации, содержащее поддеревья суффиксов и поддеревья граммем. Суффиксные деревья предназначены для первичной классификации, а деревья граммем позволяют разрешать омонимию.

На заключительном этапе алгоритма итоговое дерево классификации представляется в виде детерминированного автомата DFA (Deterministic Final Automaton).

Проверка корректности и качества алгоритма проводилась как на контрольной выборке OpenCorpora, так и на двух подкорпусах, содержащих оригинальные тексты различной тематики и стилистики. Алгоритм показал хорошие результаты b по точности решения задачи лемматизации (выше 90%), и по скорости обработки текстов (250-300 тысяч слов в секунду в однопоточном режиме).