Software Journal:
Theory and Applications

Send article

Entrance Registration

Results for сегментация предложений

  1. Ролевой подход к автоматическому извлечению фактов из естественно-языковых китайских текстов

    И.А. Бессмертный Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики (ИТМО), Санкт-Петербург, Russian Federation;
    Чуцяо Юй Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики (ИТМО), Санкт-Петербург, Russian Federation;

    The article was published in issue №1

    В работе обсуждается проблема извлечения фактов из китайских текстов. Китайский язык достаточно сложен для машинной обработки, что обусловлено отсутствием пробелов между словами и многозначностью иероглифов, поэтому синтаксический анализ текстов невозможен без семантического анализа,
    поскольку любое сочетание иероглифов может быть интерпретировано неоднозначно. Существующие статистические методы сегментации предложений на слова и синтаксического анализа не обладают достаточной полнотой и точностью, вследствие чего многофазный процесс (сегментация фраз, синтаксический анализ, извлечение фактов) приводит к накоплению ошибок.

    В статье предлагается ролевой подход к выявлению членов предложения на основе служебных слов, предлогов и послелогов, а также достаточно ограниченного словаря. Эти служебные слова и символы позволяют не только сегментировать последовательности символов, но и выявлять роли слов, а значит,
    и части речи в предложении. Даже такой небольшой набор слов позволяет в большинстве случаев успешно выявлять роль слов в предложении, в частности, имена собственные, существительные, глаголы, что делает возможным извлечение из текстов сущностей, а также фактов в виде субъект–предикат–объект. Проведенные на реальных текстах эксперименты показывают удовлетворительные результаты даже при ограниченном словаре. Предложенный подход демонстрирует высокую скорость, поскольку отсутствуют синтаксический разбор и сегментация фраз, использующие переборные методы.