В работе обсуждается проблема извлечения фактов из китайских текстов. Китайский язык достаточно сложен для машинной обработки, что обусловлено отсутствием пробелов между словами и многозначностью иероглифов, поэтому синтаксический анализ текстов невозможен без семантического анализа,
поскольку любое сочетание иероглифов может быть интерпретировано неоднозначно. Существующие статистические методы сегментации предложений на слова и синтаксического анализа не обладают достаточной полнотой и точностью, вследствие чего многофазный процесс (сегментация фраз, синтаксический анализ, извлечение фактов) приводит к накоплению ошибок.
В статье предлагается ролевой подход к выявлению членов предложения на основе служебных слов, предлогов и послелогов, а также достаточно ограниченного словаря. Эти служебные слова и символы позволяют не только сегментировать последовательности символов, но и выявлять роли слов, а значит,
и части речи в предложении. Даже такой небольшой набор слов позволяет в большинстве случаев успешно выявлять роль слов в предложении, в частности, имена собственные, существительные, глаголы, что делает возможным извлечение из текстов сущностей, а также фактов в виде субъект–предикат–объект. Проведенные на реальных текстах эксперименты показывают удовлетворительные результаты даже при ограниченном словаре. Предложенный подход демонстрирует высокую скорость, поскольку отсутствуют синтаксический разбор и сегментация фраз, использующие переборные методы.