(Работа выполнена при поддержке Российского гуманитарного научного фонда,
грант № 16-34-1-01033)
В настоящее время с помощью современных информационных технологий и математического моделирования активно создаются корпусы естественных языков. Под корпусом понимается информационно-справочная система, основанная на собрании оцифрованных текстов. Корпус включает в себя различные письменные и устные тексты, представленные в данном языке, различные типы словарей, а также разметку – информацию о свойствах текстов. Разметка отличает корпус от электронных библиотек текстов. Чем богаче и разнообразнее разметка, тем выше научная и учебная ценность корпуса. С помощью корпусов решаются многие филологические и лингвистические задачи.
Работа над формированием Национального корпуса тувинского языка ведется преподавателями, аспирантами и студентами Тувинского государственного и Сибирского федерального университетов. Информационная составляющая корпуса активно пополняется учеными Тувинского государственного университета. В корпус включен специальный раздел, посвященный тувинской художественной литературе и фольклору. В него также входят частотный словарь по художественным произведениям на тувинском языке, тувинско-русский электронный словарь «ТывЛин», словарь диалектных слов алтайского диалекта тувинского языка, морфемно-орфографический словарь [1]. В корпусе предусмотрен поиск слов и морфем в заданном тексте. Работы по расширению информационного содержания Национального корпуса и углублению уровня обработки текстов продолжаются [2]. Особый интерес представляют исследования произведений тувинского героического эпоса как важной составляющей этнокультурного наследия Республики Тыва [3].
Всякий корпус как информационно-справочная система включает в себя информационную и программную составляющие. Создание корпуса предполагает выполнение следующих работ: определение перечня хранимых текстов, оцифровка текстов, выверка и корректировка текстов, выбор типов разметки, разметка текстов (вручную или автоматически), разработка программных средств обеспечения доступа к хранимым текстам.
Существенной частью поискового аппарата корпуса является метаразметка. Под метаразметкой понимается приписывание тексту множества параметров, значения которых характеризуют текст в целом. Совокупность значений этих параметров называется метаописанием, или паспортом произведения. Определение структуры метаописаний и формирование метаописаний – важнейшая задача, возникающая при создании корпуса. Информация, отражающая метаописания исследуемого множества текстов, в большинстве случаев хорошо структурирована и допускает представление контекстом - матрицей вида «объект-признак», каждая строка которой содержит метаописание конкретного текста. Такое представление информации о текстах позволяет применять при их исследовании математический аппарат машинного обучения и анализа формальных понятий и решать различные лингвистические и филологические задачи, сводимые к концептуальному моделированию и классификации по прецедентам [4, 5]. Определение состава признаков, входящих в метаописание, является достаточно сложной задачей, требующей привлечения лингвистов и филологов. Состав признаков, как правило, устанавливается, исходя из задач исследования, на которые ориентирован корпус.
В данной статье представлена БД фольклорного раздела корпуса тувинского языка, содержащая описания более 50 тувинских эпических сказаний. Предложена структура метаразметки текстов тувинского героического эпоса, приведено описание программных средств формирования бинарных контекстов на основе БД корпуса.
БД тувинских героических сказаний
Богатый фонд рукописных и магнитофонных записей всех жанров тувинского фольклора находится в научном архиве Тувинского института гуманитарных и прикладных социально-экономических исследований (ТИГПИ). Основу архива составляют полевые фольклорно-этнографические материалы, собранные в Республике Тыва и у этнических тувинцев Китая и Монголии. Исключительная роль по введению в научный оборот текстов тувинских героических сказаний принадлежит коллективу ТИГПИ. В архиве института хранятся около 300 записей эпических произведений [3]. Однако свет увидели немногие, поскольку напечатаны они в очень старых ветхих книгах. В настоящее время имеются 14 сборников и отдельных изданий, содержащих тувинские героические сказания.
В БД Национального корпуса тувинского языка включены тексты тувинского героического эпоса, представленные в [3]. Сведения о сборниках, в которых опубликованы эти тексты, и названия этих текстов приведены в таблице 1. В настоящее время тексты тувинских сказаний продолжают расшифровываться и издаваться сотрудниками ТИГПИ. Поэтому сформированная БД будет периодически пополняться новыми фольклорными произведениями, в том числе и за счет фольклора тувинцев зарубежья.
В БД хранятся не только оцифрованные тексты произведений, но и их метаописания. Набор признаков, составляющих метаописание текста произведения, считается релевантным, если эти признаки отражают текст с существенной для исследователя точки зрения. Релевантный набор признаков выбирается экспертами в зависимости от филологических и лингвистических задач, решаемых в рамках корпусов.
Применительно к тувинскому героическому эпосу были определены релевантные наборы признаков, определяющие метаописания текстов героических сказаний тувинского народа. Данные наборы признаков были согласованы с сотрудниками ТИГПИ и профессором Тувинского государственного университета, директором научно-образовательного центра «Тюркология» М.В. Бавуу-Сюрюн. Установленные наборы признаков позволяют формировать различные контексты произведений тувинского героического эпоса и применять при их изучении и исследовании современные математические методы [7, 8].
В состав метаописания текстов тувинского героического эпоса входят род, вид, сюжет, мотив, стандартные словоупотребления или клише, форма, герой, зачин произведения. Название и год издания сборника, в котором опубликован текст, также входят в метаописание. Многократное вхождение текста в различные сборники обязательно фиксируется в метаописании. Так, было установлено, что из указанных в таблице 1 текстов в разных изданиях встречаются следующие произведения.
1) «Алдын-Кургулдай», сказитель – Догаа Соян Куутсулмааевич из Эрзинского района (опубл. в двух сборниках, изданных в 1957 и 1993 гг.).
2) «Анан-Даваа», сказитель – Саая Одербей Мызаа-Каракович из Чеен- Хемчикского района (опубл.
в сборниках 2012 и 2014 гг.).
3) «Арзылан-Кара аъттыгЧечен-Кара меге», сказитель – Дондук Салчак Дамдынович из Бай-Тайгинского района (опубл. в сборниках 1995 и 2012 гг.).
4) «Арзылан-Кара аъттыгХунан-Кара», сказитель – Ооржак Чанчы-Хее Чапаажыкович (опубл. в сборниках, вышедших в 1997 г. и 2014 гг.)
5) «0лээдей-Мерген», сказитель – Хертек Шой Чамзыевич из Монгун-Тайгинского района (опубл.
в сборниках 2012 и 2014 гг.).
6) «Эрелзей-Мерген, Харагалзай-Мерген алышкылар», сказитель – Дамдын Оюн Хорлуу из Тандинского района (опубл. в сборниках, вышедших в 1955 и 1993 гг.).
Для БД корпуса тувинского языка существенен также вопрос о наличии переводов тувинских фольклорных произведений на русский язык. С этой целью в метаописание текстов введен параметр, отражающий наличие перевода. С помощью данного параметра возможно формирование параллельного корпуса переводов тувинского героического эпоса.
Комментарии