|
ИСТИНА |
Войти в систему Регистрация |
ИСТИНА ПсковГУ |
||
Доклад посвящен разработке базы данных коннекторов русского языка - средств связи клауз (Рускон). База содержит коннекторы, представленные в ряде академических словарей и словарей служебных слов. Все коннекторы характеризуются по ряду синтаксических и семантических признаков - позиция клаузы и позиция коннектора в ее составе, наличие, обязательность и позиция коррелята, состав коннектора и допустимость его ветвления и модификации, употребление коннектора в независимых предложениях; базовый семантический тип коннектора, возможность прагматических употреблений - инферентивного, иллокутивного и метатекстового. Хорошо известны и активно используются положительные стороны цифрового формата представления данных - возможность быстрого поиска и фильтрации, гиперссылки, одновременная работа в онлайн-режиме и т.п. Однако при переходе к цифровому формату неизбежно встает ряд проблем, из которых самые очевидные - терминологическая несогласованность в источниках, жесткие требования к структуре базы, необходимость принятия решения по каждому параметру (в отличие от словаря, где единица может быть охарактеризована не по всем параметрам). Есть и особая проблема, которая появляется именно для служебных частей речи - проведение границы между лексико-грамматическими классами, а также проблема выделения базовой единицы описания, т.е. объединения/разделения лексических входов в той или иной функции и с тем или иным расширением (напр. по той причине что - по той простой причине что - по причине что). В докладе будут рассмотрены пути решения данных проблем с помощью облачной системы реляционных таблиц с открытым исходным кодом Grist в качестве внутреннего представления данных ("бэкенда").