Разработка корпусного менеджера с функцией тематизатора для анализа текстов на русском языке
Руководитель проекта
Все участники →Москвичева Светлана Алексеевна
доцент кафедры иностранных языков, доцент кафедры общего и русского языкознания, старший научный сотрудник Института современных языков, межкультурной коммуникации и миграций РУДНО проекте
Исследование нацелено на разработку корпусного менеджера ЛеСеАн – лексико-семантического анализатора – программного обеспечения, способного определять тематику пользовательского корпуса текстов на основе их языковых данных.
Разрабатываемое программное обеспечение является уникальным в ряду современного лингвистического ПО. При его разработке был учтён опыт создания зарубежных корпусных менеджеров, среди которых Sketch Engine, Orange, IRaMuTeQ, Voyant-tools, AntConc. Названные программы автоматизированного анализа текста ориентированы прежде всего на работу с европейскими языками, в то время как ЛеСеАн создаётся с учётом структурных особенностей русского языка. Это позволяет свести к минимуму ошибочные результаты автоматизированного анализа текста на русском языке с помощью ЛеСеАн.
Программа поддерживается наиболее популярными операционными системами, как Microsoft Windows, Apple MacOS, Linux.- Языком разработки ЛеСеАн является Java. Все дистрибутивы программы включают виртуальную машину Java – специальный компонент, который обеспечивает кроссплатформенность ПО, то есть возможность запуска ЛеСеАн на Windows, Linux и Mac.
- Кроссплатформенность графического интерфейса ЛеСеАн обеспечивает JavaFX, инструментарий которого обеспечивает универсальность отображения программы на устройствах с разными операционными системами.
- В разработке используются дополнительные библиотеки и сервисные компоненты, например, программы установки. В MS Windows используется программа установки Inno Setup, которая позволяет автоматизировать установку.
- Для вычислений и обработки материалов используется несколько библиотек. Чтение документов в формате doc. осуществляется благодаря библиотеке Apache POI.
- Лингвистическая часть ЛеСеАн обрабатывается библиотекой MyStem от Яндекса. MyStem – это известный лемматизатор для русского языка, который может быть интегрирован в разработку нового ПО. MyStem широко используется в научно-исследовательских проектах, где требуется автоматизация обработки текстовых данных на русском языке.
Сроки реализации проекта
2023-2026 гг.Поддержка проекта
Проект реализуется при поддержке РУДН в рамках темы НИР № 056123-0-000 «Разработка корпусного менеджера с функцией тематизатора для анализа текстов на русском языке».Партнёры
- Национальный исследовательский Томский государственный университет — техническая разработка программного обеспечения (сайт)
- Московское академическое художественное училище — разработка дизайна пользовательского интерфейса (сайт)
Задачи проекта
Цели проекта
-
Цель проекта – разработать лингвистическое программное обеспечение с функцией тематизатора, которое позволяет автоматизировать анализ текста на русском языке, в частности, выявлять ключевые темы текста на основе его языковых данных: лексического состава и частотности отдельных лексических единиц и словоформ, грамматической структуры и повторяемости определённых грамматических конструкций, а также других тематически значимых параметров.