Разработка корпусного менеджера с функцией тематизатора для анализа текстов на русском языке

Руководитель проекта

Все участники
Москвичева Светлана Алексеевна

Москвичева Светлана Алексеевна

доцент кафедры иностранных языков, доцент кафедры общего и русского языкознания, старший научный сотрудник Института современных языков, межкультурной коммуникации и миграций РУДН

О проекте

Исследование нацелено на разработку корпусного менеджера ЛеСеАн – лексико-семантического анализатора – программного обеспечения, способного определять тематику пользовательского корпуса текстов на основе их языковых данных.

Разрабатываемое программное обеспечение является уникальным в ряду современного лингвистического ПО. При его разработке был учтён опыт создания зарубежных корпусных менеджеров, среди которых Sketch Engine, Orange, IRaMuTeQ, Voyant-tools, AntConc. Названные программы автоматизированного анализа текста ориентированы прежде всего на работу с европейскими языками, в то время как ЛеСеАн создаётся с учётом структурных особенностей русского языка. Это позволяет свести к минимуму ошибочные результаты автоматизированного анализа текста на русском языке с помощью ЛеСеАн.

Программа поддерживается наиболее популярными операционными системами, как Microsoft Windows, Apple MacOS, Linux.
  • Языком разработки ЛеСеАн является Java. Все дистрибутивы программы включают виртуальную машину Java – специальный компонент, который обеспечивает кроссплатформенность ПО, то есть возможность запуска ЛеСеАн на Windows, Linux и Mac.
  • Кроссплатформенность графического интерфейса ЛеСеАн обеспечивает JavaFX, инструментарий которого обеспечивает универсальность отображения программы на устройствах с разными операционными системами.
  • В разработке используются дополнительные библиотеки и сервисные компоненты, например, программы установки. В MS Windows используется программа установки Inno Setup, которая позволяет автоматизировать установку.
  • Для вычислений и обработки материалов используется несколько библиотек. Чтение документов в формате doc. осуществляется благодаря библиотеке Apache POI.
  • Лингвистическая часть ЛеСеАн обрабатывается библиотекой MyStem от Яндекса. MyStem – это известный лемматизатор для русского языка, который может быть интегрирован в разработку нового ПО. MyStem широко используется в научно-исследовательских проектах, где требуется автоматизация обработки текстовых данных на русском языке.

Сроки реализации проекта

2023-2026 гг.

Поддержка проекта

Проект реализуется при поддержке РУДН в рамках темы НИР № 056123-0-000 «Разработка корпусного менеджера с функцией тематизатора для анализа текстов на русском языке».

Партнёры

  • Национальный исследовательский Томский государственный университет — техническая разработка программного обеспечения (сайт)
  • Московское академическое художественное училище — разработка дизайна пользовательского интерфейса (сайт)


Задачи проекта

1
Проанализировать существующие лингвистические программные обеспечения для выявления их возможностей и ограничений применительно к анализу языкового материала на русском языке.
2
Разработать техническое задание для создания программы.
3
Разработать дизайн пользовательского интерфейса с учётом ключевых параметров UI и UX.
4
Выполнить пилотный запуск программы и для выявления ошибок в её функционировании организовать апробацию программы в фокус-группе.
5
Проанализировать обратную связь фокус-группы и с её учётом доработать функционал программы.
6
Разместить законченное программное обеспечение на сайте проекта для открытого пользования.

Цели проекта

    Цель проекта – разработать лингвистическое программное обеспечение с функцией тематизатора, которое позволяет автоматизировать анализ текста на русском языке, в частности, выявлять ключевые темы текста на основе его языковых данных: лексического состава и частотности отдельных лексических единиц и словоформ, грамматической структуры и повторяемости определённых грамматических конструкций, а также других тематически значимых параметров.

Результаты проекта

1
Весна 2023 г. — определён потенциальный функционал программы.
2
Лето 2023 г. — разработан дизайн интерфейса программы.
3
Зима 2023-2024 г. — разработана пилотная версия программы.
4
Весна – 2024 г. — запущена апробация пилотной версии программы в фокус-группе.
5
Лето 2024 г. — проведён анализ функционала пилотной версии программы по результатам её апробации в фокус-группе.
Продолжая использовать сайт phil.rudn.ru вы соглашаетесь на использование cookies. Более подробная информация на странице Политика конфиденциальности