Экспертный и машинный анализ текстовых массивов масс-медиа и многопараметрическое моделирование процессов коммуникации

Данное направление развивается на основе методов и программных средств, разработанных научным коллективом. Для экспертного анализа и создания предобученных моделей используется ИС «Семограф», для визуальной аналитики — платформа SciVi.

Технология психологического и социального профилирования пользователей социальных интернет-сервисов (SNS) на основе автоматизированной обработки речевых сообщений пользователей

Профилирование пользователей SNS проводится в рамках методологии «обучение с учителем». Для этого используется созданный коллективом размеченный корпус реплик пользователей соцсетей (база данных «Речевые и неречевые параметры пользователей социальной сети», рег. в Роспатенте № 2 018 621 839 от 20.11.2018), прошедших психологический опрос BFI. Разметка включает более 150 языковых параметров, относящихся к семантике, грамматике, стилистике и др. На втором этапе с помощью генетического алгоритма был осуществлен отбор значимых языковых параметров для каждой психологической черты (экстраверсии, доброжелательности, открытости, добросовестности, нейротизма), а также пола. В результате каждой психологической/социальной черте был поставлен в соответствие свой набор из 25−35 языковых параметров. Это позволило соотнести психологические и социальные параметры с речевым поведением. На третьем этапе была создана программа BFI CNN Detector (рег. в Роспатенте № 2 019 661 827 от 09.09.2019), использующая методы глубинного обучения на основе сверточных нейронных сетей и размеченный корпус. Точность профилирования достигает 65−70% при небольшом для подобных исследований материале. Результаты сопоставлялись с известными моделями, использующими word2vec, а также разного рода словари (в частности, MRC и LIWC); было обоснованно преимущество предложенной модели.

✦ В рамках госзадания ПГНИУ на 2017-2019 гг., проект № 34.1505.2017/4.6

Разработка когнитивно-информационной модели социальной реальности в массовой коммуникации, демонстрирующей процесс и результат медиатизации социальной реальности

Модель функционирует на основе тематически и семантически размеченного корпуса медиатекстов, имеющего множество дополнительных параметров (геометка события, дата публикации текста, название издания и мн. др.). Модель исследует медиасферу (медиатизированную реальность, создаваемую в масс-медиа) как полиструктурную, изменяющуюся во времени и пространстве информационную среду.
Разрабатываемая модель используется для:
а) выявления наиболее частотных концептов в разных тематических областях;
б) создания типологии медиасобытий на основе их фреймового и тематического представления;
в) выявления тематических, семантических, пространственно-временных и каузальных зависимостей между медиасобытиями;
г) выявление нейрофизиологических паттернов с помощью метода когнитивных вызванных потенциалов (с помощью 128-канального носимого электроэнцефалографа BE Plus LTM (EB Neuro)), возникающих в ответ на значимые для социума концепты.
В конечном итоге модель создается для выявления кластеров социальных проблем и угроз устойчивому развитию общества.
Анализ осуществляется на основе ресурсов агрегатора новостного контента СМИ2 (около 53 млн. заголовков и аннотаций публикаций российских СМИ), ИС "Семограф" и веб-приложения "Автоматизированный классификатор новостного контента" (Свидетельство о государственной регистрации в Федеральной службе по интеллектуальной собственности (Роспатент) № 2017660334 от 21.09.2017).

✦ В рамках госзадания ПГНИУ на 2017-2019 гг., проект № 34.1505.2017/4.6

Автоматизированная обработка массива текстов выступлений депутатов Государственной Думы

Исходные данные включают более 800 мб текстового материала (общий объем текстов выступлений за период 1994 - 2019 гг. составляет свыше 320 тыс. единиц, общий объем словоупотреблений – свыше 52 млн. единиц.), который обрабатывается с помощью созданных языковых и предметных библиотек в ИС "Семограф" (https://semograph.org/), представляющих собой сгруппированные по категориям наборы языковых единиц (слов и словосочетаний). Разметка текстов осуществляется автоматически с помощью ряда лексических библиотек, в том числе и разработанного ранее лексического словаря ОКВЭД (общероссийского классификатора видов экономической деятельности), позволяющего выявить экономические интересы политических акторов и их коалиций.

✦ В рамках гранта РФФИ, проект № 20-011-00624, рук. к.полит.н. К.А. Сулимов

Разработка языковых и предметных библиотек и моделей на основе методов машинного обучения

Проект посвящен разработке мультиязыковой цифровой платформы генерации и обмена информационными и знаниевыми продуктами, относящимися к области экспертной и машинной обработки и анализа текстов и текстовых массивов.
Цифровая платформа создается на основе реализованной в информационной системе "Семограф" уникальной архитектуры и разработанных на ее основе многофункциональных инструментов графосемантического моделирования, которые позволяют использовать в процессе экспертного анализа текстов/текстовых массивов качественного и количественного контент-анализа, частотного анализа, разметки текстов и др. Помимо экспертных методов анализа контента система позволяет использовать машинную обработку либо в парадигме LIWC (обработка массивов с помощью разнообразных лексических библиотек), либо с помощью методов машинного обучения, в том числе используя предобученные ML-модели.
Создание информационных (датасеты, программные модули, шаблоны) и знаниевых продуктов (лексические библиотеки, тезаурусы) осуществляется с помощью имеющегося и разрабатываемого функционала ИС "Семограф" с привлечением к данной работе сообщества пользователей (лингвистов, прикладных математиков и специалистов в области Digital Humanities), осуществляющих коммуникацию, обмен результатами деятельности на создаваемой платформе.

✦ Проект получил поддержку на конкурсе «Старт — Цифровые платформы» (проект № С1ЦП-76 308), рук. К. И. Белоусов.

Участники направления

Кафедра теоретического и прикладного языкознания ПГНИУ
К. И. Белоусов, Е. В. Ерофеева, Е. С. Худякова и др.
Кафедра математического обеспечения вычислительных систем ПГНИУ
К. В. Рябинин, С. И. Чуприна, И. А. Лабутин, Р. В. Чумаков и др.
Кафедра журналистики и массовых коммуникаций
Н. Л. Зелянская, Н.Ф. Пономарёв
Кафедра социологии ПГНИУ
А. Е. Кузнецов
Кафедра неврологии ПГМУ
Л. Ю. Брохин
Программисты компании «Human Semantics»
Д. А. Баранов, Р. В. Чумаков, Р. К. Баширов

Белоусов К. И., Ерофеева Е. В., Баранов Д. А., Зелянская Н. Л., Щебетенко С. А. Многопараметрический анализ лингвистических данных в информационной системе «Семограф» (на примере исследования речевого поведения пользователей социальной сети)
Baranov D.A., Belousov K.I., Erofeeva E.V., Leshchenko Y. Semograph Information System as a Platform for Network-Based Linguistic Research: a Case Study of Verbal Behaviour of Social Network Users https://doi.org/10.1007/978-981-13-8260-4_29
Belousov K., Baranov D., Galinskaia T., Ponomarev N., Zelyanskaya N. Using Machine Learning and Visualization Tools to Monitor National Media https://doi.org/10.1007/978-981-13-8566-7_44
Сычев О.А., Белоусов К.И., Протасова И.Н. Ценностные и моральные основы социально-политических взглядов молодежи
Белоусов К.И., Баранов Б.Д., Ерофеева Е.В. Тематическая и парадигмальная модели концептосферы науки (на материале перспективных исследований российской лингвистики)
Рябинин К.В., Белоусов К.И., Чуприна С.И., Щебетенко С.А., Пермяков С.С. Средства визуальной аналитики для комплексного исследования результатов многопараметрического описания пользователей социальных интернет-сервисов
Ryabinin, K.V., Chuprina, S.I., Belousov, K.I., Permyakov, S.S.Visual analytics methods of the verbal behavior variability of social networks users depending on their individual psychological features
Belousov K.I., Baranov D.A., Boronnikova N.V., Erofeeva E.V., Zelyanskaya N.L. Interdisciplinarity and Polyparadigmality in Domestic Linguistics (Corpus research of projects funded in the field of linguistics) https://doi.org/10.1134/S1019331617060016
Belousov K., Erofeeva E., Leshchenko Y., Baranov D. “Semograph” Information System as a Framework for Network-Based Science and Education
Белоусов К.И., Ерофеева Е.В., Зелянская Н.Л. О внешних и внутренних границах современной лингвистики (графосемантическое моделирование концептосферы предметной области на основе корпусного подхода)
Рябинин К.В., Баранов Б.Д., Белоусов К.И. Интеграция информационной системы Семограф и визуализатора SciVi для решения задач экспертного анализа языкового контента

info@scllab.ru

614068, г. Пермь, ул. Букирева, 15, корп. 5, ауд. 159