Экспертный и машинный анализ текстовых массивов масс-медиа и многопараметрическое моделирование процессов коммуникации
Данное направление развивается на основе методов и программных средств, разработанных научным коллективом. Для экспертного анализа и создания предобученных моделей используется ИС «Семограф», для визуальной аналитики — платформа SciVi.

Технология психологического и социального профилирования пользователей социальных интернет-сервисов (SNS) на основе автоматизированной обработки речевых сообщений пользователей
Профилирование пользователей SNS проводится в рамках методологии «обучение с учителем». Для этого используется созданный коллективом размеченный корпус реплик пользователей соцсетей (база данных «Речевые и неречевые параметры пользователей социальной сети», рег. в Роспатенте № 2 018 621 839 от 20.11.2018), прошедших психологический опрос BFI. Разметка включает более 150 языковых параметров, относящихся к семантике, грамматике, стилистике и др. На втором этапе с помощью генетического алгоритма был осуществлен отбор значимых языковых параметров для каждой психологической черты (экстраверсии, доброжелательности, открытости, добросовестности, нейротизма), а также пола. В результате каждой психологической/социальной черте был поставлен в соответствие свой набор из 25−35 языковых параметров. Это позволило соотнести психологические и социальные параметры с речевым поведением. На третьем этапе была создана программа BFI CNN Detector (рег. в Роспатенте № 2 019 661 827 от 09.09.2019), использующая методы глубинного обучения на основе сверточных нейронных сетей и размеченный корпус. Точность профилирования достигает 65−70% при небольшом для подобных исследований материале. Результаты сопоставлялись с известными моделями, использующими word2vec, а также разного рода словари (в частности, MRC и LIWC); было обоснованно преимущество предложенной модели.
✦ В рамках госзадания ПГНИУ на 2017-2019 гг., проект № 34.1505.2017/4.6

Разработка когнитивно-информационной модели социальной реальности в массовой коммуникации, демонстрирующей процесс и результат медиатизации социальной реальности
Модель функционирует на основе тематически и семантически размеченного корпуса медиатекстов, имеющего множество дополнительных параметров (геометка события, дата публикации текста, название издания и мн. др.). Модель исследует медиасферу (медиатизированную реальность, создаваемую в масс-медиа) как полиструктурную, изменяющуюся во времени и пространстве информационную среду.
Разрабатываемая модель используется для:
а) выявления наиболее частотных концептов в разных тематических областях;
б) создания типологии медиасобытий на основе их фреймового и тематического представления;
в) выявления тематических, семантических, пространственно-временных и каузальных зависимостей между медиасобытиями;
г) выявление нейрофизиологических паттернов с помощью метода когнитивных вызванных потенциалов (с помощью 128-канального носимого электроэнцефалографа BE Plus LTM (EB Neuro)), возникающих в ответ на значимые для социума концепты.
В конечном итоге модель создается для выявления кластеров социальных проблем и угроз устойчивому развитию общества.
Анализ осуществляется на основе ресурсов агрегатора новостного контента СМИ2 (около 53 млн. заголовков и аннотаций публикаций российских СМИ), ИС "Семограф" и веб-приложения "Автоматизированный классификатор новостного контента" (Свидетельство о государственной регистрации в Федеральной службе по интеллектуальной собственности (Роспатент) № 2017660334 от 21.09.2017).
✦ В рамках госзадания ПГНИУ на 2017-2019 гг., проект № 34.1505.2017/4.6

Автоматизированная обработка массива текстов выступлений депутатов Государственной Думы
Исходные данные включают более 800 мб текстового материала (общий объем текстов выступлений за период 1994 - 2019 гг. составляет свыше 320 тыс. единиц, общий объем словоупотреблений – свыше 52 млн. единиц.), который обрабатывается с помощью созданных языковых и предметных библиотек в ИС "Семограф" (https://semograph.org/), представляющих собой сгруппированные по категориям наборы языковых единиц (слов и словосочетаний). Разметка текстов осуществляется автоматически с помощью ряда лексических библиотек, в том числе и разработанного ранее лексического словаря ОКВЭД (общероссийского классификатора видов экономической деятельности), позволяющего выявить экономические интересы политических акторов и их коалиций.
✦ В рамках гранта РФФИ, проект № 20-011-00624, рук. к.полит.н. К.А. Сулимов

Разработка языковых и предметных библиотек и моделей на основе методов машинного обучения
Проект посвящен разработке мультиязыковой цифровой платформы генерации и обмена информационными и знаниевыми продуктами, относящимися к области экспертной и машинной обработки и анализа текстов и текстовых массивов.
Цифровая платформа создается на основе реализованной в информационной системе "Семограф" уникальной архитектуры и разработанных на ее основе многофункциональных инструментов графосемантического моделирования, которые позволяют использовать в процессе экспертного анализа текстов/текстовых массивов качественного и количественного контент-анализа, частотного анализа, разметки текстов и др. Помимо экспертных методов анализа контента система позволяет использовать машинную обработку либо в парадигме LIWC (обработка массивов с помощью разнообразных лексических библиотек), либо с помощью методов машинного обучения, в том числе используя предобученные ML-модели.
Создание информационных (датасеты, программные модули, шаблоны) и знаниевых продуктов (лексические библиотеки, тезаурусы) осуществляется с помощью имеющегося и разрабатываемого функционала ИС "Семограф" с привлечением к данной работе сообщества пользователей (лингвистов, прикладных математиков и специалистов в области Digital Humanities), осуществляющих коммуникацию, обмен результатами деятельности на создаваемой платформе.
✦ Проект получил поддержку на конкурсе «Старт — Цифровые платформы» (проект № С1ЦП-76 308), рук. К. И. Белоусов.
Участники направления
  • Кафедра теоретического и прикладного языкознания ПГНИУ
    К. И. Белоусов, Е. В. Ерофеева, Е. С. Худякова и др.
  • Кафедра математического обеспечения вычислительных систем ПГНИУ
    К. В. Рябинин, С. И. Чуприна, И. А. Лабутин, Р. В. Чумаков и др.
  • Кафедра журналистики и массовых коммуникаций
    Н. Л. Зелянская, Н.Ф. Пономарёв
  • Кафедра социологии ПГНИУ
    А. Е. Кузнецов
  • Кафедра неврологии ПГМУ
    Л. Ю. Брохин
  • Программисты компании «Human Semantics»
    Д. А. Баранов, Р. В. Чумаков, Р. К. Баширов
614068, г. Пермь, ул. Букирева, 15, корп. 5, ауд. 159