Синтез социологических и психолингвистических методов в аналитике социальных медиа

Алексей Расходчиков

кандидат социологических наук, председатель Правления Фонда «Московский центр урбанистики «Город»

Мария Пильгун

доктор филологических наук, профессор, Российский государственный социальный университет, Москва

 

 

2 ноября 2023 года в пресс-центре МИА «Россия сегодня» состоялась Brand Analytics Conference 2023 (организатор Brand Analytics), которая собрала на одной площадке представителей социальных медиа, коммерческих брендов и госструктур, информационных агентств и исследовательских компаний. Тематика конференции включала обсуждение актуальных вопросов, связанных с социальными платформами в России, возможностей и методов аналитики соцмедиа. В рамках конференции были представлены исследования: Соцсети России – цифры и тренды 2023; ML-технологии в клиентских кейсах и многое др. Одним из важных аспектов было проведение Мастер-классов: по типовым задачам маркетинга и PR от экспертов индустрии. Также в рамках Конференции состоялась сессия «Методология: Социология и аналитика соцмедиа, совместное использование методов и данных различной природы», на которой поднимались такие вопросы, как SML-буст: как усилить классическое исследование с помощью неопросных данных, в поисках «фундамента» для соединения опросных данных и аналитики соцмедиа, а также одна из ключевых методологических тем - Синтез социологических и психолингвистических методов в аналитике социальных медиа.

Расходчиков Алексей Николаевич, кандидат социологических наук, директор по научно-исследовательской работе «Агентства социальных исследований «Столица», в ходе своего выступления акцентировал внимание на том, что на практике, сравнивая данные анализа социальных сетей, результаты количественных социологических исследований и данные операторов сотовой связи, мы видим мало общего в полученных цифрах. Поэтому можно утверждать, что простое совмещение данных разной природы чаще всего не дает нужных результатов. Возможность сочетания различных данных, методов их сбора и анализа зависит от целей и предмета исследования. Соответственно, они могут сильно различаться в зависимости от ситуации. 

Мы в своих работах используем различные данные для оценки рисков возникновения и развития социальных конфликтов. За несколько лет такой работы на разного рода объектах от градостроительной деятельности [4] до эпидемии Ковид-19 [3] уже сложилось понимание того, как можно сочетать различные методы анализа из предметных областей социологии и лингвистики. Разработанная нашим коллективом методология позволяет отслеживать рост социального напряжения в сетевой онлайн-коммуникации, фиксировать конфликтные ситуации в самом начале и прогнозировать риски их развития до уровня масштабных социальных конфликтов [5]. На практике данная работа включает три основных этапа или метода сбора и анализа данных (Рис. 1):

  1. Мониторинг активностей в социальных сетях – позволяет выявлять только зарождающиеся конфликтные ситуации на основе сбора данных (при помощи сервисов Brand Analytics, Крибрум, Медиалогия) и выделения сегментов с преимущественно негативными сообщениями.
  2. Оценка рисков развития конфликтов на основе лингвистического анализа текстов, выявления роста агрессии в текстовой коммуникации пользователей (мы называем это Индексом социального стресса).
  3. Проведение социологических исследований для точной оценки ситуации и поиска возможностей мирного разрешения конфликта [6].

 

Рис. 1. Методы анализа данных и используемые процедуры

 

Чем обусловлена такая последовательность процедур? Во-первых, тем, что с распространением интернет-технологий первые признаки возникающих социальных конфликтов мы можем наблюдать в социальных сетях. Недовольства, критические высказывания, споры появляются здесь практически сразу, как реакция на какие-то ситуации в реальной жизни, решения органов власти или заявления медийных персон. Известно, что большинство конфликтов легче разрешаются в самом начале, пока эмоции и взаимные обиды не достигли критической массы. Важно, что от начала критических обсуждений в сети до проведения протестных акций в виде сбора подписей, пикетов и митингов, как правило, проходит от нескольких дней до нескольких недель. Этого времени вполне достаточно, чтобы разобраться в ситуации и принять меры для разрешения конфликта.

Однако, не все зарождающиеся конфликты получают развитие, многие негативные сюжеты в социальных сетях сами затухают под воздействием быстрой смены информационной повестки или по другим причинам. Поэтому важно уметь различать, какие конфликты представляют собой угрозу и требуют реагирования, а в какие ситуации может быть лучше и не вмешиваться. Здесь нам на помощь приходят методы лингвистического анализа текстов, позволяющие оценивать уровень агрессии в текстах и комментариев пользователей. Рост эмоционально окрашенных агрессивных высказываний в обсуждениях сигнализирует нам о риске развития конфликта. А поскольку количество сообщений часто бывает очень велико, мы используем автоматизированные программные продукты, позволяющие обрабатывать большие объемы текстовых данных. В данном случае лучшие результаты на практике показывает нейросетевая технология ТекстАналист 2.0.

Одной из распространенных ошибок при анализе соцмедиа являются попытки прировнять мнение в социальных сетях к общественному мнению. Эта грубейшая ошибка возникает из непонимания различной природы объектов исследования: в социальных сетях мы наблюдаем коммуникацию пользователей, в ходе которой могут в том числе высказываться мнения. Но здесь же присутствуют споры ради спора, различные варианты самопрезентации, искусственные сущности (боты, массовые аккаунты), ведется работа менеджеров информационных и рекламных кампаний. Отделить естественную реакцию пользователей (живых людей) от искусственно создаваемых информационных волн –довольно сложная и пока не решенная на уровне методов задача[1]. Поэтому (и еще целому ряду причин, для объяснения которых пришлось бы погрузиться в социальную теорию) для изучения мнения реальных людей необходимо проводить социологические исследования. Самый наглядный пример несовпадения мнения в сети и общественного мнения мы могли наблюдать на старте программы Реновации жилья в Москве. Когда интернет был переполнен негативными высказываниями, критическим мнениями экспертов, а социологические исследования показали высокий уровень поддержки программы среди жителей Москвы – на уровне 75%. После чего, кстати, количество критических публикаций в сети резко сократилось.

Сегодня мы хотим продемонстрировать возможности применения нашей методики на примере исследования ситуации вокруг строительства Большой кольцевой линии Московского метрополитена. Этот масштабный проект Правительства Москвы длился несколько лет, строительные работы охватывали более 30 районов столицы, соответственно возникали различного рода конфликты с местными жителями. Наше исследование охватывает период с 12 января 2022 года по 12 января 2023 года, объем дата сета составил 89 457 367 токенов. Для анализа использовались данные социальных тематических порталов, интернет-СМИ и ТВ (Рис.2). Для анализа данных использовались следующие сервисы и программное обеспечение: BrandAnalitycs, TextAnalyst,  ORA-LITE, AutoMap, Tableau.

Рис. 2. Распределение полученных данных по различным типам источников

 

Мониторинг активностей в социальных сетях позволяет фиксировать динамику распространения сообщений в отношении объекта, оценивать результативность информационных сюжетов и кампаний, выявлять негативные комментарии и проблемные ситуации, вызывающие недовольство пользователей. Среди информационных сюжетов можно выделить 3 получивших наибольшее распространение в соцмедиа и интернет СМИ: Голосование «Дизайн новых станций БКЛ: оценка москвичей» в проекте «Активный гражданин», Публикация схемы развития метро и МЦД до 2030 года и мероприятия, посвященные завершению строительства Большой̆ кольцевой̆ линии метро (Рис. 3). Все эти сюжеты носят преимущественно информационный̆ характер, направленные на привлечение аудитории и повышение вовлеченности пользователей̆.

Рис. 3. Динамика информационной активности вокруг строительства Большой кольцевой линии Московского метрополитена в социальных медиа.

Основные негативные сюжеты были связаны с угрозами временного закрытия станции метро «Динамо» из-за проведения строительных работ, сбоях в работе отдельных линий метро, чрезвычайных ситуациях на станциях метро «Каширская» и «Новаторская», обращении жителей Нагатинского района к депутатам из-за неудобств во время строительства, а также затянувшихся сроках строительных работ в районе метро «Сокольники».

 

Пильгун Мария Александровна, доктор филологических наук, профессор, Российский государственный социальный университет, отметила, что представленная на конференции Brand Analytics модель позволяет анализировать существующие конфликты в режиме реального времени, а также выявлять конфликтные ситуации, которые только зарождаются (потенциальные конфликты) и находить пути их решения в интересах всех участников.

В докладе были представлены результаты разработки алгоритма построения когнитивной нейросетевой моделей для исследования цифрового контента, генерированного акторами разного типа, а также для оперативного выявления, предотвращения и разрешения градостроительных конфликтов, что необходимых для эффективного управления городскими системами.

Анализ социально напряжённости в мегаполисе является актуальной задачей, причём большое значение имеет скорость обнаружения конфликтов, а также предиктивная аналитика, которая позволяет делать прогнозы зарождающихся конфликтных ситуаций, чтобы разрабатывать эффективные меры для их предотвращения.

Именно анализ цифровых данных, генерированных пользователями, позволяет проводить анализ ситуации в режиме реального времени и оперативно обнаруживать социальную напряжённость в городской среде.

Анализ данных в режиме реального времени востребован в самых различных областях: в сфере медицинской лабораторной диагностики; для наблюдений за сопряженными биологическими, химическими и физическими процессами в океане на макро- и микромасштабе; в интеллектуальных системах реального времени; для высокоскоростного 3D-картирования и др.     

Цели исследования заключались в разработке и апробации алгоритма, включающего  интеграцию социологических, психолингвистических и нейросетевых моделей для анализа  цифрового контента для выявления семантических акцентов, характеризующих недовольство жителей,  а также для оценки особенностей  позиционирования объекта в  медиапространстве,  сегментов наибольшего информационного внимания, социального напряжения среди жителей мегаполиса при реализации градостроительного проекта, а также для прогнозирования развитие ситуации.

В частности, исследование было направлено на анализ динамики информационной активности на цифровых ресурсах  для отслеживания изменений настроения активной части населения города и отдельных районов г. Москвы, вовлеченных в обсуждение темы строительства  Большой кольцевой линии метро (Южный участок) (БКЛ), определения ключевых тем контента, запускающих вовлеченность  пользователей в обсуждение проекта и своевременного прогнозирования возникающих и/или развивающихся конфликтных ситуаций.  Анализ проводился в период активной стадии строительства БКЛ (Южный участок), которая включала строительство трех новых станций БКЛ метро («Новаторская», «Воронцовская» и «Зюзино», а также реконструкция станции «Каховская».

Материалом для исследования послужили вербальный контент, генерированный пользователями на цифровых платформах, посвящённый реализации проекта БКЛ (Южный участок), а также цифровые следы пользователей. Дата сбора данных: 12 января 2022-12 января 2023. Сводная база данных составляла 89 457 367 токенов.

Для генерирования контента, посвященного реализации проекта БКЛ (Южный участок), акторы предпочитали использовать социальные сети, видеохостинги и  микроблоги. Среди социальных сетей безусловным лидером являлась платформа ВКонтакте. Также популярностью у пользователей пользовались Инстаграм[2], Ютуб и Фейсбук2.

В работе была представлена авторская методика определения восприятия акторов определённой ситуации, которая проводится по результатам анализа контента, генерированного пользователями и их цифровых следов. В исследовании использован междисциплинарный подход. Cбор данных проводился с помощью Brand Analytics, контент-анализ был выполнен с использованием сервиса AutoMap; для визуальной аналитики применялась платформа Tableau.

Для интерпретации данных применялись нейросетевой текстовый анализ, анализ ядра семантической сети и лексических ассоциаций с помощью технологии TextAnalyst 2.3., который позволил выделить семантические акценты, наиболее значимые для пользователей, проанализировать имплицитную информацию, подтекст, определяющие истинные мнения и оценки жителей.

Также были разработаны и апробированы алгоритмы вычисления индексов социального стресса и благополучия. Результаты предлагается оценивать по 100-балльной шкале, которая позволяет определить 5 стадий: отсутствие стресса, низкий, средний, высокий уровень и экстремальную ситуацию

Общая характеристика контента: включала анализ динамики упоминаний, активности авторов, вовлеченности и активности аудитории, а также выявление причин пиков роста общего числа сообщений, числа уникальных сообщений, пика роста количества просмотров и активности авторов.

Геолокация цифровых следов акторов закономерно показала преобладание пользователей на территории России. Между тем, зафиксированы акторы из разных стран (более 80), которые интересуются проблемами строительства  БКЛ (Южный участок). Анализ геолокации цифровых следов акторов  по региону показывает, что максимальное число акторов представляют Центральный  округ (ЦФЩ), также  высокую активность проявляют акторы Нижегородской области и  Северно-Западного округа (СЗО). Среди московских акторов наибольшую активность показали акторы из Хорошево-Мневники, а  также жители районов: Косино-Ухтомский, Марьина роща, Басманный район, Соколиная гора, Сокольники, Зюзино.

Анализ данных показал, что тональность подавляющего числа сообщений и цифровых следов в контексте упоминаний проект нейтральная. Кроме того, были составлены рейтинги источников с позитивной, нейтральной и негативной  тональностью, а также выделены ключевых негативные, позитивные и  нейтральные семантические  акценты, представленные в контенте,  генерированном пользователями.

При определении уровня социальной напряженности результаты анализа сводной  базы данных показали низкий уровень  социального стресса  - 5,39 и средний индекс социального благополучия - 12,75.

Таким образом исследование показало, что разработанная авторами когнитивная модель, включающая  интеграцию различных научных парадигм для анализа  цифрового контента, позволяет выявлять семантические акценты негативных реакций, недовольства при позиционировании объекта в медиапространстве, сегменты наибольшего информационного внимания, уровень или его отсутствие социального напряжения среди жителей Москвы и ее районов вокруг строительства БКЛ (Южный участок), а также спрогнозировать развитие ситуации.

Ход дальнейших событий подтвердил корректность полученных результатов.

 

Выводы

Возможность использования данных социальных медиа позволяет более оперативно выявлять социальные конфликты, некоторые тенденции, возникающие в общественном мнении, новые практики социальных коммуникаций, а также формирования и взаимодействия виртуальных сообществ. Анализ сетевых медиа может использоваться в рамках социологических исследований для предварительного анализа ситуации, формирования гипотез, уточнения географии и выборки исследования. Так и в качестве самостоятельной процедуры мониторинга информационной ситуации вокруг определенного объекта или события.

Поскольку в социальных сетях мы чаще всего имеем дело не просто с авторскими текстами, а с текстовой коммуникацией в режиме диалога или полилога, помимо классических методов текстового анализа (таких как контент-анализ, семантический анализ, дискурс-анализ и т. д.), полезно использовать методы сетевого анализа для оценки взаимодействия акторов и групп, а также методы мотивационно-целевого анализа, где в центре внимания выступают интенциональные механизмы коммуникативных процессов [1]. 

Методы совмещения данных различной природы (анализа социальных медиа, данных операторов сотовой связи, результатов социологических исследований и т. д.) зависят от целей и объекта исследования. В данной работе продемонстрирована методика оценки рисков развития социальных конфликтов, сочетающая методы социологии, лингвистического анализа и мониторинга информационной активности в социальных сетях. В данном случае анализ данных социальных медиа позволяет выявлять конфликтные ситуации, лингвистические методы анализа – определять вероятность негативного развития конфликта, а социологические исследования направлены на поиск путей разрешения конфликтной ситуации и выработку компромиссных решений.

Данная методика была разработана в ходе работ по социологическому сопровождению градостроительной деятельности (строительство дорожных магистралей, транспортно-пересадочных узлов, линий метрополитена), а также опробована в исследованиях, посвященных изучению особенностей инфодемии, как явления, проявившегося в ходе пандемии Ковид-19. Авторы считают, что предложенная методика может быть использована для оценки рисков социальных конфликтов в различных сферах общественной жизни, политических процессах и государственном управлении. 

 

 

Список литературы

  1. Адамьянц, Т. З. Семиосоциопсихологическая концепция социальной коммуникации в социальном познании (материалы "круглого стола") / Т. З. Адамьянц // Социологические исследования. – 2015. – № 12(380). – С. 142-144. – EDN VGMGAJ.
  2. Градосельская, Г. В. Два сценария будущего молодежи: результаты картирования групп социальной сети "ВКонтакте" на примере Томска / Г. В. Градосельская, А. Н. Расходчиков // Вестник Московского университета. Серия 12: Политические науки. – 2020. – № 4. – С. 50-68. – EDN GFHULB.
  3. Kharlamov, A. A. (2021). Smart city data sensing during covid19: Public reaction to accelerating digital transformation / A. Kharlamov, A. N. Raskhodchikov, M. Pilgun [Sensors]. Vol. 21, No. 12. DOI 10.3390/s21123965. EDN KDHHHD
  4. Pilgun, M. Environmental digital conflicts: Spanish-, german-, and russian-speaking actors / M. Pilgun, A. Rashodchikov, O. Koreneva Antonova [Revista Latina de Comunicacion Social]. Vol. 79. P. 303-332. DOI 10.4185/RLCS-2021-1527. – EDN HXODDM.
  5. Расходчиков, А. Н. Управление городскими конфликтами: мониторинг, текстовый анализ, прогнозирование / А. Н. Расходчиков // Речевые технологии. – 2020. – № 3-4. – С. 92-95. – DOI 10.58633/2305-8129_2020_3-4_92. – EDN LLYVOA.
  6. Расходчиков, А. Н. Информационно-Коммуникационные технологии взаимодействия органов власти и населения Мегаполиса в процессе реализации градостроительных проектов : специальность 22.00.08 "Социология управления" : автореферат диссертации на соискание ученой степени кандидата социологических наук / Расходчиков Алексей Николаевич. – Москва, 2017. – 28 с. – EDN KIPPTB.

 

[1] Работа над методами такого разделения еще только ведется совместно с Г. Градосельской на основе автоматического отделения информационных волн, как искусственных сюжетов.

[2] Компания Meta Platforms Inc. признана в России экстремистской организацией и запрещена. Принадлежащие ей соцсети Фейсбук и Инстаграм в России запрещены.