Алгоритмы искусственного интеллекта в прикладных социологических исследованиях

Дмитрий Котов

генеральный директор, аналитическое агентство Vox Populi; старший преподаватель департамента социологии, Финансовый университет при Правительстве РФ

Artificial Intelligence, или искусственный интеллект (ИИ), — одна из передовых и быстроразвивающихся областей науки и техники. Ему пророчат большое будущее и применение практически во всех сферах, где ранее преобладал интеллектуальный труд человека. Сам по себе ИИ является областью компьютерных наук, которая занимается созданием алгоритмов и систем, способных выполнять задачи, требующие человеческого умственного труда. Традиционно эти задачи включают в себя: способность к обучению, распознавание речи, планирование, восприятие и способность реагировать на окружающую среду[1].

В основе работы алгоритмов ИИ лежат базовые математические принципы. Благодаря следованию формальным правилам и логическим операциям, теории вероятности, математическим операциям по оптимизации поиска решений, использованию графовых структур ИИ способен находить соответствующие логические выводы, решения, моделировать сложные системы и взаимосвязи между их элементами.

Технологии, имеющие в своей основе ИИ, сравнительно недавно стали активно применяться в социологии, но это уже дало множество новых возможностей. ИИ предоставил инструменты для исследования и анализа социальных сетей, позволил лучше понять демографические тенденции и общественное мнение, автоматизировать сбор и анализ больших объемов данных[2]. Развитие ИИ привносит свежие идеи и подходы в науку и практику.

Самый яркий пример ИИ сегодня — ChatGPT, модель генерации текста, разработанная компанией OpenAI. Она базируется на архитектуре Transformer и обучена на огромном объеме текстового материала из интернета. Архитектура Transformer — это модель глубокого обучения, которая была представлена в 2017 году и успешно применяется в области обработки естественного языка (Natural Language Processing, NLP).

Для работы с ChatGPT пользователь вводит текстовое сообщение или вопрос, и модель генерирует ответ в соответствии с заданным контекстом. Формулируя ответ, модель пытается предсказать следующее слово или фразу на основе предыдущего контекста и вероятностей, вычисленных с помощью обучения. Для генерации связного и информативного ответа она также активно использует «знания», полученные ранее во время обучения на большом объеме текста.

Рассмотрим на примере ChatGPT, где уже сейчас можно использовать некоторые возможности технологий ИИ в прикладной социологии:

Если задать ChatGPT вопросы, связанные с темой исследования, получим идеи или гипотезы, которые могут стимулировать наше мышление и подсказать новые идеи для проекта.
ChatGPT может проанализировать и интерпретировать данные исследования или опроса. Задайте ему вопросы о возможных связях, обнаруженных трендах, неожиданных результатах, он также способен предложить исследовательские выводы.
Чтобы ChatGPT сформулировал вопросы анкеты или опросника, подробно опишите задачу, и он предложит варианты или исходные шаблоны вопросов, которые можно будет настроить под свои нужды. Можно попросить ИИ сформулировать вопросы определенного типа, предложить возможные варианты ответа или дать несколько разновидностей вопроса.
ChatGPT и его аналоги, встроенные в поисковые системы, могут помочь и в поиске релевантных материалов и литературы по теме исследования.

Несмотря на очевидную пользу, ИИ не является экспертом и не может заменить профессиональное мнение. ИИ обучается на большом количестве текстов и генерирует ответы исходя из того материала, на котором он учился. Из этого следует и то, что он может «придумать» несуществующие примеры, факты, цитаты и ссылки на литературу. Возможно, в будущем с частью этих недостатков получится справиться, но сейчас, с учетом этих особенностей, текущие версии ИИ лучше использовать с осторожностью, проверять и дополнять сгенерированную информацию, в том числе и через самостоятельную верификацию и консультацию с экспертами.

Еще одна важная часть работ исследователя, где уже используется ИИ, — автоматизация сбора и обработки данных в социологических исследованиях. Источниками данных могут быть не только традиционные анкеты, но и социальные сети, интернет-форумы, электронные базы данных и прочие цифровые ресурсы[3]. Применение ИИ позволяет автоматизировать работу с такими массивными объемами данных и облегчает выявление социальных трендов и закономерностей.

Уже сейчас различные разработки на базе алгоритмов ИИ участвуют в сборе социологических данных. Например, в роботизированных опросах. Хотя исследователи продолжают спорить об их эффективности, за последние несколько лет такие роботы существенно эволюционировали. Алгоритмы достаточно хорошо обучены на настоящих диалогах, могут учитывать сценарии разговора, его контекст и даже выдавать эмоциональные реакции на ответы. В компании Vox populi мы проводили эксперименты по интервьюированию с использованием простого чат-бота в Telegram, написанного на Python. Логика работы такого бота очень проста: ChatGPT давалось задание провести интервью по определенной теме или заранее предложенному гайду с возможностью задавать дополнительные уточняющие вопросы по теме, а Telegram использовался как интерфейс для взаимодействия с пользователем — вывода вопросов и ввода ответов. Все вопросы и ответы сразу подгружались в базу данных. Такой подход позволил очень быстро провести несколько простых интервью, так как одновременно приглашалось и интервьюировалось большое количество респондентов.

После сбора данных наступает время их анализа. Начнем с простого: если у вас есть задачи анализа данных в SPSS, выполнения некоторых расчетов, то вы можете попросить ChatGPT написать синтаксис. То же может быть сделано, если вам нужен программный код для анализа данных на Python или R. Это ощутимо ускорит процесс обработки данных.

Для иллюстрации приведем пример запроса, сделанного к ChatGPT, и его ответа на него.

Текст запроса:

У тебя есть набор данных в формате SPSS. Там есть 11 переменных (Q4_s1, Q4_s1, Q4_s3 и так далее до Q4_s11). Они хранятся как номинативные данные. В них оценивается отношение к политикам по шкале Лайкерта от 1 до 5, где 1 — определенно положительно, 2 — скорее положительно, 3 — нейтрально, 4 — скорее отрицательно, 5 — определенно отрицательно, 99 — затрудняюсь ответить. Напиши синтаксис для SPSS, чтобы в этих 11 переменных исключить из анализа ответы с кодом 99. Перевести эти 11 переменных в ранговый тип. И провести по ним факторный анализ методом главных компонент, вращение — варимакс.

Ответ ChatGPT:

Ваш синтаксис для SPSS может выглядеть следующим образом:

* Определяем набор переменных для анализа.

VECTOR v = Q4_s1 to Q4_s11.

* Убираем наблюдения со значениями 99.

DO REPEAT var=v1 TO v11.

IF var=99 var=$SYSMIS.

END REPEAT EXECUTE.

* Преобразуем переменные в ранговые.

RANK VARIABLES=v /NTILES(5) INTO rang1 TO rang11 /PRINT=YES.

* Проводим факторный анализ.

FACTOR

/VARIABLES rang1 TO rang11

/MISSING LISTWISE

/ANALYSIS rang1 TO rang11

/PRINT INITIAL CORRELATION DET KMO EXTRACTION ROTATION

/CRITERIA FACTORS(3) ITERATE(25)

/EXTRACTION PC

/CRITERIA ITERATE(25)

/ROTATION VARIMAX

/SAVE REG(ALL)

/METHOD=CORRELATION.

Обратите внимание, что этот синтаксис предназначен для набора данных, содержащего 11 переменных (Q4_s1 через Q4_s11), и выполняет следующие шаги:

Обрабатывает пропущенные данные, заменяя код ответа «99» на системное пропущенное значение.

Преобразует каждую переменную в ранговый тип используя команду RANK.

Проводит факторный анализ методом главных компонент с варимакс вращением.

Количество факторов в команде FACTOR установлено на 3, если вам нужно другое количество, вам потребуется изменить число в скобках в строке с CRITERIA FACTORS.

Как можно заметить, мы получили достаточно подробный ответ, в котором есть не только синтаксис, но и пояснения. При составлении запроса общей рекомендацией будет разбивать задачи на простые части и расписывать запрос максимально однозначно. Однако когда пользователь попробует запустить код, сгенерированный ИИ, он обнаружит в нем несколько ошибок. Их получится исправить, только если исследователь достаточно глубоко разбирается в обработке данных.

В своей практике социологи регулярно сталкиваются с обработкой речи и текстовой информации — видеозаписей и транскриптов интервью, открытых вопросов из анкет, текстовых сообщений в социальных медиа. ИИ способен значительно облегчить обработку этих данных. Например, алгоритмы ИИ можно научить кодировать ответы респондентов на открытые вопросы: загрузив массив ответов, запустить алгоритм, который проанализирует ответы, выделит упоминания ключевых объектов и субъектов, оценит тональность, объединит ответы в близкие категории и даже предложит им названия, выдав итоговый размеченный массив, который будет значительно проще проверить. Таким образом, применение ИИ и включенных в него алгоритмов, при обработке ответов на открытые вопросы, дает значительно больше информации и делает это быстрее, чем исследователи, которые часто пренебрегают дополнительной обработкой ответов, ограничиваясь только отнесением ответа респондента к той или иной категории для получения простого распределения, и чаще всего это происходит из-за недостатка времени или необходимых навыков.

Во ВЦИОМ есть собственная разработка для ответов на открытые вопросы. Накопленная за много лет база уже закодированных ответов респондентов стала превосходным ресурсом для обучения моделей ИИ. При использовании этой разработки достаточно загрузить сырой массив ответов респондентов, чтобы на выходе получить его размеченный вариант. Этот подход позволяет не только классифицировать ответы, но и выделять иную содержательную информацию, такую как упоминание событий, мест и дат, а также объединять сообщения по тематике, выделять ключевые слова. Все это упрощает последующий дополнительный анализа собранных данных.

Искусственный интеллект также применяется для предсказательного моделирования. Он может использовать исторические данные для обучения моделей, предсказывающих будущие тенденции и изменения в социальном поведении. Это особенно полезно в таких областях, как социальная политика, урбанистика, социальное планирование.

При наличии всех нужных данных социолог может использовать ИИ и для подготовки отчетной документации. Попробуйте загрузить таблицу с данными в какую-нибудь языковую модель и запросить вывод описания данных. При использовании хорошей модели ИИ на выходе получите достаточно складный текст, который при некоторой адаптации можно использовать в описательной части отчета. Это значительно упрощает работу аналитика, снимая с него часть рутинных операций и освободив время для более творческой работы с данными и погружения в их суть. Конечно, остается открытым вопрос этики и плагиата, на который до сих пор нет однозначного ответа ни у отечественных, ни у зарубежных исследователей.

Приведенные примеры дают понять, что потенциал применения ИИ в прикладных исследованиях уже сейчас достаточно широк. Такие технологии открывают перед социологами новые возможности, но и добавляют новые проблемы, которые обязательно нужно будет решить в будущем:

Этические вопросы: конфиденциальность данных, справедливость и предвзятость алгоритмов, контроль над принимаемыми алгоритмическими решениями и т.д.
Качество данных: ИИ требует большого объема данных для обучения алгоритмов и достижения точности и надежности результатов. Отсутствие доступа к полным и надежным данным, их недостаточное или плохое качество может негативно сказаться на результате исследования.
Интерпретация результатов: использование ИИ может привести к сложностям в интерпретации полученных результатов. Алгоритмы машинного обучения могут быть непрозрачными, что усложняет понимание способа принятия решений и объяснения результатов.
Предвзятость результата: неконтролируемое использование ИИ может привести к непредсказуемым или нежелательным последствиям. Алгоритмы ИИ могут проявлять предвзятость или давать неверные предсказания, особенно если данные, на которых они базируются, содержат предубеждения или систематические ошибки.
Понимание контекста: ИИ может иметь ограниченное понимание социального и культурного контекста. При проведении социологических исследований важно принимать во внимание социокультурные особенности и конкретный контекст, которые могут оказывать влияние на данные и результаты исследования.

[1] Russell S., Norvig P. (2016) Artificial Intelligence: A Modern Approach. Upper Saddle River, N.J.: Pearson Education.

[2] Cioffi-Revilla C. (2014) Introduction to Computational Social Science: Principles and Applications. Cham: Springer.

[3] Manovich L. (2011) Trending: The Promises and the Challenges of Big Social Data. Debates in the Digital Humanities. URL: http://manovich.net/index.php/projects/trending-the-promises-and-the-challenges-of-big-social-data.

Мы в соцсетях: