АНАЛИТИЧЕСКОЕ РЕЗЮМЕ

05.07.2023 | ТОМ 4. ВЫПУСК 7—8 (27)

“There’s an AI for that”: возможности ChatGPT для работы с открытыми источниками данных

Станислав Моисеев

кандидат социологических наук, партнер Aventica, CGO Aventica Net.Works, аналитик Международной лаборатории прикладного сетевого анализа НИУ ВШЭ

Маргарита Стаф

CEO Aventica Net.Works

Введение

Вдохновением для названия этой статьи послужил одноименный агрегатор AI-решений[1], на котором в июле 2023 года насчитывалось более шести тысяч инструментов для решения сотен различных задач. Особое место среди этих инструментов занимают большие языковые модели и наиболее известная среди них сегодня — GPT от компании OpenAI[2]. Возможности по решению целого семейства вопросов от поиска данных до написания компьютерного кода, качество результата и относительная простота диалогового интерфейса работы породили невероятный интерес к этой модели среди обывателей и профессионалов и заставили задуматься, как эта технология может изменить нашу жизнь.

Цель нашей статьи состоит в том, чтобы описать эти перемены в конкретной области, а именно в сфере исследований, опирающихся на работу с открытыми источниками данных. Мы поделимся опытом компании Net. Works, которая входит в группу Aventica и специализируются на анализе социальных медиа.

В начале мы познакомим читателя с внутренней «кухней» анализа социальных медиа и опишем общий процесс работы с открытыми источниками данных, затем поделимся кейсами использования ChatGPT на каждом из его этапов и в завершении сделаем заключение о текущих возможностях и ограничениях этого инструмента. Все наши примеры будут опираться на работу с ChatGPT-3.5 и ChatGPT-4, доступными в рамках платной подписки на сайте OpenAI. Они основаны на наших инициативных экспериментах[3], а также результатах, полученных в рамках решения прикладных задач для коммерческих проектов в период с февраля по июль 2023 года.

Процесс работы с открытыми источниками данных

В контексте анализа социальных медиа под источниками обычно понимаются ресурсы, в которых пользователи могут самостоятельно производить контент: социальные сети, мессенджеры, форумы, блоги, сайты-отзовики, магазины приложений и др. Их «открытость» регламентируется правилами доступа каждого ресурса и его конкретного пользователя. Например, данные постов во «ВКонтакте» в целом открыты, однако человек может закрыть для просмотра свои публикации в новостной ленте для всех, кроме друзей. Единицей анализа при работе с таким контентом выступает его базовый элемент — та самая публикация, отзыв или комментарий. Работа с этими данными обычно делится на четыре базовых этапа (рис. 1).

Рисунок 1. Этапы работы с открытыми источниками данных на примере данных социальных медиа

Поясним, как это работает, на коротком примере. Представим себе, что тема нашего исследования — ESG-повестка в России[4], то есть нам важно выявить волнующие пользователей сюжеты и оценить динамику интереса к ним за последние 12 месяцев.

Начнем работу с определения больших подтем, из которых состоит наш объект исследования: обеспечение всех доступной чистой водой, сокращение неравенства, борьба с климатическими изменениями и пр.[5] После этого через запрос в системе мониторинга мы оценим доступный объем публикаций, размещаемый в сети каждый месяц, в нашем случае их окажется более 600 000.

Далее запустим сбор данных по нашему запросу и отберем 4 500 000 целевых публикаций. На следующем этапе проведем их автоматизированную кластеризацию, получим 6 000 кластеров, которые затем «вручную» аналитически объединим в 156 тематик и 26 тематических категорий. В аналитический отчет попадет описание этих категорий с их внутренней тематической структурой, популярностью и другими аспектами, важными в рамках конкретного исследования.

Этот пример является иллюстрацией, работа с данными социальных медиа может выстраиваться несколько иначе. Тем не менее мы можем использовать представленную логику для описания конкретных кейсов применения ChatGPT, с которыми мы сталкивались в нашей практике.

ChatGPT для разведывательного анализа

Получение первичных вводных для работы с новой темой является одной из первых функций, которую мы начали тестировать в своей работе. Рабочие версии GPT были обучены на открытых данных, собранных до сентября 2021 года, однако языковая модель хорошо справляется с тем, чтобы охарактеризовать тематическую структуру по самым разным темам. Например, вот сокращенная версия ее ответа на запрос «Опиши современную ESG-повестку» (запрос сделан 18.07.2023):

ESG (Environment, Social, Governance) является термином, используемым для описания трех ключевых факторов устойчивости и этичности, которые инвесторы и бизнесы часто учитывают при принятии решений. На 2023 год актуальная ESG-повестка представляет собой комплексный подход к бизнесу и инвестициям, который включает в себя:

1. **Environment (Экология):** С учетом угрозы изменения климата и продолжающегося ущерба окружающей среде, вопросы, связанные с экологией, стали основным приоритетом для многих организаций. [...]

2. **Social (Социальное):** Этот фактор охватывает вопросы, связанные с трудовыми правами, равенством, здоровьем и безопасностью на рабочем месте, дискриминацией и включением. [...]

3. **Governance (Управление):** Это включает в себя этичность корпоративного поведения, включая прозрачность и отчетность, корпоративные структуры, процессы принятия решений и уровень контроля над коррупцией и взяточничеством. [...]

Опираясь на подобный ответ, можно быстро составить впечатление об объекте анализа, сфокусировать свое внимание на его конкретном аспекте и использовать полученные данные для формирования поискового запроса — как для автоматизированного, так и для ручного сбора данных. При этом оценить объем данной темы в публикациях, конечно, не получится: ChatGPT не имеет доступа к этой информации и не получит его в обозримом будущем.

ChatGPT для сбора данных

Вторая важная возможность ChatGPT состоит в формировании поисковых запросов для сбора данных в специализированных системах мониторинга. Дело в том, что системы, подобные Brand Analytics или Медиалогии, работают с классическими запросами на объектный поиск, то есть получают на вход набор текстовых объектов, объединенных различными логическими операторами («or», «and», «not» и др.). ChatGPT достаточно легко справляется с их формированием, опираясь на накопленные знания в области программирования, хотя иногда ему нужно дать пример похожего запроса, чтобы он предложил решение в нужном формате, например:

Вот поисковый запрос на русском языке для категории ESG (Экология, Социум, Управление):

«ESG» OR «экология социум управление» OR «устойчивые инвестиции» OR «корпоративная устойчивость» OR «изменение климата» OR «зеленые инвестиции» OR «углеродный след» OR «возобновляемая энергия» OR «социальная ответственность» OR «корпоративная этика» OR «корпоративное управление» OR «разнообразие и инклюзия» OR «взаимодействие с заинтересованными сторонами» OR «отчетность ESG» OR «Цели устойчивого развития ООН» OR «#ESG» OR «#УстойчивыеИнвестиции» OR «#КорпоративнаяУстойчивость» OR «#ИзменениеКлимата» OR «#ЗеленыеИнвестиции» OR «#УглеродныйСлед» OR «#ВозобновляемаяЭнергия» OR «#СоциальнаяОтветственность» OR «#КорпоративнаяЭтика» OR «#КорпоративноеУправление» OR «#РазнообразиеИИнклюзия» OR «#ВзаимодействиеСЗаинтересованнымиСторонами» OR «#ОтчетностьESG» OR «#ЦУРООН» [...]

Подобный результат — хорошая основа для работы аналитика, но для получения конечного запроса требуется его экспертное уточнение и тестирование качества выдачи на конкретной платформе.

В силу сложности самого процесса сбора данных, которая выражается в многообразии источников данных и их API (при наличии), ChatGPT не может предложить решение по сбору данных, аналогичное возможностям системы мониторинга. Однако с его помощью можно написать программный код для автоматизированного сбора и структурирования информации с какого-то конкретного сайта, например YouTube. В наших примерах мы формулировали запросы на английском языке, а также «возвращали» ChatGPT возникающие ошибки, чтобы он самостоятельно находил для них решение. В результате нескольких итераций на основе запроса вида «Write a script for parsing all videos for the last 2 months from Youtube channel: www. youtube. com/@channelname. It should collect the following information: video name, link, posting date and subtitles in russian (use youtube-transcript-api). It should create an output file with data in EXCEL format with the following columns: channel name, date, video text, link, number of comments under video, number of likes» нам удалось сгенерировать парсер, который позволяет скачивать необходимые данные из различных YouTube-каналов.

Как и в случае с простым поиском, в решении задач, связанных с написанием кода, ChatGPT ограничен своей базой знаний. Поэтому он является хорошим помощником для создания парсера для YouTube и испытывает сложности при работе с менее популярными сайтами и даже сопоставимым по масштабу Telegram. Тем не менее он представляет собой полезный инструмент для решения задач этого класса и может помочь сократить объем работы, который ранее приходилось делать вручную.

ChatGPT для анализа данных

Группа задач, относящихся к третьему этапу, во многом опирается на инструменты машинной обработки текстовых данных, которые позволяют анализировать их тематическую структуру. С технической точки зрения модель, заложенная в основе ChatGPT, может работать с подобными запросами, однако наши эксперименты показали, что их полноценная реализация не предусмотрена в интерфейсе чата.

Главная погрешность, которую допускает алгоритм, состоит в том, что при запросе на группировку набора текстов он может объединять информацию, найденную в данных вместе со своей исходной базой знаний[6]. Как поясняет это сам ChatGPT,

Я ошибся в своем предыдущем сообщении, поскольку не основывал свой ответ на предоставленном вами наборе данных. Я привел общий пример тем из области науки и технологии, которые часто обсуждаются в различных источниках медиа.

Кроме того, чат-бот решает задачу очень прямолинейно, на основании одинаковых встречающихся в текстах слов.

Важно понимать, что компания OpenAI, разработчик ChatGPT, создала целое семейство моделей, предназначенных для оценки «связанности» текстовых данных, в том числе решения задач по кластеризации и классификации[7]. Однако доступ к ним возможен только через API и предоставляется за отдельную плату.

Запросы, связанные с построением семантических сетей и расчетом специализированных индексов, не могут быть решены ChatGPT напрямую, однако, как и в случае с написанием парсера, он может выступить в роли помощника: чтобы разобраться в теме и написать нужный код в R, Python или формулу в Excel.

ChatGPT для подготовки отчета

В отношении задач, связанных с подготовкой отчетов, мы проводили эксперименты с задачами саммаризации, то есть представления информации в более сжатом виде. Алгоритм отлично справляется с такими запросами в базовой форме. Например, вот так ChatGPT обобщает введение данной статьи в одном предложении:

Статья освещает использование больших языковых моделей, в частности GPT от OpenAI, в области исследований, опирающихся на работу с открытыми источниками данных, примером чего служит опыт компании Net. Works, специализирующейся на анализе социальных медиа, и рассматривает возможности и ограничения этих моделей на основе решения прикладных задач и экспериментов, проведенных с февраля по июль 2023 года.

Таким образом, ChatGPT может выделить основное содержание, сформулировать общий вывод из нескольких тезисов и, конечно, подсказать другую формулировку. Более сложные задачи, которые можно отнести к разряду аналитических, оказываются ему не под силу. Например, если предоставить чат-боту набор сюжетов о барьерах, с которыми сталкиваются клиенты при взаимодействии с определенным сервисом, он не сможет выделить объединяющую их потребность.

Возможности и ограничения ChatGPT

Резюмируя наш опыт, стоит отметить, что главным изменением в профессиональной сфере исследований, которые опираются на работу с открытыми источниками данных, является демократизация доступа к решениям узких профессиональных задач.

С одной стороны, это выражается в самой возможности получить структурированные знания, рекомендации и конкретные решения. Это особенно заметно в задачах, связанных с программированием, порог входа на решение которых теперь стал заметно ниже. С другой стороны, стоимость этой возможности пока низкая в сравнении с любыми аналогичными профессиональными услугами.

Помимо этого, ChatGPT кратно ускоряет процессы работы с информацией: задача по разведывательному анализу теперь может быть решена за несколько минут, по написанию кода — за несколько часов.

Однако его возможности имеют ряд важных ограничений.

Первым, конечно, является класс решаемых задач. На сегодняшний день он фактически сводится к ответам по базе знаний; помощи в решении задач, информация о которых есть в базе знаний; написанию текстовых документов и программного кода; анализу текстов; переводу текстов; созданию разговорного интерфейса и чат-ботов[8].

Второе ограничение — сама база знаний. Ранее мы упоминали, что GPT-модели OpenAI обучены на данных о событиях и знаниях, которые происходили до сентября 2021 года. Это может стать существенным барьером для задач, связанных с поиском актуальной информации и решений.

При этом, работая с данными, предоставляемыми пользователями, ChatGPT может без дополнительных уведомлений объединить их со своими собственными, то есть предложить искаженное решение.

Наконец, доступ к ChatGPT ограничен не только платной подпиской, но и географией. Сервис не работает на территории России и для получения доступа к его возможностям необходимо использовать VPN.

Важно учитывать, что этот материал не является описанием результатов последовательного методологического эксперимента, а обобщает ряд наблюдений, которые мы сделали в ходе работы с ChatGPT. В связи с этим представленные выводы скорее являются отправной точкой и приглашением к продолжению рефлексии в отношении изменений, которые AI-инструменты могут привнести в нашу профессиональную жизнь.

^{^[1]} There’s an AI for That. URL: https://theresanaiforthat.com.

^{^[2]} Introducing ChatGPT. URL: https://openai.com/blog/chatgpt.

[3] Мы благодарим Тамару Щеглову и Дарью Кирбай из команды Net.Works, а также наших коллег из компании Spektr за полученный опыт и возможность обсуждать применимость ChatGPT для решения исследовательских задач.

^{^[4]} Пример опирается на «Исследование бережных инициатив», проведенное Net.Works совместно с бюро «Теперь так» в 2023 году. URL: https://tepertak.ru/%D0%98%D1%81%D1%81%D0%BB%D0%B5%D0%B4%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D0%B1%D0%B5%D1%80%D0%B5%D0%B6%D0%BD%D1%8B%D1%85_%D0%B8%D0%BD%D0%B8%D1%86%D0%B8%D0%B0%D1%82%D0%B8%D0%B2_22_23.

^{^[5]} Пример на базе целей устойчивого развития, принятых ООН в 2015 году. URL: https://www.un.org/sustainabledevelopment/ru/sustainable-development-goals.

^{^[6]}Про проблему «выдумывания действительности» также см. в: Резаев А., Трегубова Н. «ChatGPT в действии и взаимодействии с людьми: что день грядущий нам готовит, или почему самые знаменитые компьютерщики просят полугодовую паузу в деле производства и совершенствования инструментов ИИ // Социодиггер. Т.4. 5—6 (26). URL: https://sociodigger.ru/articles/articles-page/chatgpt-v-deistvii-i-vzaimodeistvii-s-ljudmi-chto-den-grjadushchii-nam-gotovit-ili-pochemu-samye-znamenitye-kompjutershchiki-prosjat-polugodovuju-pauzu-v-dele-proizvodstva-i-sovershenstvovanija-instrumentov-ii.

^{^[7]} What Are Embeddings? URL: https://platform.openai.com/docs/guides/embeddings/what-are-embeddings.

^{^[8]} GPT Models. URL: https://platform.openai.com/docs/guides/gpt.

Мы в соцсетях: