Огонь, вода и ChatGPT: новые вызовы научному этосу

Екатерина Коваль

доктор философских наук, ведущий научный сотрудник Института корпоративного обучения и непрерывного образования Мордовского государственного университета им. Н.П. Огарева, профессор кафедры уголовно-процессуального права и криминалистики Средне-Волжского института (филиала) Всероссийского государственного университета юстиции (РПА Минюста России)

Сергей Ушкин

кандидат социологических наук, ведущий научный сотрудник отдела мониторинга социальных процессов Научного центра социально-экономического мониторинга (Саранск), исследовательский менеджер Всероссийского центра изучения общественного мнения (Москва)

Пересборка социального*

Развитие систем искусственного интеллекта создает вызов интеллекту естественному, все более стирает тонкую грань между человеком и машиной. Казалось бы, еще вчера алгоритмы были способны разве что более-менее сносно выполнять рутинные операции, например, по проверке правописания, а сегодня они все чаще используются в творческих профессиях. Ими вдохновляются художники, их используют программисты не просто для проверки существующих кодов, но и для создания новых.... А не так давно на русском языке вышла книга известного поэта Иэна С. Томаса и ученого-новатора Жасмин Ван, где они попытались вместе с GPT-3 — большой языковой моделью от OpenAI — ответить на величайшие вопросы человечества[1]. Люди при этом выполняли преимущественно роль промпт-инженеров, то есть составляли правильные запросы для нейросети и слегка корректировали получившиеся тексты. Не умаляя «работы» искусственного интеллекта, они сделали его ведущим автором.

Книга представляет собой попытку алгоритма зайти на поле работы гуманитариев, поупражняться в словесности и сформировать некий обобщенный взгляд на действительность, выработанный на основании больших данных, использованных для обучения GPT-3. Говорить о том, что у авторов получилось что-то стоящее, скорее преждевременно; намного интереснее сама механика написания подобных текстов, где искусственный интеллект отвечает на вопросы, причем для достижения наилучшего результата неоднократно, а люди проводят работу по промпт-инжинирингу и редактуре (при переводе на другие языки — двойную редактуру, что не может не сказаться на тексте положительно).

Безусловно, работы с участием ИИ появлялись и ранее в совершенно различных областях науки, где ChatGPT не просто генерировал наукообразный текст, но и выдавал на-гора исследовательские решения[2]. Вероятно, кто-то из тех, кто сейчас читает этот текст, может задуматься, а не приложил ли к его написанию руку (или что у него там есть) великий и могучий... Но нет, мы обошлись без его помощи.

Подобные инструменты породили множество дискуссий по поводу их применения, вызвали широкий общественный резонанс. Феноменальный успех ChatGPT от OpenAI вызвал «гонку вооружений», в которую ввязались такие крупные технологические компании, как Google, Amazon и Яндекс. В публицистической и научной литературе, персональных блогах, на публичных мероприятиях обсуждается, какие последствия будет иметь применение больших языковых моделей (далее — LLMs, Large Language Models) семейства GPT в различных видах профессиональной деятельности, что будет с нормами и практиками и как минимизировать потенциальный вред от использования таких моделей.

Наука в действии

Одна из профессиональных областей, где алармистские настроения пока перевешивают восторженные отзывы, — сфера производства научного знания. Все чаще звучат опасения касательно того, что инструменты типа ChatGPT будут применяться недобросовестно, факты соавторства — скрываться. Сейчас подобные практики не называются воровством, даже не маркируются как плагиат, однако моральная интуиция подсказывает, что генерация текста при помощи модели, выдаваемого затем за собственный, — новая форма академического мошенничества. Отрадно, что к ее выявлению активно подключились специалисты компании «Антиплагиат», которые научили систему определять машинно-сгенерированные тексты[3].

Однако система только маркирует части документа, которые кажутся ей подозрительными. Она может признать таковым как сугубо человеческий текст, написанный из рук вон плохо, так и подготовленный в соавторстве с алгоритмами. Поэтому итоговое решение об авторстве всегда (NB!) принимает проверяющий. Но достаточно ли языкового чутья, интуиции и понимания логики изложения научных текстов, характерных для определенных отраслей науки, для того чтобы однозначно идентифицировать человеческое или «сверхчеловеческое» происхождение текста?

В качестве своеобразного эксперимента мы предложили нескольким нашим коллегам, имеющим за плечами стаж работы в науке и образовании не менее 15 лет, получившим ученую степень в области философии или социологии (2 доктора и 7 кандидатов наук), попробовать определить, какие тексты написаны человеком, а какие — сгенерированы алгоритмом и лишь немного отредактированы. Результаты скорее неутешительные. По целому ряду вопросов мнения информантов разделись, что указывает на определенные проблемы идентификации происхождения текстов. Вот как описывает свои впечатления один из участников нашего мини-исследования: «Я столько разнокачественных человеческих текстов читал, что ничему вышедшему „из-под пера человека“ не удивляюсь» (мужчина, доктор наук, стаж научной и преподавательской деятельности — 45 лет, испытывал принципиальные затруднения с оценкой качества текстов).

Только два человека из девяти смогли определить авторство всех тестируемых фрагментов. В оправдание тех, у кого не получилось это сделать, скажем, что характер текстов был различным, затрагивал разные области научного знания: мы приводили выдержки об экологической ответственности, языке вражды, больших данных, «администрировании» науки и канонических правилах. Наибольшее число ошибок наблюдалось с идентификацией первого и последнего текстов, при этом значительная часть информантов, по всей видимости, изначально скептически относились к возможностям ChatGPT; респонденты были уверены в правильности и обоснованности своего выбора: «тексты, написанные ChatGPT, достаточно сложно читать, много причастных оборотов, к концу предложения не помнишь его начало» (женщина, кандидат наук, стаж научной и преподавательской деятельности — 15 лет, допустила 4 ошибки). Возможно, это связано с тем, что опыт использования ChatGPT имеет только один опрошенный; варианты «знаю, но не пользовался(ась)» и «что-то слышал(а), но подробностей не знаю» выбрали по три респондента, а двое отметили, что ничего не знают об этой модели.

Также можно предположить, что трудности распознавания кроются в формализации научного языка: это помогает алгоритмам копировать его стилистические особенности. Как отметил один из информантов, здесь есть «стандартный оборот, впрочем, используемый многими коллегами; под конец текста казалось, что все тексты написал робот» (женщина, кандидат наук, стаж научной и преподавательской деятельности — 17 лет, допустила 1 ошибку). Но при этом алгоритмы «переигрывают» человека, в некоторых случаях вводя в заблуждение читателей благодаря использованию нестандартных оборотов, метких определений и т. д.: «Более „человечный“ неформальный текст с вопросами, толкованиями и т. д.» (женщина, доктор наук, стаж научной и преподавательской деятельности — 33 года, допустила 3 ошибки).

Среди критериев, которые помогают определить (однако далеко не всегда верно), какой из двух текстов написан человеком, а какой — алгоритмом, информанты называют интуицию, сложные формулировки (в отношении ChatGPT) и конкретность изложения (как в отношении человека, так и в отношении ChatGPT). Отмечается, что «в текстах ChatGPT нет смысловой нагрузки, набор слов невзаимосвязанных между собой и сложно понимаемый человеком» (женщина, кандидат наук, стаж научной и преподавательской деятельности — 18 лет, допустила 2 ошибки).

Тем не менее перспективы использования больших языковых моделей в науке большинство информантов оценивают оптимистично, отводя ИИ роль помощника, который позволит уменьшить количество ошибок и избавить исследователей от рутинной деятельности. Впрочем, высказываются идеи и о том, что подобные технологии могут дать дополнительный стимул развитию науки: «Конечно, лет через 20 наукой смогут заниматься единицы — исключительно творческие люди; те, кто занимается сейчас псевдонаукой, комбинаторикой, не смогут конкурировать с AI» (женщина, кандидат наук, стаж научной и преподавательской деятельности — 40 лет, допустила 3 ошибки).

Само по себе использование LLMs в науке не запрещено. Отдельные способы их применения могут быть полезными и при этом соотноситься с основными ценностно-нормативными элементами научного этоса. Так, модель может протестировать код, найти закономерности в изображениях, например, в рентгенографических снимках или помочь выявить рак на основании фотографий родимых пятен, проверить и поправить перевод метаданных статьи. Однако использование модели для написания научного текста, даже если это обзор литературы, который, как правило (но не всегда), не предполагает высокой степени новизны, на наш взгляд, является проблематичным.

Где приземлиться?

Вернуть джина в бутылку вряд ли получится, поэтому академическому сообществу придется приспосабливаться к миру с LLMs, и наиболее серьезные испытания предстоит пережить гуманитариям. На сегодняшний день ряд авторитетных издательств внесли изменения в редакционную политику и запретили указывать ChatGPT или иные языковые модели в качестве соавтора публикации. Использование LLMs в исследовании требует обязательного уведомления редакции и рецензентов[4].

Пространство использования LLMs, обсуждаемое академическим сообществом, представляется достаточно широким. Так, предлагается использовать модель для начала работы над публикацией (иногда бывает сложно начать писать текст, а LLM может «подкинуть» подходящую идею), определения теоретической рамки исследования (для выявления связей между различными концепциями и теориями), структурирования текста, точной формулировки названия, аннотации, заключения статьи, поиска литературы (при условии обязательной ручной проверки предлагаемых источников, поскольку модели, в частности ChatGPT, при выполнении задач по подбору литературы часто «галлюцинируют»), для перевода текста, проверки получившегося текста на полноту и непротиворечивость и др.[5]

Такого рода варианты использования представляются приемлемыми для опытных ученых, обладающих высоким уровнем критического мышления, начитанных, хорошо знающих состояние исследований в своей области. Они могут понять, нет ли фактических и логических ошибок в тексте, генерируемом LLM, оценить получаемую информацию, сформулировать новую идею с опорой на нее. Для начинающих исследователей чрезмерное увлечение LLM в написании текстов чревато тем, что они так и не научатся писать и думать самостоятельно. Как отмечает один из наших информантов, «плохо, если человек склонен становиться придатком электронной памяти; особенно если этот человек занят общественно значимым делом» (мужчина, доктор наук, стаж научной и преподавательской деятельности — 45 лет, испытывал принципиальные затруднения с оценкой качества текстов).

Все это ставит под угрозу саму систему воспроизводства научных кадров, особенно в среде, где погоня за показателями вытесняет реальную пользу научного знания. LLM, призванные если не заменить людей определенных профессий, то повысить эффективность работы человека в тандеме с алгоритмом, с точностью до наоборот — замедляют и усложняют работу профессионалов. Так, преподавателям высшей школы теперь нужно еще тщательнее проверять студенческие тексты, а научным руководителям — статьи и диссертации аспирантов, поскольку ошибки могут крыться и в самом тексте, и в списке источников. Даже если будет найдено дополнительное время на проверку, существование LLMs подрывает доверие членов научного сообщества друг к другу. Рецензентам и редакторам научных журналов придется затрачивать еще больше усилий на проверку предоставляемых рукописей.

Получается, что LLMs — это палка о двух концах. Каково бы ни было отношение к ним — от полного скептицизма до умеренного оптимизма — с ними необходимо считаться. Как отмечает А. Касирзаде, "...мы не сможем создать диалоговых агентов, которые будут одновременно максимально полезными и максимально безвредными«[6].

Могут ли LLMs подорвать сами основы научного этоса? Давайте попробуем разобраться в этом, воспользовавшись ставшей классической мертоновской концепцией. Остановимся на самой первой версии его модели научного этоса — CUDOS (communism, universalism, disinterestedness, organized skepticism)[7].

По всей видимости, LLMs способствуют утверждению ценности коммунизма, согласно которой научное знание — это общее достояние. Пусть LLMs не способны произвести принципиально новое знание, но, обучаясь на больших данных и постоянно дообучаясь, модели агрегируют существующее знание, могут делать обобщения, недоступные человеку, выдавать краткое резюме о состоянии знания в определенной научной области.

Противоречие видится в том, что LLMs фактически «присваивают» чужие результаты, разрушая ценность незаинтересованности. Возникает соблазн использовать результаты запросов к LLMs без учета заслуг предшественников. Безусловно, можно попросить модель, например ChatGPT, ставить сноски, однако она часто ошибается, и не всегда существуют приемлемые способы проверить, корректно ли она ссылается на того или иного автора. Например, как говорит один из наших информантов, «есть много примеров (сам проверял, студенты проверяли), когда ChatGPT и аналогичные алгоритмы выдавали список несуществующих статей, книг и т. д., причем это не случайность, а присутствует практически в каждой выдаче» (мужчина, кандидат наук, стаж научной и преподавательской деятельности — 31 год, не сделал ни одной ошибки).

Если для защиты персональных данных требуется анонимизация текстов, используемых LLMs[8], то в науке, напротив, анонимизация нежелательна, а неупоминание работ предшественников, некорректные заимствования, «призрачное» авторство считаются неэтичными практиками. Следовательно, приверженность ценности незаинтересованности требует бороться «за чистоту крови» в научных публикациях, маркировать контент, полученный с применением LLMs.

Ситуация усугубляется тем, что LLMs, обученные на больших датасетах, включающих авторские тексты, выдают ответы на запросы, не указывая авторство идей, которыми оперируют. Как мы увидели выше, даже профессиональный ученый, имеющий за спиной многолетний академический опыт и трудом добытую ученую степень, далеко не всегда способен распознать, когда текст написан человеком, а когда — ботом.

Еще одно направление проблематизации сохранения и расширенного воспроизводства модели научного этоса Р. Мертона связано с парой ценностей «универсализм — организованный скептицизм». На первый взгляд, использование LLMs в научной деятельности защищает универсализм, поскольку модели пусть и не лишены беспристрастности, но могут быть более объективными, чем люди. Они выдают ответы на запросы, не обращая внимания на регалии, авторитет, пол, возраст, национальность и иные «чувствительные» характеристики авторов.

Однако такая беспристрастность — слишком высокая цена для организованного скептицизма. Слепая вера в объективность LLMs, правильность производимого ими контента может привести к бесконтрольному тиражированию ошибок и заблуждений, от которых все же не свободно научное знание. Следовательно, повышенное недоверие к текстам, сгенерированным LLMs, — способ сохранения и воспроизводства главных ценностей науки.

Что же в сухом остатке? Прямого запрета на использование больших языковых моделей в науке сегодня нет, да и вряд ли он представляется возможным. Точнее, его можно принять на законодательном уровне, но тогда встанет вопрос, кто и как будет контролировать его исполнение в отсутствие четких инструментов распознавания использования LLMs для решения тех или иных научных задач. Частичные ограничения возможны: для этого требуется нормотворческая деятельность, прежде всего самих ученых. Нужно определить, какие способы использования LLMs уместны, а какие противоречат основным целям и ценностям науки.

Несмотря на идеализированное представление об ученых как людях интеллигентных, эрудированных, обладающих высоким уровнем культуры, различные формы академического мошенничества постоянно выявляются в деятельности отдельных представителей научной сферы или целых научных коллективов. Моральные конфликты и сложные моральные дилеммы — практически неотъемлемая часть жизни научного сообщества. Можно сказать, что становление ученого предполагает не только приобретение профессиональных компетенций, но и испытание на порядочность. Чтобы заслужить определенную репутацию в научном сообществе, порой приходится пройти огонь и воду. Теперь к ним добавились и легкодоступные большие языковые модели, соблазн обращения к которым велик. Остается надеяться на личную приверженность ученых ценностям науки и совсем немного — на нормативное регулирование применения ChatGPT и аналогичных технологий в научной деятельности.

* Исследование выполнено за счет гранта Российского научного фонда № 23-28-01288, https://rscf.ru/project/23-28-01288/.

[1] GPT-3, Томас И. С., Ван Ж. Искусственный интеллект отвечает на величайшие вопросы человечества. Что делает нас людьми? М.: АСТ, 2023.

[2] См., например: O’Connor S., ChatGPT. (2023) Open Artificial Intelligence Platforms in Nursing Education: Tools for Academic Progress or Abuse? Nurse Education in Practice. Vol. 66. 103537. https://www. doi. org/10.1016/j. nepr.2022.103537; Mijwil M. M., Aljanabi M., ChatGPT. (2023) Towards Artificial Intelligence-Based Cybersecurity: The Practices and ChatGPT Generated Ways to Combat Cybercrime. Iraqi Journal for Computer Science and Mathematics. Vol. 4. No. 1. P. 65-70. https://www. doi. org/10.52866/ijcsm.2023.01.01.0019.

[3] Антиплагиат выявляет текст, созданный ChatGPT. URL: https://antiplagiat. ru/news/text-chatgpt/.

[4] См., например: AIP Publishing. URL: https://publishing. aip. org/about/news/on-the-use-of-ai-language-models-in-scholarly-communications-at-aip-publishing.

[5] Buriak J. M. et al. (2023). Best Practices for Using AI When Writing Scientific Manuscripts. ACS Nano. Vol. 17. No. 5. P. 4091–4093. https://doi. org/10.1021/acsnano.3c01544.

[6] Kasirzadeh A. (2023) ChatGPT, Large Language Technologies, and the Bumpy Road of Benefiting Humanity. ArXiv, abs/2304.11163.

[7] Merton R. K. (1973) The Sociology of Science. Theoretical and Empirical Investigation. New York: Free Press.

[8] Patsakis C., Lykousas N. (2023) Man vs the Machine: The Struggle for Effective Text Anonymisation in the Age of Large Language Models. ArXiv, abs/2303.12429.

Мы в соцсетях: