ChatGPT это лишь сжатое изображение всемирной сети
ChatGPT Is a Blurry JPEG of the Web
By Ted Chiang
Текст опубликован The New Yorker 09/02/2023.
В 2013 году рабочие в одной из немецких строительных компаний обнаружили, что их копировальный аппарат Xerox ведет себя странно: при копировании плана этажа здания, получившаяся копия отличалась от оригинала. Причем, отличие заключалось в важной детали, не сразу бросающейся в глаза. В оригинальном плане этажа, каждая из трех комнат помечалась прямоугольным значком с указанием площади помещения: 14.13, 21.11 и 17.42 м² соответственно. Однако на фотокопии все комнаты оказались помечены как имеющие площадь в 14.13 м². Компания обратилась к информатику Дэвиду Крайзелю с просьбой разобраться в причинах такого, с первого взгляда, странного явления. Для решения проблемы понадобился именно информатик, потому что современный ксерокс уже не использует физический ксерографический процесс как в 60-х годах — вместо этого изображение сканируется дигитально, а затем распечатывается. Если учесть, что практически каждое цифровое изображение сжимается для сохранения объема виртуальной памяти, вышеописанная ситуация начинает проясняться.
Сжатие данных подразумевает два процесса: кодировка, когда данные компрессуются в более компактный формат, и декодирование — обратный процесс. Если восстановленный файл идентичен оригиналу, то использовалось сжатие без потерь: не было утеряно никаких данных. Если же, напротив, востановленный файл лишь приблизительно тождественнен оригиналу, то применялось сжатие с потерями: некоторые данные были утеряны и теперь не подлежат восстановлению. Сжатие без потерь обычно используется для текстовых файлов и компьютерных программ, потому что в этих форматах утрата даже единственного символа может повлечь серьезные последствия. Сжатие с потерями зачастую используется для фото, аудио и видео — там, где абсолютная точность не критична. В основном, мы не замечаем неточностей в репродукциях изображений, песен или фильмов. Потеря точности становится ощутимой только когда данные были сжаты слишком плотно — в таких случаях становятся видны артефакты сжатия: размытость jpeg или mpeg изображений или глухое звучание mp3 файлов с низким битрейтом.
В современных копировальных аппаратах от Xerox применяется сжатие с потерями в формате jbig2, разработанном для работы с
Главной проблемой в этой истории стало не то, что в коприовальном аппарате использовался метод сжатия с потерями, а то, что аппарат искажал копию незаметно, и артефакты сжатия не сразу бросались в глаза. Если бы на выходе получались размытые изображения, всем стало бы ясно, что копии не соответствуют в точности оригиналу. Но копии казались точными — данные на них были ясно читаемыми, будучи неверными. В 2014 году Xerox выпустили патч, исправляющий эту проблему с их копировальными аппаратами.
Мне кажется, что этот случай особенно актуален сегодня, когда речь заходит о ChatGPT и подобных программах, известных в кругах исследователей ИИ как большие языковые модели. Конечно, сходство между копировальным аппаратом и большой языковой моделью не сразу может показаться очевидным, но представьте, что вы вот-вот потеряете доступ к интернету навсегда. Вы решаете создать сжатую копию всех текстовых данных в сети, чтобы хранить ее затем на своем локальном сервере. К сожалению, объем вашего сервера лишь 1% от объема всех данных, поэтому вы не можете использовать алгоритмы для сжатия данных без потерь. Вместо этого, вы пишете алгоритм сжатия с потерями — он будет распознавать статистические закономерности в тексте и сохранять их в собственном формате. Добавим неограниченную вычислительную мощность вашего компьютера, так что даже малейшие закономерности в тексте не ускользают от вашего алгоритма, и вам удается достичь необходимого уровня сжатия сто к одному.
Теперь потеря доступа в интернет не кажется столь катастрофичным событием, ведь у вас есть копия всей информации в сети на собственном сервере. Проблема лишь в том, что
Описанное выше очень схоже с принципом работы ChatGPT и других больших языковых моделей. Представьте, что ChatGPT это сжатый файл jpeg со всеми текстовыми данными сети — он содержит большинство информации всемирной паутины так же, как и любое изображение jpeg содержит большинство информации более высококачественного изображения. Вы не найдете в нем точного соответствия оригиналу — только лишь приблизительное изложение. Но
Эта аналогия не только помогает понять каким образом ChatGPT парафразирует информацию, найденную в интернете, но также и объясняет «бред» или нелепые ответы на конкретные вопросы, столь часто наблюдаемые в поведении ChatGPT и прочих больших языковых моделей. Этот бред — это артефакты сжатия, только как и в истории с ксероксом, они настолько «читаемы», что их не распознать без скрупулезного сравнения с оригиналом. Оригинал в нашем случае — либо интернет, либо наши собственные знания о мире. Когда мы рассматриваем такой бред сквозь данную призму, он становится вполне ожидаемым: если при сжатии 99% оригинальной информации было утеряно, закономерно ожидать, что существенные доли реконструкции при декодировании будут полностью сфабрикованы.
Эта аналогия становится даже более точной, если вспомнить, что одна из основных схем сжатия с потерями — это интерполяция. То есть, предсказывание недостающих данных на основе предыдущих и последующих данных. Когда программа выводит на экран изображение и сталкивается с пикселем, утерянным во время процесса сжатия, она смотрит на окружающие пиксели и вычисляет среднее значение. То же самое делает и ChatGPT, когда сталкивается с запросом объяснить, например, потерю носка при стирке используя литературный стиль Декларации независимости: модель учитывает две точки «лексического пространства» и генерирует текст, способный находиться между ними. «Когда ход событий приводит к тому, что человек вынужден разделить предметы одежды от собратьев своих, во имя поддержания чистоты и порядка…». ChatGPT настолько хороша в подобной интерполяции, что многие находят это крайне забавным и радостно играют с текстом, будто с фильтрами в редакторе изображений.
________________________
Учитывая, что большие языковые модели как ChatGPT зачастую превозносятся чуть ли не как прорыв в сфере искусственного интеллекта, может показаться пренебрежительным или уничижительным описывать их как алгоритмы сжатия текста с потерями. Я на самом деле считаю, что рассматривать большие языковые модели в данной перспективе полезно для усмирения тенденции их очеловечивания. Но кроме того, стоит рассмотреть дополнительный аспект данной аналогии. с 2006 года исследователь ИИ Маркус Хаттер вручает денежную награду тому, кто сможет без потери данных сжать конкретный текстовый файл объемом в 1ГБ компактнее, чем предыдущий рекордсмен. Премия известна как Приз Хаттера или Премия за сжатие человеческих знаний. Скорее всего вы знакомы с форматом сжатия данных zip. Формат zip снижает объем файла Хаттера с 1Гб до 300Мб. Последний лауреат премии умудрился снизить объем до 115Мб. Это не просто упражнения в миниатюризме — Хаттер убежден, что эффективное сжатие текста крайне важно для создания равного человеку искуственного интеллекта, от части потому что высшей степени сжатия можно достичь путем понимания текста.
Допустим, у вас есть текстовый файл, содержащий миллион примеров со сложением, вычитанием, умножением и делением. Любой алгоритм сжатия сможет уменьшить объем этого файла, но самым эффективным способом сжатия было бы, скорее всего, вывести арифметические принципы и написать программу-калькулятор. Используя калькулятор, можно не только с точностью воссоздать миллион примеров, что были в оригинале, но и любой арифметический пример в принципе. Схожая логика применима и к задаче сжатия текста. Если программа понимает, что сила равна произведению массы на ускорение, она сможет отбросить огромное колличество слов при сжатии текста о физике, потому что сможет воссоздать их на основе своих знаний. Аналогично, чем больше программа знает о спросе и предложении, тем больше слов она сможет отбросить при сжатии текста об экономике, и т.д.
Большие языковые модели распознают статистические закономерности в тексте. Любой анализ текста в сети покажет, что такие фразы как «низкое предложение» часто соседствуют с такими фразами как «повышение цен». Чатбот, уловивший данную корреляцию, способен ответить про повышение цен на вопрос об эффекте недостаточных поставок товаров на прилавки. Если большая языковая модель уловила огромное количество текстовых корреляций между экономическими терминами (причем настолько огромное, что способна правдоподобно отвечать на широкий спектр вопросов), можем ли мы сказать, что она на самом деле понимает экономическую теорию? Модели на подобие ChatGPT не становятся лауреатами Премии Хаттера, среди прочего, потому что не способны в точности воссоздать оригинальный текст — иными словами, они не сжимают данные без потерь. Но может быть их способ сжатия с потерями
Вернемся к арифметическим примерам. Если дать задачу GPT-3 (большая языковая модель, на основе которой построен ChatGPT) решить пример сложения или вычитания, ответом практически всегда будет верное решение, если числа в примере двузначные. Однако, чем больше числа в примере, тем меньше вероятность, что модель справится с решением: вероятность правильного ответа составляет всего 10% при решении примеров, состоящих из пятизначных чисел. Большинство верных ответов, что дает GPT-3, не находятся в сети: как пример, вряд ли множество страниц в интернете содержат последовательность символов «245 + 821». Так что модель не работает по принципу банального копирования. Но, не смотря на способность усвоить большие объемы информации, о понимании моделью арифметических принципов тоже говорить не приходится. При рассмотрении ошибочных ответов GPT-3 можно заметить, что модель не переносит единицу при сложении. В интернете несомненно можно найти объяснения о переносе при арифметических вычеслениях, но GPT-3 не способна учесть эти объяснения. На базе статистического анализа арифметических примеров GPT-3 способна показать лишь приблизительный к реальности результат — не более.
Учитывая недостаточную успеваемость GPT-3 в предмете, обучаемом в начальных классах школы, как объяснить способность модели писать приемлемые тексты почти академического уровня? Несмотря на то, что большие языковые модели часто бредят, в иных случаях кажется, что они вполне четко понимают предметы на подобие экономической теории. Так может быть арифметика это лишь исключение? Возможно ли, что в отличных от арифметики сферах статистические закономерности в тексте
Мне кажется, есть более простое объяснение. Представьте, что было бы если бы ChatGPT была алгоритмом сжатия без потерь? В таком случае, она бы всегда отвечала на вопросы точными цитатами соответствующих страниц в интернете. Нас бы вряд ли сильно впечатлила такая технология — не особо существенное улучшение обычных поисковых движков. То, что ChatGPT парафразирует текст из интернета, а не цитирует его, делает модель похожей на ученицу, способную выражать мысли собственными словами, а не только «зубрить» фразы из учебника. Это создает иллюзию понимания. В человеческом обучении механическое запоминание не является показателем понимания, поэтому неспособность ChatGPT цитировать информацию из источников — это именно то, что создает впечатление ее обучаемости. Когда речь идет о последовательности слов, сжатие с потерями впечатляет больше, чем сжатие без потерь.
________________________
Большим языковым моделям прочат множество предназначений. Сравнивая их со сжатыми jpeg-изображениями можно более трезво подойти к оценке их реальных возможностей. Поразмыслим о нескольких сценариях.
Смогут ли большие языковые модели заменить традиционные поисковики? Чтобы доверять их результатам, нам нужны гарантии того, что они не будут ведомы пропагандой и теориями заговора: нам нужно знать, что jpeg будет сохранять правильные участки интернета. Но даже если большая языковая модель будет включать в себя только правильную информацию, остается вопрос размытия. Размытие размытию рознь. Вполне приемлемо пересказывать информацию другими словами. Однако, бывает что пересказ перерастает в явную ложь и фабрикацию, что абсолютно неприемлемо, когда мы пользуемся программой для поиска фактической информации. Еще не понятно, возможно ли технически сохранить приемлемую степень размытия, исключив неприемлемую — скорее всего, в ближайшем будущем ситуация прояснится.
Даже если получится отучить большие языковые модели от фабрикаций, следует ли использовать их как инструменты для создания интернет контента? Это имеет смысл только если нашей целью является пересказ уже имеющейся в сети информации. Некоторые компании только этим и занимаются: обычно их называют контент-фермами. Возможно размытие больших языковых моделей поможет таким компаниям избежать лишних неприятностей с авторскими правами. Но в целом, то, что полезно контент-фермам, вредно для всех, кто ищет информацию в интернете. Расцвет такого типа пересказа контента усложняет поиск нужных данных уже сегодня — чем больше текста, сгенерированного большими языковыми моделями, будет публиковаться в сети, тем больше интернет станет походить на все более и более размытую версию самого себя.
О наследнице ChatGPT, разрабатываемой OpenAI GPT-4, известно пока очень мало. Но я осмелюсь предположить, что при наборе огромного количества текстов для обучения GPT-4, разработчики OpenAI сделали все возможное, чтобы туда не попали тексты, сгенерированные ChatGPT или любой другой большой языковой моделью. Если это действительно окажется так, это послужит невольным подтверждением верности сравнения больших языковых моделей со сжатыми jpeg-изображениями. Неоднократно пересохраняя jpeg количество артефактов сжатия растет, ведь каждый раз теряется больше данных — это как цифровой эквивалент фотокопирования фотокопий в старые добрые времена. Качество изображения только ухудшается.
Готовность разработчиков использовать сгенерированные большой языковой моделью тексты для обучения следующей версии модели, может стать полезным критерием оценки ее качества. Если тексты, сгенерированные ChatGPT, недостаточно полезны для GPT-4, то скорее всего, это означает, что и для нас они тоже не годятся. Если же модель генерирует настолько хорошие тексты, что их можно использовать в обучении следующих моделей, то это явный показатель качества этих текстов (такой результат, как мне кажется, потребует серьезного прорыва в технологиях строительства этих моделей). Наша аналогия перестанет быть актуальной когда (и если) модели смогут выдавать тексты того же качества, на которых были обучены.
Смогут ли большие языковые модели быть помощниками в написании оригинальных текстов? Зависит от того, что мы имеем в виду. В копировальном искусстве, например, художники манипулируют техническими спецификациями копировальных аппаратов для создания оригинальных произведений искусства. Что-то наподобие этого можно представить и с ChatGPT в роли копировального аппарата, таким образом, в этом плане — ответ положительный. Но вряд ли можно сказать, что ксерокс стал незаменимым инструментом для любого художника: напротив, подавляющее большинство не используют его в творческом процессе, и отнюдь не в ущерб себе.
Тогда предположим, что мы не имеем в виду новый литературный аналог копировального искусства. Может ли сгенерированный большой языковой моделью текст послужить фундаментом для писателей при написании оригинального произведения, как художественного так и нет? Поможет ли созданный моделью шаблон писателям, экономя им время и силы и позволяя сосредоточиться на действительно важных аспектах творчества?
Естесственно, говорить за всех писателей нельзя, но позвольте объяснить, почему я считаю, что создавать оригинальный текст из размытой копии неоригинального текста — не самый лучший вариант. Если вы писатель, вы напишете множество вторичных вещей прежде, чем удастся написать что-нибудь оригинальное. При этом, время и усилия, вложенные во вторичные тексты никоим образом не тратятся зря — напротив, именно они и позволяют вам в итоге создать нечто неповторимое. Мучительный выбор верного слова и бесконечная перестановка предложений в инстинктивном поиске наиболее приятного течения текста — этим и познается проза. Школьники пишут сочинения не только для наглядной демонстрации освоения школьного материала, но и для ценного опыта в формировании собственных мыслей. Человеку, не писавшего никогда банальностей, не хватит навыков написать что-то поистине особенное.
Сложность в формировании собственных мыслей не исчезает с получением диплома о завершении образования — с ней приходится справляться каждый раз, начиная работу над новым текстом. Иногда лишь в процессе работы можно нащупать оригинальную мысль. Можно сказать, что текст, сгенерированный большой языковой моделью, не сильно отличается от первого черновика писателя, но, на мой взгляд, сходство крайне поверхностно. Ваш первый черновик — не четко сформулированная вторичная идея, а наоборот, плохо сформулированная оригинальная идея, к тому же заряженная вашим инстиктивным неудовлетворением от результата — осознанием бездны между тем, что хотелось сказать и тем, что сказать удалось. Это то, что верховодит вами при доведении текста до совершенства и то, чего очень не хватает, при генерации первичного текста искусственным интеллектом.
В письме нет ничего волшебного или тайного. Но тем не менее, письмо это нечто большее, чем просто переработка уже готовых текстов ненадежной копировальной машиной. Может быть в будущем нам удастся построить ИИ, способный создавать произведения, основанные на его собственном жизненном опыте. Такое достижение действительно станет выдающимся! Но если это и случится, то точно не в обозримом будущем. Ну, а тем временем, стоит задаться вопросом — чем нам полезен инструмент, парафразирующий информацию, найденную в сети? При потере доступа к интернету навсегда, ChatGPT смог бы нам помочь сохранить копию информации на частном сервере, и то, лишь при условии, что получится отучить модель бредить и фабриковать данные. Однако, мы пока еще не теряем доступ во всемирную сеть. Так зачем тогда нам сжатое jpeg-изображение, когда все еще доступен оригинал? ♦