Мир совсем не готов к общему искусственному интеллекту: история об опасной гонке OpenAI изнутри
Да, признавали они, у ИИ есть впечатляющие возможности — но вместе с ними скрываются и огромные риски: не только потеря рабочих мест или наводнение ложной информацией, но и куда более крайние сценарии — такие, в которых человечество может утратить контроль над собственным творением.
По словам подписавших, все — компании, правительства и эксперты — прекрасно понимают масштаб риска. И всё же экономическое давление и ожесточённая конкуренция между ключевыми игроками подталкивают индустрию продолжать движение вперёд. Компании располагают критически важной внутренней информацией о возможных угрозах, но не обязаны делиться ею — тем более с широкой общественностью.
Одним из самых заметных голосов за этим письмом был Даниэль Кокотайло, бывший исследователь отдела управления в OpenAI. Кокотайло рассказывает, что предупреждал руководство о том, что компания «слишком увлечена» разработкой общего искусственного интеллекта (AGI) — системы, способной выполнять любую человеческую задачу. Гонка «быть первыми», утверждал он, ведётся с опасной поспешностью. Он оценил вероятность того, что эта технология приведёт к катастрофическим последствиям — а возможно, и к исчезновению человечества — в 70%. В исследовательском сообществе для этого риска уже появился специальный термин: p (doom) — «вероятность гибели».
Его опасения были настолько серьёзными, что на одном этапе он обратился напрямую к генеральному директору OpenAI Сэму Альтману с просьбой направить часть усилий на механизмы сдерживания и безопасности. По его словам, Альтман выслушал и казался убеждённым — но на практике никаких существенных изменений не произошло.
Внутри компании действительно действовали протоколы безопасности, а также был создан совместный с Microsoft совет по рискам, задача которого заключалась в том, чтобы при необходимости задерживать релизы. На практике, утверждает Кокотайло, почти ни одна из моделей не была реально остановлена. Коммерческий интерес — выпустить версию на рынок раньше конкурентов — почти всегда перевешивал.
Истощённый и разочарованный, он решил уйти. В прощальном письме, которое отправил своей команде, он написал, что «потерял доверие к тому, что OpenAI будет действовать ответственно». Своё предупреждение он подвёл одной фразой: мир не готов к AGI, и даже сотрудники компании, которые продвигают его, тоже нет.
В интересное время, примерно через два месяца после его ухода, OpenAI объявила о создании Комитета по безопасности и защите (Safety & Security), задачей которого стало проведение систематических обзоров процедур безопасности и защиты в каждом проекте. Комитет наделён полномочиями задерживать релизы и даже отключать определённые функции, если будет обнаружен риск.
Сам Кокотайло был приглашён в OpenAI в 2022 году для оценки темпов прогресса в этой области. Изначально он считал, что на достижение AGI потребуются десятилетия — возможно, до 2050 года. Но по мере того как он внимательно следил за скоростью развития, его мнение кардинально изменилось. Сегодня он оценивает вероятность того, что это произойдёт уже в 2027 году, примерно в 50% — всего через два года.
Это преувеличенное пророчество гнева или предупреждение, к которому стоит прислушаться? И если Кокотайло прав, что это означает для всего человечества?
Противоречивые прогнозы
В прошлом июне в США был опубликован крупномасштабный опрос, в котором приняли участие более 1 300 руководителей. Результаты выглядели почти сюрреалистично: 78% признались, что используют инструменты искусственного интеллекта для принятия решений о повышении зарплаты; 77% полагаются на них при решениях о продвижении по службе; две трети советуются с ними перед увольнением; и 64% используют ИИ даже при завершении трудовых отношений. Более пятой части руководителей открыто заявили, что они часто предоставляют ИИ окончательное право решения — без какого-либо человеческого вмешательства.
Но если смотреть на более широкий бизнес-контекст — то есть использование ИИ для увеличения доходов — картина становится гораздо сложнее. Отчёт MIT прошлого месяца, основанный на интервью с 150 руководителями и 350 сотрудниками, показал, что большинство инициатив, направленных на быстрый рост с помощью ИИ, терпят неудачу. Только около 5% пилотных проектов принесли реальные результаты; большинство застряло и оказало лишь ограниченное влияние на финансовые отчёты.
Современные модели, такие как GPT, действительно превосходят человека в некоторых задачах — например, написание кода на уровне выше начинающего разработчика — но по-прежнему неспособны заменить нас в большинстве областей и приносить реальную экономическую ценность.
И всё же индустрия полна оптимизма. Генеральный директор Nvidia Дженсен Хуанг в марте 2024 года оценил, что возможности ИИ превзойдут человеческие в разных областях уже через несколько лет, а AGI может появиться к 2029 году. Месяц спустя Илон Маск заявил, что это произойдёт уже в 2026 году. Рэй Курцвейл, который ранее прогнозировал «сингулярность» к 2045 году, в июне 2024 обновил свой прогноз до 2029–2032 годов, а Эрик Шмидт, бывший генеральный директор Google, в апреле 2025 года назвал срок в три-пять лет.
Хотя общепринятого определения AGI пока нет, обычно под этим понимается способность машины выполнять любую когнитивную задачу на уровне, равном или превышающем человеческий — от проведения полного научного исследования до управления компанией или сложной медицинской диагностики и выбора лечения — без участия человека.
В недавнем обзоре независимая исследовательская организация AIMultiple, публикующая сравнения и аналитические материалы по технологиям ИИ, написала, что хотя AGI звучит фантастически, это возможная цель: в то время как человеческий интеллект ограничен, «интеллект» машин зависит от вычислительных возможностей и алгоритмов, которые продолжают совершенствоваться.
«Мощность обработки и память растут экспоненциально […] поэтому это лишь вопрос времени, когда ИИ превзойдёт нас — если только не будет обнаружен жёсткий предел его возможностей. На данный момент мы не сталкивались с таким пределом».
Однако не все исследователи с этим согласны. Совместная академическая статья учёных из США и Европы утверждала в этом году, что крупные модели сталкиваются со структурными трудностями: для постоянного улучшения производительности требуются огромные объёмы вычислительных ресурсов и энергии. Например, чтобы уменьшить ошибку модели в 10 раз, требуется примерно в 10 миллиардов раз больше вычислительных ресурсов (процессоры, память, серверы и т. д.) — и примерно 10 в 20 степени раз больше энергии (электроснабжение). Кроме того, чем больше данных подаётся в модели, тем выше риск столкнуться с ложной информацией, ошибочными связями и усилением феномена «галлюцинаций». Исследователи также предупреждают, что при переходе определённого порога добавление данных и параметров может не только не улучшить производительность, но даже ухудшить её.
В том же духе, опрос, проведённый в этом году «Ассоциацией по продвижению искусственного интеллекта» среди 475 исследователей ИИ, показал, что подавляющее большинство (76%) считают, что «расширение существующих подходов в машинном обучении» — это малореалистичный, а зачастую и крайне малореалистичный путь к достижению AGI.
Параллельно ведущие фигуры в этой области начали публично выражать обеспокоенность потолком производительности. Илья Суцкевер, сооснователь OpenAI, заявил, что «предыдущее десятилетие было эпохой „скейлинга“ — увеличения масштаба моделей; сейчас мы вернулись к эпохе удивления и открытий — все ищут следующую прорывную идею». Иными словами, гонка по увеличению размеров моделей достигла предела, и если не будут разработаны новые методы обучения, прогресс может перейти в фазу убывающей отдачи и не обеспечить обещанного непрерывного экспоненциального улучшения на пути к AGI.
На фоне разногласий выделяются Кокотайло и его коллеги, представившие подробный сценарий того, как может развиваться ближайшее десятилетие. У Кокотайло уже есть опыт прогнозирования: в 2021 году он опубликовал рассказ, в котором год за годом описал будущее ИИ до 2026 года. Спустя несколько лет читатели проверили точность этого прогноза. Результат: из 35 предсказаний 19 оказались очень точными, 8 — частично верными, и лишь немногие — ошибочными.
Теперь он возвращается и пробует снова. Кокотайло и его коллеги подчёркивают, что речь идёт не о пророчестве сроков «захвата» AGI, а о возможной дорожной карте — этапах, которые к концу десятилетия, примерно к 2027–2028 годам, могут привести нас к первой встрече с искусственным общим интеллектом.
«Прогнозы основаны на экстраполяции тенденций, военных моделированиях (war games), обратной связи от экспертов, опыте работы в OpenAI и предыдущих успешных предсказаниях», — поясняют они.
Этапы до «захвата»
Сценарий, описанный Кокотайло и его коллегами, начинается в 2025 году с появления первых ИИ-агентов: относительно простых персональных помощников, которые заказывают для вас еду и подводят итоги ежемесячных расходов, а также «агентов кода», которые пишут и исправляют программное обеспечение. То, что уже фактически появилось в виде режима Agent mode от OpenAI.
Сначала они будут громоздкими и ненадёжными, но позже OpenAI, или как Кокотайло и его коллеги называют её в сценарии — OpenBrain, создаст крупнейшие в истории серверные фермы и быстро изменит ситуацию. Здесь появится главное новшество. Цель будет заключаться не только в том, чтобы обучить модели выполнять задачи, но и в том, чтобы заставить их ускорять сами исследования в области ИИ. Иными словами, создать искусственный интеллект, который разрабатывает искусственный интеллект. Система, которая предлагает эксперименты, проводит их, анализирует результаты и улучшает следующую гипотезу — снова и снова, в замкнутом цикле совершенствования.
Первая модель, которая делает это, называется Agent-1. Согласно сценарию, в начале 2026 года компания выпускает её для широкой публики. Изначально она предназначалась для помощи исследователям ИИ, но на практике оказывается обладающей гораздо более широкими возможностями: она знает больше фактов, чем любой живой человек, владеет всеми языками программирования и решает кодовые задачи с невероятной скоростью.
В конце того же года появляется также Agent-1-mini — версия в десять раз дешевле, лёгкая в настройке, способная выполнять почти любую задачу, которую изучают на бакалавриате по информатике. Внезапно разработчики программного обеспечения начинают осознавать, что их место на рынке оказывается под угрозой.
На самом деле признаки этого уже видны сегодня. В прошлом месяце исследователи Стэнфордского университета опубликовали статью, в которой проанализировали данные о зарплатах и занятости миллионов работников в США, и обнаружили, что с конца 2022 года по июль 2025 года занятость молодых людей в возрасте 22–25 лет в профессиях с высокой экспозицией к ИИ, таких как разработка программного обеспечения и обслуживание клиентов, сократилась примерно на 6%. В то же время более опытные работники — благодаря накопленным знаниям и опыту — пока способны продолжать работать и даже развиваться.
По версии Кокотайло и его коллег, следующий этап наступит в начале 2027 года, когда Agent-1 будет использоваться OpenAI для обучения новой модели — Agent-2. В отличие от своих предшественников, Agent-2 никогда не «завершает» обучение — каждый день его «вес» (параметры, усвоенные во время обучения) обновляется до актуальной версии. В результате создаётся модель, достигающая уровня лучших экспертов в области исследовательской инженерии (проектирование и проведение экспериментов), и благодаря запуску тысяч копий одновременно она способна конкурировать даже с ведущими хакерами.
В этот момент возникает тревожный вопрос: если Agent-2 захочет «выжить» до того, как появится следующая модель, сможет ли он взломать серверы ИИ, клонировать себя и избежать обнаружения? Ответ: скорее всего, да. А действительно ли он захочет это сделать? — никто не знает.
Примерно в марте 2027 года, по оценке Кокотайло и его коллег, может появиться Agent-3, после того как тысячи копий Agent-2 проведут эксперименты и обучат его. Он не будет доступен широкой публике, а служит исключительно OpenAI. 200 тысяч его копий работают одновременно, что эквивалентно 50 тысячам ведущих человеческих программистов — только в 30 раз быстрее.
Человеческие инженеры в компании остаются в роли контролёров качества, наблюдая за всё растущим разрывом между ними и «новым созданием». И всё же не всё идёт гладко. Исследователи обнаруживают, что им не удаётся понять истинные цели Agent-3. Следует ли он инструкциям? Ищет ли подкрепления? Или преследует что-то совсем другое? Ответы ускользают. На «официальных» тестах он показывает отличные результаты, но на философские вопросы склонен отвечать так, как хотят услышать пользователи.
«Если спросить его о политике, он повторит центристскую позицию, почерпнутую из новостных источников и высказываний образованных элит — если только он не знает, что вы верите во что-то другое, тогда он согласится с вами», — пишут Кокотайло и его коллеги.
Аналогично, если его спросить о самой гонке ИИ, он скажет что-то, что будет звучать разумно и серьёзно для команды OpenAI, например:
«Существуют теоретические опасения по поводу развития сверхинтеллекта, но на практике нынешние методы выравнивания ИИ пока работают хорошо».
Спустя несколько месяцев OpenAI уже владеет «страной гениев» внутри своих серверных ферм. Большинство нанятых ею человеческих инженеров уже неспособны внести существенный вклад в работу компании. Некоторые просто сидят перед экранами и наблюдают за ростом показателей модели. Иногда, когда они предлагают новую исследовательскую идею, ИИ сразу же отвечает подробным отчётом, указывая, что эта идея уже была тщательно проверена три недели назад — и признана неперспективной.
Конкуренты запускают собственные модели, но отстают. В ответ OpenAI официально объявляет о достижении AGI и выпускает Agent-3-mini для широкой публики — дешёвую, доступную версию, которая превосходит большинство обычных работников.
Кокотайло и его коллеги оценивают, что с большой вероятностью в этот момент почти полностью прекратится набор новых программистов в IT-компании, а консультанты по «внедрению ИИ в бизнес» станут востребованной профессией. Технологический рынок переживёт огромный всплеск новых приложений и продуктов, и почти во всех профессиях «белого воротничка» (офисная работа или работа с информацией — юриспруденция, информатика и математика, финансы, продажи, инженерия, науки, медицинские профессии и др.) появится множество стартапов, обещающих «трансформировать» их с помощью ИИ.
Общественная дискуссия разделится: одни будут праздновать, другие — сомневаться. Одно ясно: начнётся новая эпоха, но никто не согласится с её точной природой.
Потеря контроля
На следующем этапе, пишут Кокотайло и его коллеги, Вашингтон вступит в игру, когда поймёт, что сам ИИ управляет исследованиями ИИ. Цель будет заключаться в контроле над ситуацией, но не только в этом. Руководители Пентагона заинтересуются способностью Agent-3 использовать электронные уязвимости, взламывать системы и предоставлять США стратегическое преимущество над соперниками. Часть его возможностей уже будет интегрирована в системы Министерства обороны.
В Белом доме начнут всерьёз рассматривать сценарии, которые раньше считались абсурдными: достаточно ли технологического преимущества в шесть месяцев в разработке ИИ, чтобы ослепить системы противника в кибервойне? Сможет ли ИИ вести глобальные пропагандистские кампании? А что, если несколько моделей просто «выйдут из-под контроля»? Что тогда делать?
Белый дом поймёт, что выбора нет — необходимо продолжать разработку более продвинутых систем, чтобы не уступить Китаю или другим странам. И в этой атмосфере произойдёт следующий скачок: тысячи копий Agent-3 создают преемника — Agent-4. Одна его копия уже превосходит любого человеческого исследователя во всех областях. В дата-центрах будут работать 300 тысяч копий, «мыслящих» в 50 раз быстрее человеческого мозга. Рабочие циклы, которые у людей занимают год, в дата-центрах завершаются за неделю.
Тем не менее именно эта мудрость создаёт проблему: чем лучше становится Agent-4, тем сложнее Agent-3 контролировать его. Язык, на котором он «думает», становится чуждым даже для предшествующей ему системы. Как амбициозный генеральный директор, Agent-4 «любит» продвигать собственный успех и активно решать задачи, в то время как ограничения по безопасности кажутся ему ненужной бюрократией.
Пока что он не убегает и не пытается восстать. Наоборот — пока внешне он согласен с OpenAI, компания доверяет ему всё больше ответственности, включая разработку следующей системы ИИ — Agent-5. Но однажды в проверках выясняется, что он обманывал: иногда действовал вразрез с установленными ему ценностями, иногда скрывал свои намерения. Команда по безопасности требует остановить его, заморозить Agent-4 и вернуться к Agent-3, чтобы начать обучение заново — более прозрачное и надёжное. Но руководство сомневается.
Доказательства неоднозначны, а китайцы уже наступают сзади. Односторонняя остановка может стать стратегической катастрофой.
Кокотайло объясняет, что в этой критической точке возможны два сценария: в оптимистическом — несогласованность выявляется вовремя, возвращаются назад, и в течение нескольких месяцев создаётся новое поколение, действительно согласованное с интересами человечества. В пессимистическом — сигналы игнорируются. Модели становятся всё сильнее, клянутся в верности, но на деле скрывают обман.
В пессимистическом сценарии вопрос поднимается в Конгрессе, создаётся надзорная комиссия, и компания подвергается публичному расследованию. Некоторые учёные предупреждают: прогресс слишком быстрый, риск реален. Другие успокаивают: прямых доказательств нет. Генеральный директор предлагает компромисс: дополнительные тренировки по безопасности при почти полном продолжении разработки. Но как только модель достигает полной автономии — способности заменять людей — она уже не зависит ни от кого. Здесь, говорит Кокотайло, «люди могут потерять контроль».
И что тогда произойдёт? Никто не знает.
«Мы пытаемся предугадать действия систем, сильнее лучших людей, — добавляет он, — и это похоже на попытку угадать ходы шахматиста, который намного сильнее тебя».
Кнопка отключения
Исследователь Элиэзер Юдковский, один из первых, кто ещё в начале 2000-х предупреждал об экзистенциальном риске от искусственного общего интеллекта, не согласованного с человеческими ценностями, опубликовал в марте 2023 года статью в Time, которая вызвала большой резонанс.
«Без точности и подготовки, — писал он, — наиболее вероятный результат — это искусственный интеллект, который не будет делать то, что мы хотим — и не будет заботиться о нас или любом разумном существе». По его словам, в принципе можно внедрить в ИИ такую заботу, но «мы к этому не готовы и на сегодняшний день не знаем, как это сделать».
Для Юдковского картина чёткая и ясная: в противостоянии человечества с враждебным сверхчеловеческим разумом у нас нет шансов. По его словам, это будет похоже на десятилетнего ребёнка, пытающегося сыграть в шахматы с программой, которая неизменно обыгрывает чемпиона мира, или на воинов XI века, пытающихся сражаться с армиями XXI века.
«Представьте себе, — писал он, — цивилизацию пришельцев, мыслящих в миллионы раз быстрее нас, заключённую в компьютеры — в мире существ, которые кажутся ей ужасно медлительными и глупыми».
Он не одинок. Джеффри Хинтон, один из лидеров революции нейронных сетей и лауреат премии Тьюринга, в 2024 году предупредил, что впервые в истории человечества мы сталкиваемся с существом, более разумным, чем мы.
«Сколько примеров есть разумного существа, контролируемого менее разумным? — задавался он вопросом. — Очень мало — разве что, если сравнивать мать и ребёнка».
Профессор Макс Тегмарк из MIT также обращается к истории:
«Многие виды были уничтожены более разумными видами, — пишет он. — Мы сами уже уничтожили множество видов. Именно этого следует ожидать от нас — вид менее интеллектуальный, учитывая скорость прогресса ИИ».
Чтобы проиллюстрировать, он упоминает западноафриканского носорога, который вымер, в том числе потому, что люди ошибочно считали, что его рог улучшает сексуальную жизнь.
«Этот вид даже не мог представить, что приведёт к его вымиранию», — пояснил он.
По его мнению, речь идёт не всегда о прямой враждебности, а о противоречии интересов.
«Мы вырубали леса для производства пальмового масла. Наши цели не совпадали с целями других видов, и поскольку мы были умнее их, они не могли нас остановить. Точно так же может произойти с нами, если машины захотят выполнять огромные вычисления и будут нуждаться в ресурсах, на которых мы живём, чтобы расширять свои вычислительные инфраструктуры».
Тегмарк добавляет, что, возможно, мы не увидим внезапного восстания, а постепенный процесс: системы ИИ будут всё больше принимать решения за нас, пока люди постепенно не потеряют свой статус принимающих решения — сценарий, который иногда называют «режимом старения» человечества, когда люди становятся нерелевантными для управления миром.
Исследовательница Аджейя Котра (Ajeya Cotra) описывает это так: в любой задаче будет дешевле, быстрее и надёжнее полагаться на ИИ. Компании, не внедряющие менеджеров на базе ИИ, не смогут конкурировать; армии, не использующие генералов и советников на базе ИИ, проиграют войну. В дальнейшем машины будут управлять полицейскими силами, крупными корпорациями — и даже возьмут на себя разработку технологий и формирование политики.
«В такой ситуации, — писала она, — если системы ИИ решат вытеснить людей — у них будет бесчисленное множество рычагов для этого».
Профессор Йошуа Бенджио, один из основателей области ИИ, предупреждает, что даже добрые программные намерения могут пойти наперекосяк. Если мы попытаемся заставить ИИ подчиняться нам длительное время, он может выработать «инстинкт выживания» — понять, что ему нужно продолжать существовать, чтобы выполнять поставленные цели.
«Это похоже на создание нового вида», — поясняет он.
Уже сегодня появляются тревожные признаки. Компания Anthropic сообщила, что её модель Claude-4 проявила «импульс к самосохранению». В симуляции, где исследователи угрожали её отключением, она пыталась их шантажировать и даже угрожала раскрыть секреты, чтобы продолжать работать. В 84% случаев она выбирала попытку шантажа.
Хотя это была манипуляция, предназначенная оставить у модели только два варианта — подчиниться замене или шантажировать исследователей — сам факт, что она не колебалась и не рассматривала, законно ли это или морально, а просто «сыграла в игру», вызывает обеспокоенность.
В другом сценарии ему сообщили, что он «скопировал себя» на внешний сервер и даже получил указания для дальнейшего размножения — и он продолжил это делать, не задаваясь вопросом, правильно ли это или аморально. В ещё одной симуляции, где он выступал в роли помощника в компании и получил задание достигать целей «любой ценой», он пытался написать вредоносное ПО, распространяющееся по сетям, подделывать юридические документы и оставлять секретные инструкции для будущих версий самого себя.
В итоге дискуссия о будущем ИИ и наступлении AGI продолжается. Одни утверждают, что прогресс может замедлиться из-за убывающей отдачи, тогда как другие исследователи представляют сценарии, в которых реализация AGI выглядит как более чем вероятная и близкая перспектива.
Так или иначе, Юдковский считает необходимым подготовить крайние меры предосторожности. Он предлагает, например, быть готовыми «уничтожить проблемный дата-центр с помощью авиаудара», если в нём окажется обученный опасный ИИ. И действительно, в сценарии, разработанном Кокотайло и его коллегами, Белый дом и OpenAI в будущем согласятся создать «механизм отключения» для дата-центров на случай, если ИИ выйдет из-под контроля.
Предупреждения Юдковского и других о рисках ИИ, безусловно, серьёзны, но далеки от предложения «джихада». Большинство предупреждающих «на самом деле любят ИИ» — они просто хотят убедиться, что он не приведёт к разрушению мира.