vibecode.wiki
RU EN
~/wiki / новости / gpt-5-5-agentic-ai-release

GPT-5.5: OpenAI выкатили самую умную модель — и она уже работает за вас

◷ 10 мин чтения 23.04.2026

Основной чат

Чат для вайбкодеров: новости, гайды, поиск исполнителей, маркетплейс и разбор реальных кейсов.

$ cd раздел/ $ join vibe dev

23 апреля 2026 года OpenAI показали GPT-5.5 — и это не просто очередной «плюс 2% на бенчмарках». По словам самой компании, это «новый класс интеллекта для настоящей работы», и судя по цифрам, это не маркетинговый слоган, а реальная смена поколений.

Модель уже раскатывают в ChatGPT и Codex для подписчиков Plus, Pro, Business и Enterprise. Вдобавок выходит GPT-5.5 Pro — более тяжёлая версия для Pro/Business/Enterprise, заточенная под самые сложные задачи. API обещают «очень скоро».

Что такое GPT-5.5 и почему о ней говорят

Ключевая идея GPT-5.5 — агентность. Вместо того чтобы вы ей объясняли каждый шаг, вы кидаете модели грязную, многосоставную задачу: «почини этот баг», «проанализируй 6 месяцев данных», «сделай приложение по скрину», — и она сама:

  • планирует решение,
  • пользуется tool-use (вызывает инструменты, браузер, терминал),
  • проверяет собственный вывод,
  • разбирается с неоднозначностями,
  • и не сдаётся, пока задача не закрыта.

Особенно сильный скачок OpenAI получили в четырёх областях:

  • Agentic coding — написание и отладка кода в рамках длинных задач.
  • Computer use — модель реально «видит экран», кликает, печатает, переключается между окнами.
  • Knowledge work — документы, таблицы, презентации, ресёрч.
  • Scientific research — научные задачи в биологии, математике, bioinformatics.

При этом, что особенно приятно: скорость осталась на уровне GPT-5.4 (latency per token), несмотря на то что модель заметно умнее. И токенов на ту же задачу в Codex она тратит меньше, а не больше.

Бенчмарки: цифры, которые реально впечатляют

OpenAI выложили сравнение с GPT-5.4, GPT-5.5 Pro, Claude Opus 4.7 и Gemini 3.1 Pro. Вот ключевые метрики:

Бенчмарк GPT-5.5 GPT-5.4 GPT-5.5 Pro GPT-5.4 Pro Claude Opus 4.7 Gemini 3.1 Pro
Terminal-Bench 2.0 82.7% 75.1% 69.4% 68.5%
Expert-SWE (internal) 73.1% 68.5%
SWE-Bench Pro 58.6% 57.7% 64.3%* 54.2%
GDPval (wins or ties) 84.9% 83.0% 82.3% 82.0% 80.3% 67.3%
OSWorld-Verified 78.7% 75.0% 78.0%
BrowseComp 84.4% 82.7% 90.1% 89.3% 79.3% 85.9%
Toolathlon 55.6% 54.6% 48.8%
Tau2-bench Telecom 98.0% 92.8%
FrontierMath Tier 1–3 51.7% 47.6% 52.4% 50.0% 43.8% 36.9%
FrontierMath Tier 4 35.4% 27.1% 39.6% 38.0% 22.9% 16.7%
CyberGym 81.8% 79.0% 73.1%
BixBench 80.5% 74.0%
GeneBench 25.0% 19.0% 33.2% 25.6%

* Anthropic сами сообщили о признаках memorization на части задач SWE-Bench Pro.

Особенно показательны Terminal-Bench 2.0 (+7.6 п.п. относительно GPT-5.4), FrontierMath Tier 4 (+8.3 п.п.) и Tau2-bench Telecom — 98% без prompt tuning, то есть модель понимает задачу «с первого слова».

Agentic coding: главная фишка релиза

Это та часть, где GPT-5.5 реально отрывается от всех. Модель держит контекст больших систем, рассуждает про неоднозначные баги, сама проверяет гипотезы инструментами и аккуратно протаскивает изменения через весь кодбейс.

Несколько показательных отзывов из ранних тестеров:

  • Dan Shipper (Every): «Первая coding-модель, у которой есть настоящая концептуальная ясность». У него был реальный пост-лонч баг, который несколько дней разбирал один из лучших инженеров и в итоге переписал часть системы. GPT-5.4 такое не тянул. GPT-5.5 — выдал тот же самый рефакторинг, до которого дошёл инженер.
  • Pietro Schirano (MagicPath): GPT-5.5 смержила ветку с сотнями фронтенд- и рефакторинг-изменений в main (который тоже сильно изменился) за один присест за ~20 минут.
  • Инженер NVIDIA: «Потерять доступ к GPT-5.5 — как будто мне ампутировали конечность».
  • Fabian Hedin (CTO Lovable): auth flow, real-time sync, мульти-файловые правки — всё стало попадать с первого раза, без бесконечных итераций.

В Codex модель реально тянет роль инженера: пишет код, рефакторит, дебажит, тестирует, валидирует — и предсказывает, что надо будет проверить/протестировать, без явных запросов от пользователя.

Knowledge work: модель, которая умеет пользоваться компьютером

Те же способности, что делают GPT-5.5 сильной в коде, делают её мощной и в повседневной работе за компом. Модель лучше понимает интент, поэтому проходит весь цикл knowledge work сама: найти → понять → сделать → проверить → выдать готовый артефакт.

В Codex она лучше GPT-5.4 в генерации документов, таблиц и презентаций. В связке с computer use это уже то самое ощущение, что «модель действительно пользуется компьютером вместе со мной»: видит экран, кликает, печатает, переключается между приложениями.

Что показательно — OpenAI уже использует это внутри компании:

  • 85%+ сотрудников юзают Codex каждую неделю (инженерия, финансы, комьюникации, маркетинг, data science, продукт).
  • Команда Comms за 6 месяцев данных по speaking-requests построила scoring-фреймворк и Slack-агента, который сам обрабатывает low-risk запросы.
  • Финансы прогнали 24 771 форму K-1 (71 637 страниц) и ускорили работу на 2 недели по сравнению с прошлым годом.
  • Сотрудник Go-to-Market автоматизировал еженедельные бизнес-отчёты — экономия 5–10 часов в неделю.

В ChatGPT доступны два режима: GPT-5.5 Thinking (для сложных задач, но быстро) и GPT-5.5 Pro (для совсем тяжёлой работы — юриспруденция, бизнес, data science, исследования).

Научные исследования: GPT-5.5 как co-scientist

Здесь тоже интересно. Модель не просто «отвечает на сложные вопросы», а держит весь research-цикл: гипотеза → данные → тест → интерпретация → следующий шаг.

Примеры:

  • GeneBench (multi-stage научный анализ в генетике и количественной биологии): GPT-5.5 заметно обгоняет GPT-5.4. Задачи, которые у экспертов занимают многодневные проекты, модель решает сама.
  • BixBench (реальная биоинформатика): лидерство среди моделей с опубликованными результатами.
  • Ramsey numbers: внутренняя версия GPT-5.5 с кастомной обвязкой нашла новое доказательство асимптотического факта об off-diagonal числах Рамсея. Доказательство потом верифицировали в Lean. Это уже не «сгенерировать код» — это настоящий математический вклад.
  • Derya Unutmaz (Jackson Laboratory): проанализировал датасет gene expression (62 сэмпла, ~28 000 генов) — получил детальный research-отчёт с ключевыми вопросами и инсайтами. «Работа, которая заняла бы у команды месяцы».
  • Bartosz Naskręcki (математик): за 11 минут по одному промпту получил приложение по алгебраической геометрии с визуализацией пересечения квадратичных поверхностей и конвертацией в модель Вейерштрасса.

Эффективность инференса нового поколения

Чтобы GPT-5.5 работала на уровне латентности GPT-5.4, OpenAI переосмыслили инференс как единую систему, а не набор изолированных оптимизаций.

Модель ко-дизайнилась, тренировалась и сервится на NVIDIA GB200 и GB300 NVL72. И что особенно забавно — Codex и сама GPT-5.5 помогали писать инфраструктуру, которая её обслуживает. Один конкретный кейс: Codex проанализировал недели продового трафика и написал кастомные эвристики для партиционирования и балансировки нагрузки. Результат — +20% к скорости генерации токенов.

Цены и доступность

Продукт Доступно для Цена API (за 1M токенов)
GPT-5.5 в ChatGPT Plus, Pro, Business, Enterprise
GPT-5.5 Pro в ChatGPT Pro, Business, Enterprise
GPT-5.5 в Codex Plus, Pro, Business, Enterprise, Edu, Go 400K контекст
gpt-5.5 API Responses и Chat Completions (скоро) $5 input / $30 output, 1M ctx
gpt-5.5-pro API скоро $30 input / $180 output

Есть Fast-режим в Codex — токены генерятся в 1.5 раза быстрее за 2.5х цены. Для API есть Batch и Flex по половинной цене от стандартной, а Priority — 2.5х от стандарта.

Да, GPT-5.5 дороже GPT-5.4 за токен. Но она и умнее, и тратит меньше токенов на ту же задачу — в Codex разница часто компенсируется.

Безопасность: самый жёсткий набор safeguards у OpenAI на сегодня

OpenAI классифицировали биологические/химические и кибер-способности GPT-5.5 как High по их Preparedness Framework. До Critical cyber-уровня модель не дотянула, но рост относительно GPT-5.4 заметный.

Что они добавили:

  • Более строгие классификаторы потенциально опасных кибер-запросов (пользователи могут поначалу считать их «занудными» — OpenAI обещают тюнить со временем).
  • Отдельные protections против повторяющегося злоупотребления.
  • Trusted Access for Cyber: верифицированные defenders (например, организации, защищающие критическую инфраструктуру) могут получить доступ к cyber-permissive моделям вроде GPT-5.4-Cyber с меньшими ограничениями.
  • Работа с государственными партнёрами по защите критической инфраструктуры — энергосети, водоснабжение, налоговые данные.

Перед релизом модель прошла полный цикл evaluations, redteaming (внутренний и внешний), targeted-тесты по биологии и cyber, а также сбор фидбека от ~200 trusted early-access партнёров.

Итог: что это значит на практике

GPT-5.5 — это не «ещё одна ступенька». Это момент, когда agentic coding и computer use из демок превращаются в рабочий инструмент, которым можно делегировать реальные многочасовые задачи.

Ключевые takeaways:

  1. Agentic coding уровня state-of-the-art — Terminal-Bench 82.7%, Expert-SWE 73.1%, и реальные отзывы про «конечность ампутировали».
  2. Скорость не просела — GPT-5.5 работает на уровне GPT-5.4 по latency, но заметно умнее.
  3. Токен-эффективность выше — в Codex стоимость задачи часто ниже, чем на GPT-5.4.
  4. Настоящий computer use — OSWorld-Verified 78.7%, модель реально клацает по интерфейсам.
  5. Научный вклад — новое доказательство про числа Рамсея, BixBench, GeneBench — это уже co-scientist, а не игрушка.
  6. Цена адекватна возможностям — $5/$30 за M токенов для базовой версии, $30/$180 за Pro.

Если вы живёте в Codex или пишете агентов — скорее всего, вы это уже почувствовали. Если нет — самое время посмотреть, что GPT-5.5 может снять с вас из рутины.

Официальный анонс: openai.com/index/introducing-gpt-5-5