GPT-5.5: OpenAI выкатили самую умную модель — и она уже работает за вас
Основной чат
Чат для вайбкодеров: новости, гайды, поиск исполнителей, маркетплейс и разбор реальных кейсов.
23 апреля 2026 года OpenAI показали GPT-5.5 — и это не просто очередной «плюс 2% на бенчмарках». По словам самой компании, это «новый класс интеллекта для настоящей работы», и судя по цифрам, это не маркетинговый слоган, а реальная смена поколений.
Модель уже раскатывают в ChatGPT и Codex для подписчиков Plus, Pro, Business и Enterprise. Вдобавок выходит GPT-5.5 Pro — более тяжёлая версия для Pro/Business/Enterprise, заточенная под самые сложные задачи. API обещают «очень скоро».
Что такое GPT-5.5 и почему о ней говорят
Ключевая идея GPT-5.5 — агентность. Вместо того чтобы вы ей объясняли каждый шаг, вы кидаете модели грязную, многосоставную задачу: «почини этот баг», «проанализируй 6 месяцев данных», «сделай приложение по скрину», — и она сама:
- планирует решение,
- пользуется tool-use (вызывает инструменты, браузер, терминал),
- проверяет собственный вывод,
- разбирается с неоднозначностями,
- и не сдаётся, пока задача не закрыта.
Особенно сильный скачок OpenAI получили в четырёх областях:
- Agentic coding — написание и отладка кода в рамках длинных задач.
- Computer use — модель реально «видит экран», кликает, печатает, переключается между окнами.
- Knowledge work — документы, таблицы, презентации, ресёрч.
- Scientific research — научные задачи в биологии, математике, bioinformatics.
При этом, что особенно приятно: скорость осталась на уровне GPT-5.4 (latency per token), несмотря на то что модель заметно умнее. И токенов на ту же задачу в Codex она тратит меньше, а не больше.
Бенчмарки: цифры, которые реально впечатляют
OpenAI выложили сравнение с GPT-5.4, GPT-5.5 Pro, Claude Opus 4.7 и Gemini 3.1 Pro. Вот ключевые метрики:
| Бенчмарк | GPT-5.5 | GPT-5.4 | GPT-5.5 Pro | GPT-5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 75.1% | — | — | 69.4% | 68.5% |
| Expert-SWE (internal) | 73.1% | 68.5% | — | — | — | — |
| SWE-Bench Pro | 58.6% | 57.7% | — | — | 64.3%* | 54.2% |
| GDPval (wins or ties) | 84.9% | 83.0% | 82.3% | 82.0% | 80.3% | 67.3% |
| OSWorld-Verified | 78.7% | 75.0% | — | — | 78.0% | — |
| BrowseComp | 84.4% | 82.7% | 90.1% | 89.3% | 79.3% | 85.9% |
| Toolathlon | 55.6% | 54.6% | — | — | — | 48.8% |
| Tau2-bench Telecom | 98.0% | 92.8% | — | — | — | — |
| FrontierMath Tier 1–3 | 51.7% | 47.6% | 52.4% | 50.0% | 43.8% | 36.9% |
| FrontierMath Tier 4 | 35.4% | 27.1% | 39.6% | 38.0% | 22.9% | 16.7% |
| CyberGym | 81.8% | 79.0% | — | — | 73.1% | — |
| BixBench | 80.5% | 74.0% | — | — | — | — |
| GeneBench | 25.0% | 19.0% | 33.2% | 25.6% | — | — |
* Anthropic сами сообщили о признаках memorization на части задач SWE-Bench Pro.
Особенно показательны Terminal-Bench 2.0 (+7.6 п.п. относительно GPT-5.4), FrontierMath Tier 4 (+8.3 п.п.) и Tau2-bench Telecom — 98% без prompt tuning, то есть модель понимает задачу «с первого слова».
Agentic coding: главная фишка релиза
Это та часть, где GPT-5.5 реально отрывается от всех. Модель держит контекст больших систем, рассуждает про неоднозначные баги, сама проверяет гипотезы инструментами и аккуратно протаскивает изменения через весь кодбейс.
Несколько показательных отзывов из ранних тестеров:
- Dan Shipper (Every): «Первая coding-модель, у которой есть настоящая концептуальная ясность». У него был реальный пост-лонч баг, который несколько дней разбирал один из лучших инженеров и в итоге переписал часть системы. GPT-5.4 такое не тянул. GPT-5.5 — выдал тот же самый рефакторинг, до которого дошёл инженер.
- Pietro Schirano (MagicPath): GPT-5.5 смержила ветку с сотнями фронтенд- и рефакторинг-изменений в main (который тоже сильно изменился) за один присест за ~20 минут.
- Инженер NVIDIA: «Потерять доступ к GPT-5.5 — как будто мне ампутировали конечность».
- Fabian Hedin (CTO Lovable): auth flow, real-time sync, мульти-файловые правки — всё стало попадать с первого раза, без бесконечных итераций.
В Codex модель реально тянет роль инженера: пишет код, рефакторит, дебажит, тестирует, валидирует — и предсказывает, что надо будет проверить/протестировать, без явных запросов от пользователя.
Knowledge work: модель, которая умеет пользоваться компьютером
Те же способности, что делают GPT-5.5 сильной в коде, делают её мощной и в повседневной работе за компом. Модель лучше понимает интент, поэтому проходит весь цикл knowledge work сама: найти → понять → сделать → проверить → выдать готовый артефакт.
В Codex она лучше GPT-5.4 в генерации документов, таблиц и презентаций. В связке с computer use это уже то самое ощущение, что «модель действительно пользуется компьютером вместе со мной»: видит экран, кликает, печатает, переключается между приложениями.
Что показательно — OpenAI уже использует это внутри компании:
- 85%+ сотрудников юзают Codex каждую неделю (инженерия, финансы, комьюникации, маркетинг, data science, продукт).
- Команда Comms за 6 месяцев данных по speaking-requests построила scoring-фреймворк и Slack-агента, который сам обрабатывает low-risk запросы.
- Финансы прогнали 24 771 форму K-1 (71 637 страниц) и ускорили работу на 2 недели по сравнению с прошлым годом.
- Сотрудник Go-to-Market автоматизировал еженедельные бизнес-отчёты — экономия 5–10 часов в неделю.
В ChatGPT доступны два режима: GPT-5.5 Thinking (для сложных задач, но быстро) и GPT-5.5 Pro (для совсем тяжёлой работы — юриспруденция, бизнес, data science, исследования).
Научные исследования: GPT-5.5 как co-scientist
Здесь тоже интересно. Модель не просто «отвечает на сложные вопросы», а держит весь research-цикл: гипотеза → данные → тест → интерпретация → следующий шаг.
Примеры:
- GeneBench (multi-stage научный анализ в генетике и количественной биологии): GPT-5.5 заметно обгоняет GPT-5.4. Задачи, которые у экспертов занимают многодневные проекты, модель решает сама.
- BixBench (реальная биоинформатика): лидерство среди моделей с опубликованными результатами.
- Ramsey numbers: внутренняя версия GPT-5.5 с кастомной обвязкой нашла новое доказательство асимптотического факта об off-diagonal числах Рамсея. Доказательство потом верифицировали в Lean. Это уже не «сгенерировать код» — это настоящий математический вклад.
- Derya Unutmaz (Jackson Laboratory): проанализировал датасет gene expression (62 сэмпла, ~28 000 генов) — получил детальный research-отчёт с ключевыми вопросами и инсайтами. «Работа, которая заняла бы у команды месяцы».
- Bartosz Naskręcki (математик): за 11 минут по одному промпту получил приложение по алгебраической геометрии с визуализацией пересечения квадратичных поверхностей и конвертацией в модель Вейерштрасса.
Эффективность инференса нового поколения
Чтобы GPT-5.5 работала на уровне латентности GPT-5.4, OpenAI переосмыслили инференс как единую систему, а не набор изолированных оптимизаций.
Модель ко-дизайнилась, тренировалась и сервится на NVIDIA GB200 и GB300 NVL72. И что особенно забавно — Codex и сама GPT-5.5 помогали писать инфраструктуру, которая её обслуживает. Один конкретный кейс: Codex проанализировал недели продового трафика и написал кастомные эвристики для партиционирования и балансировки нагрузки. Результат — +20% к скорости генерации токенов.
Цены и доступность
| Продукт | Доступно для | Цена API (за 1M токенов) |
|---|---|---|
| GPT-5.5 в ChatGPT | Plus, Pro, Business, Enterprise | — |
| GPT-5.5 Pro в ChatGPT | Pro, Business, Enterprise | — |
| GPT-5.5 в Codex | Plus, Pro, Business, Enterprise, Edu, Go | 400K контекст |
| gpt-5.5 API | Responses и Chat Completions (скоро) | $5 input / $30 output, 1M ctx |
| gpt-5.5-pro API | скоро | $30 input / $180 output |
Есть Fast-режим в Codex — токены генерятся в 1.5 раза быстрее за 2.5х цены. Для API есть Batch и Flex по половинной цене от стандартной, а Priority — 2.5х от стандарта.
Да, GPT-5.5 дороже GPT-5.4 за токен. Но она и умнее, и тратит меньше токенов на ту же задачу — в Codex разница часто компенсируется.
Безопасность: самый жёсткий набор safeguards у OpenAI на сегодня
OpenAI классифицировали биологические/химические и кибер-способности GPT-5.5 как High по их Preparedness Framework. До Critical cyber-уровня модель не дотянула, но рост относительно GPT-5.4 заметный.
Что они добавили:
- Более строгие классификаторы потенциально опасных кибер-запросов (пользователи могут поначалу считать их «занудными» — OpenAI обещают тюнить со временем).
- Отдельные protections против повторяющегося злоупотребления.
- Trusted Access for Cyber: верифицированные defenders (например, организации, защищающие критическую инфраструктуру) могут получить доступ к cyber-permissive моделям вроде GPT-5.4-Cyber с меньшими ограничениями.
- Работа с государственными партнёрами по защите критической инфраструктуры — энергосети, водоснабжение, налоговые данные.
Перед релизом модель прошла полный цикл evaluations, redteaming (внутренний и внешний), targeted-тесты по биологии и cyber, а также сбор фидбека от ~200 trusted early-access партнёров.
Итог: что это значит на практике
GPT-5.5 — это не «ещё одна ступенька». Это момент, когда agentic coding и computer use из демок превращаются в рабочий инструмент, которым можно делегировать реальные многочасовые задачи.
Ключевые takeaways:
- Agentic coding уровня state-of-the-art — Terminal-Bench 82.7%, Expert-SWE 73.1%, и реальные отзывы про «конечность ампутировали».
- Скорость не просела — GPT-5.5 работает на уровне GPT-5.4 по latency, но заметно умнее.
- Токен-эффективность выше — в Codex стоимость задачи часто ниже, чем на GPT-5.4.
- Настоящий computer use — OSWorld-Verified 78.7%, модель реально клацает по интерфейсам.
- Научный вклад — новое доказательство про числа Рамсея, BixBench, GeneBench — это уже co-scientist, а не игрушка.
- Цена адекватна возможностям — $5/$30 за M токенов для базовой версии, $30/$180 за Pro.
Если вы живёте в Codex или пишете агентов — скорее всего, вы это уже почувствовали. Если нет — самое время посмотреть, что GPT-5.5 может снять с вас из рутины.
Официальный анонс: openai.com/index/introducing-gpt-5-5