Искусственный интеллект23 апр. 2026 г.

GPT-5 vs Claude — сравнение флагманских ИИ-моделей 2026 года

Подробное сравнение GPT-5 и Claude в 2026 году. Бенчмарки, цены, сильные и слабые стороны, реальные тесты. Что выбрать для кода, аналитики, текстов и агентных задач.

Когда в августе 2025 года OpenAI выпустил GPT-5, казалось, что вопрос закрыт: самый ожидаемый релиз в истории ИИ, «значительный шаг к AGI» по словам Сэма Альтмана, абсолютные рекорды на ключевых бенчмарках. Но к апрелю 2026-го картина значительно сложнее.

Anthropic за это же время выпустил Claude Opus 4.5, 4.6 и 4.7 — и по ряду важных метрик занял первое место. OpenAI ответил серией обновлений: GPT-5.2, 5.3, 5.4. Гонка идёт буквально поквартально, и разрыв между лидерами измеряется уже не порядками, а процентными пунктами.

Это руководство — не пересказ пресс-релизов. Здесь собраны актуальные данные бенчмарков, независимые тесты и честные выводы о том, когда какая модель реально лучше.

Контекст — как мы оказались там, где мы есть

Чтобы понять нынешнее противостояние, нужно знать путь обеих компаний.

OpenAI шёл к GPT-5 через промежуточные модели: GPT-4o, затем GPT-4.5 (кодовое имя «Orion», февраль 2025), который был убран уже в июле того же года. GPT-5, вышедший 7 августа 2025-го, стал первой унифицированной системой: встроенный роутер автоматически переключается между быстрым режимом для простых запросов и режимом «thinking» для сложных — больше не нужно вручную выбирать между GPT-4o и o3.

GPT-5 — это единая система с умной, эффективной моделью для большинства вопросов и более глубокой рассуждающей моделью для сложных задач; роутер в реальном времени выбирает, какую использовать, исходя из типа разговора и сложности.

Anthropic двигался параллельно, делая ставку не на разовый «большой релиз», а на итеративное улучшение линейки. Claude 4 (май 2025) — с акцентом на код и агентные задачи. Затем Claude 4.5 (ноябрь 2025), 4.6 (начало 2026) и Claude Opus 4.7, вышедший 16 апреля 2026 — буквально за несколько дней до написания этой статьи.

Claude Opus 4.7 — это более интеллектуальный и эффективный Opus 4.6: Opus 4.7 с низкими усилиями примерно эквивалентен Opus 4.6 со средними. На 93-задачном бенчмарке по коду Opus 4.7 улучшил показатели на 13% по сравнению с Opus 4.6, включая четыре задачи, которые ни Opus 4.6, ни Sonnet 4.6 не смогли решить.

Актуальные версии — что именно сравниваем

Важно понимать, о каких конкретно моделях идёт речь, потому что «GPT-5» и «Claude» — это семейства, а не единственные модели.

Со стороны OpenAI

GPT-5 (август 2025) ввёл парадигму «встроенного мышления» и единую систему; GPT-5.2 (декабрь 2025) углубился в профессиональные задачи и агентные вызовы инструментов; GPT-5.3 Instant (март 2026) нацелился на повседневный разговорный стиль; GPT-5.4 (5 марта 2026) объединил всё это в одну модель.

Актуальная флагманская модель OpenAI — GPT-5.4, вышедшая 5 марта 2026 года. Именно её мы сравниваем с Claude.

Варианты GPT-5: gpt-5, gpt-5-mini, gpt-5-nano — для разных задач и бюджетов.

Со стороны Anthropic

Актуальная флагманская модель — Claude Opus 4.7, вышедшая 16 апреля 2026 года.

Семейство Claude 4.x включает несколько уровней:

Claude Opus 4.7 — флагман для сложных задач и агентной работы
Claude Sonnet 4.6 — баланс качества и скорости, рекомендован большинству разработчиков
Claude Haiku 4.5 — быстрый и дешёвый для простых задач

Бенчмарки — цифры без маркетинга

Прежде чем смотреть на цифры, важная оговорка: большинство бенчмарков публикуют сами компании. Независимые проверки часто дают другие результаты. Числа ниже — ориентир, не приговор.

Математика (AIME 2025)

AIME — олимпиадные задачи по математике, стандарт для измерения рассуждений.

GPT-5 набрал 94.6% на AIME 2025 без инструментов.

GPT 5.2 достигает 100% на AIME 2025 без инструментов, тогда как Claude Opus 4.5 — около 92.8%.

Вывод по математике: GPT-5.x держит лидерство на математических олимпиадных задачах.

Программирование (SWE-bench Verified)

SWE-bench тестирует на реальных GitHub-задачах из продакшн-репозиториев — наиболее практичный бенчмарк для разработчиков.

Обновлённые результаты SWE-bench Verified подтвердили то, о чём многие разработчики подозревали: Claude Opus 4.6 лидирует над GPT-5.4, набрав 80.8% против примерно 80% у GPT-5.4.

Claude Opus 4.7 набрал 64.3% на SWE-bench Pro и SWE-bench Verified, вернув себе первое место среди публично доступных моделей.

Вывод по коду (SWE-bench): Claude Opus 4.7 — текущий лидер по реальным задачам программирования.

Научные рассуждения (GPQA Diamond)

GPQA Diamond — вопросы уровня PhD по физике, химии и биологии.

Claude Opus 4.6 набирает 91.3% на GPQA Diamond, что является значительным достижением. Это позиционирует Claude как лидера в академических и научных задачах.

Claude Opus 4.6 опережает GPT-5.4 по GPQA Diamond с заметным преимуществом в 3.5 пункта. Этот бенчмарк тестирует научные рассуждения уровня аспирантуры.

Вывод по научным рассуждениям: Преимущество у Claude.

Абстрактные рассуждения (ARC-AGI-2)

Один из самых сложных тестов на общий интеллект.

GPT 5.2 набирает ~52.9–54.2% на ARC-AGI-2 против ~37.6% у Claude Opus 4.5. Эти метрики указывают на более высокую способность GPT к сложным рассуждениям.

Вывод по ARC-AGI-2: Заметное преимущество у GPT-5.

Сводная таблица ключевых бенчмарков

Бенчмарк	GPT-5.4	Claude Opus 4.7	Лидер
AIME 2025 (математика)	~100% (GPT-5.2)	~92.8%	GPT-5
SWE-bench Verified (код)	~80%	64.3% (Pro) / 80.8%+	Claude
GPQA Diamond (наука)	~83.9%	91.3%	Claude
ARC-AGI-2 (абстракция)	~54%	~38%	GPT-5
HumanEval (код)	93.1%	90.4%	GPT-5
Chatbot Arena (пользователи)	—	Лидер ELO	Claude

Нет модели, которая побеждает везде. Преимущество зависит от класса задач.

Написание кода — в чём реальная разница

Для разработчиков это самый важный раздел.

Автодополнение и небольшие задачи

На стандартных бенчмарках типа HumanEval GPT-5.4 немного обходит Claude: 93.1% против 90.4%. Разница существенная на простых изолированных функциях.

Реальные задачи в большой кодовой базе

Здесь картина меняется. Там, где Opus по-настоящему отличается — это в крупных задачах рефакторинга, охватывающих несколько файлов и модулей. Разработчики стабильно сообщают, что Opus справляется с зависимостями между файлами, изменениями системы типов и архитектурными рефакторами с меньшим числом ошибок.

Claude достигает около 95% функциональной точности кода по сравнению с примерно 85% у ChatGPT. Разрыв в 10 процентных пунктов означает, что примерно каждые два из десяти ответов ChatGPT требуют ручной правки там, где Claude справляется сразу.

Агентная разработка

Opus 4.7 использует меньше вызовов инструментов и рассуждает заранее. Notion сообщил, что Opus 4.7 стал первой моделью, прошедшей их тесты на неявные потребности и производящей в три раза меньше ошибок с инструментами, чем 4.6. На MCP-Atlas Opus 4.7 лидирует 77.3% против 68.1% у GPT-5.4.

Итог по коду

GPT-5.4 — лучший выбор для изолированных задач, быстрых прототипов, работы с большим количеством языков и когда важна стоимость. Claude Opus 4.7 — лучший выбор для архитектурного рефакторинга, многофайловых изменений, долгих агентных сессий и работы с реальными продакшн-репозиториями.

Многие разработчики используют оба: GPT-5.4 для прототипирования и быстрых задач, а Claude Opus 4.6 — для глубокого рефакторинга нескольких файлов, анализа большой кодовой базы и оркестрированных агентных рабочих процессов.

Работа с текстом и письмо

Здесь мнения наиболее субъективны, но паттерны прослеживаются чётко.

Стиль и тон

Некоторые пользователи предпочитали более тёплый и личный тон GPT-4o по сравнению с GPT-5, который они описывали как «плоский», «нетворческий», напоминающий «перегруженного секретаря». OpenAI отреагировал обновлением 15 августа 2025 года, добавив «тепло» в ответы.

Claude традиционно воспринимается как более «человечная» в текстах модель. Согласно независимым тестам MindStudio, Claude Opus 4.6 опережает GPT-5.4 по качеству креативного письма, тогда как GPT-5.4 лидирует по сырым кодовым бенчмаркам и скорости генерации.

Следование инструкциям

GPT-5.4 иногда «дрейфует»: GPT-5.4 иногда игнорировал ограничения или переинтерпретировал инструкции способами, не соответствующими исходному намерению. Для профессиональных пользователей, которым нужен надёжный точный вывод из детальных промптов, эта разница существенна.

SEO и маркетинговые тексты

GPT-5.4 лучше справляется с шаблонными форматами: описания продуктов, рекламные объявления, email-темы. Claude дает более «живые» тексты, которые реже требуют редакции.

Длинные документы

Здесь Claude выигрывает структурно: контекстное окно 200K токенов (против 128K у стандартного GPT-5.4) позволяет загружать более длинные материалы. При работе с книгами, большими кодовыми базами или юридическими архивами это принципиально.

Математика и сложные рассуждения

GPT-5 держит лидерство на чисто математических задачах: GPT-5 устанавливает новый уровень по математике (94.6% на AIME 2025 без инструментов), реальному коду (74.9% на SWE-bench Verified), мультимодальному пониманию (84.2% на MMMU) и здоровью (46.2% на HealthBench Hard).

Для задач, где нужно решить олимпиадную задачу или провести многошаговые математические рассуждения, GPT-5 на данный момент сильнее.

Однако для рассуждений в контексте научных знаний — медицина, право, физика, химия — Claude Opus лидирует по GPQA Diamond, что отражает более глубокое усвоение экспертных знаний, а не просто вычислительные способности.

Агентные задачи и автономная работа

В 2026 году «агентность» — способность самостоятельно выполнять многошаговые задачи — стала ключевым измерением.

Компьютерное управление (Computer Use)

Выдающаяся функция GPT-5.4 здесь — нативное управление компьютером. OpenAI называет его первой моделью общего назначения с нативными, передовыми возможностями computer use.

Claude тоже поддерживает computer use, но GPT-5.4 имеет более сильные официальные данные на браузерных задачах.

Долгосрочные инженерные сессии

Claude Opus 4.5 достигает стабильной производительности в течение 30-минутных автономных сессий кодирования. Opus 4.5 представляет прорыв в самосовершенствующихся агентах ИИ.

Opus 4.7 развивает эту способность дальше: пользователи сообщают, что могут «сдать» сложную задачу — ту, которая раньше требовала постоянного контроля — и получить результат без вмешательства.

Оркестрация нескольких агентов

Claude уникален в этой области: Agent Teams позволяет запускать несколько экземпляров Opus параллельно, которые координируют работу через общие списки задач. GPT-5.4 на этот момент не предлагает сопоставимой многоагентной оркестрации из коробки.

Вывод по агентным задачам

Общая картина делится по среде: Opus 4.7 побеждает на рабочем столе, при использовании инструментов и в работе со знаниями; GPT-5.4 побеждает в браузерных исследованиях.

Длинный контекст и работа с документами

Модель	Контекстное окно	Примечание
GPT-5.4	1 050 000 токенов	API, Pro-вариант
GPT-5.4 стандарт	128 000 токенов	Обычные пользователи
Claude Opus 4.7	200 000 токенов	Стандарт
Claude Opus 4.7	1 000 000 токенов	Beta через специальный заголовок

На бумаге GPT-5.4 Pro предоставляет больший контекст. На практике Claude лучше использует длинный контекст: меньше «теряет» детали из начала документа, точнее суммаризирует и извлекает структурированные данные.

Для работы с большими документами — юридические договоры, технические спецификации, научные статьи — Claude Opus стабильно получает более высокие оценки в независимых тестах.

Цены и доступность

GPT-5 / ChatGPT

Тариф	Цена	Доступ
ChatGPT Free	Бесплатно	GPT-5 с лимитами
ChatGPT Plus	$20/мес	Повышенные лимиты
ChatGPT Pro	$200/мес	Безлимитный GPT-5 Pro
API `gpt-5`	$2.50 / $15 за 1М токенов	Вход / выход
API `gpt-5-mini`	Значительно дешевле	Облегчённая версия

Claude

Тариф	Цена	Доступ
Claude Free	Бесплатно	Claude Sonnet с лимитами
Claude Pro	$20/мес	Opus + Sonnet, повышенные лимиты
Claude Max	$100–200/мес	Расширенные лимиты
API Opus 4.7	$5 / $25 за 1М токенов	Вход / выход
API Sonnet 4.6	$3 / $15 за 1М токенов	Вход / выход

Реальная стоимость использования

При ежедневной обработке 1М входных и 200К выходных токенов: GPT-5.4 обходится примерно в $5.50/день ($165/мес), Claude Opus 4.6 — примерно в $10/день ($300/мес).

GPT-5.4 примерно в два раза дешевле по API, чем Claude Opus. Если стоимость критична — это существенный аргумент. Разработчики, которым нужен баланс, часто выбирают Claude Sonnet 4.6 ($3/$15 за 1М токенов) — он почти не уступает Opus на большинстве повседневных задач при значительно меньшей цене.

Безопасность и философия компаний

Разница в подходах к безопасности — не просто маркетинг, она реально влияет на поведение моделей.

Подход OpenAI

GPT-5 обучен давать безопасные, высокоуровневые ответы на потенциально вредоносные запросы, а не отказываться от них сразу — подход, который OpenAI называет «safe completions». Цель — чтобы GPT-5 мог отклонять больше небезопасных вопросов, предлагая при этом меньше отказов пользователям, ищущим безвредную информацию.

GPT-5 более «гибкий» — реже отказывает там, где отказ был бы избыточным, но и более склонен к галлюцинациям на фактических вопросах.

Подход Anthropic

Anthropic строит свои модели на принципах Constitutional AI: модель обучается следовать набору принципов, а не только подкреплению от людей. Claude известен тем, что чаще признаёт неопределённость и реже выдаёт уверенные, но ошибочные ответы.

Ответы GPT-5 с включённым веб-поиском примерно на 45% реже содержат фактические ошибки по сравнению с GPT-4o; в режиме мышления GPT-5 примерно на 80% реже содержит фактические ошибки, чем OpenAI o3.

Обе компании существенно улучшили достоверность ответов. Для критических задач — медицинских, юридических, финансовых — по-прежнему рекомендуется верификация через первичные источники.

Итоговая матрица — что выбрать под задачу

Задача	Рекомендация	Почему
Сложная математика / олимпиадные задачи	GPT-5	Лидер AIME, ARC-AGI-2
Написание и рефакторинг кода в большой кодовой базе	Claude Opus 4.7	Лучший SWE-bench, меньше ошибок в многофайловых задачах
Быстрое прототипирование, простые функции	GPT-5	Дешевле, хороший HumanEval
Научные и академические рассуждения	Claude	Лидер GPQA Diamond
Длинные документы и суммаризация	Claude	Лучшее использование контекста
Агентные задачи с инструментами	Claude Opus 4.7	MCP-Atlas лидерство, Agent Teams
Computer use / браузерная автоматизация	GPT-5	Нативные возможности computer use
Маркетинговые тексты, шаблонные форматы	GPT-5	Быстрее, дешевле, форматы стандартны
Глубокая аналитика и исследования	Claude	Точнее следует инструкциям, меньше дрейфа
Бюджетные API-интеграции	GPT-5-mini или Claude Sonnet	Сопоставимое качество, в 5–10x дешевле флагманов
Работа с офисными документами (Excel, Slides)	GPT-5	Нативная интеграция Microsoft

Вывод

В 2026 году вопрос «GPT-5 или Claude?» не имеет единственно правильного ответа — и это хорошо.

GPT-5.4 — это «швейцарский нож» с максимальной универсальностью: математика, компьютерное управление, офисные интеграции, широкая экосистема Microsoft. Дешевле по API, доступнее в бесплатном тарифе.

Claude Opus 4.7 — это «скальпель» для задач, где важна глубина: сложный код, научный анализ, длинные документы, долгосрочные агентные задачи. Дороже, но стабильно лидирует на бенчмарках, которые ближе всего к реальной профессиональной работе.

GPT-5.4 — лучший универсальный профессиональный инструмент по текущим публичным данным, тогда как Claude Opus 4.6 — более острый специалист для архитектурного кода и агентной инженерии.

Практический совет: не выбирайте одну модель на всё. Используйте GPT-5 там, где нужна скорость, дешевизна и интеграции с Microsoft. Используйте Claude там, где нужна точность, глубина контекста и надёжность в сложных задачах. Большинство профессиональных пользователей в 2026 году работают именно так — с обоими инструментами.

Источники

Introducing GPT-5 — OpenAI — официальный анонс, бенчмарки, характеристики (август 2025)
GPT-5 — Wikipedia — хронология релизов и рецепция
Introducing Claude 4 — Anthropic — анонс Claude Opus 4 и Sonnet 4 (май 2025)
Introducing Claude Opus 4.5 — Anthropic — ноябрь 2025
Introducing Claude Opus 4.7 — Anthropic — апрель 2026, актуальный флагман
Claude Opus 4.7 vs GPT-5.4 — DataCamp — сравнение бенчмарков (апрель 2026)
ChatGPT vs Claude 2026 — Tech-Insider — независимое сравнение
GPT-5.4 vs Claude Opus 4.6 — MindStudio — тесты кода, письма, рассуждений
GPT-5.4 vs Claude Opus 4.6 — NxCode — фокус на кодировании
AI Model Benchmarks Apr 2026 — LM Council — независимые агрегированные бенчмарки
Anthropic Claude 4 Evolution — IntuitionLabs — контекст развития моделей

Статья написана в апреле 2026 года. Рынок ИИ обновляется ежемесячно — проверяйте актуальные данные на lmarena.ai и lmcouncil.ai.

Читать также

Искусственный интеллект