Nov 26, 2025
Днём и ночью тружусь аки пчёлка над обновлением GPT-переводчиков и другими (секретными ✨) проектами, но решил вынырнуть, чтобы прокомментировать ноябрьский урожай LLM-ок (вышедших, кстати, без медиа-цирка, сопровождавшего выход GPT-5).
Gemini 3.0 Pro — на сегодня лучшая модель для любых задач. Прекрасно удерживает фокус на инструкциях, переваривает огромный контекст, а вместе с моделью-спутником Nano Banana Pro уделывает вообще всё и во всех сценариях. Новые бомбические фичи гугловских приложений (Visual Layout в Gemini, анализ картинок, Deep Research и генерация слайдов в NotebookLM и др.) — вишенка на торте, прибитом декоративными гвоздиками к крышке гроба конкурентов.
Замена модели обычно требует адаптации промптов и подстройки стилистики запросов для получения оптимального результата. Здесь мне не пришлось менять ничего: подменил модель и сразу получил существенное улучшение результатов по сравнению с GPT-5.1, без каких-либо минусов и компромиссов. Gemini снова становится моей основной моделью, потеснив GPT-5, выполнявшую эту роль с августа.
OpenAI
GPT-5.1 и GPT-5.1 Codex в сравнении с GPT-5 стали лучше в кодинге, но хуже во всём остальном. В переводчиках упало качество, выросла частота галлюцинаций. Пришлось откатиться к старой GPT-5 Instant. В коде 5.1 хороша, но там я не ограничен моделями от OpenAI и перешёл на Gemini. Впрочем, у последней пока нет лёгкой версии Flash, так что для тривиальных изменений (например, анализа кода и внесения правок по заранее утверждённому плану) я всё ещё использую GPT-5 mini, а точнее, её файнтюн Raptor mini, бесплатно включённый в подписку Github Copilot Pro. Рекомендую именно его, если есть доступ.
Anthropic
Claude 4.5 Opus в синтетических тестах вышел на первые места практически во всём, но это не соответствует моим практическим наблюдениям. Вообще, всё меньше и меньше смысла смотреть на результаты тестов — модели задрачивают под их прохождение и изменение циферок не отражает улучшений в реальном применении. Модель неплохая, но во всех моих задачах — слабее Gemini Pro. Несколько раз я столкнулся с генерацией бессвязного бреда (возможно, временные шероховатости запуска).
В целом, с этим релизом снова появился хоть какой-то смысл пользоваться моделями Anthropic. Восторгов на счёт средней модели в линейке, Sonnet 4.5, я абсолютно не понял. Мне иногда кажется, что это просто газлайтинг. Ни за одной из флагманских моделей мне не приходилось столько исправлять, переделывать и откатывать. А лимиты на Opus и цены на неё в API до сих пор делали эту модель непрактичной в реальном применении.
С выходом Opus 4.5 Anthropic, кажется, пришли в чувство: лимиты значительно выросли, а цены на API снизились до уровня конкурентов. Теперь это вполне достойная альтернатива остальным топам (подчеркну: речь только про Opus; Sonnet я ни для чего важного использовать не стал бы).
NB: Claude Code — отдельная история. Это прекрасный инструмент, позволяющий выжать из модели максимум благодаря грамотному управлению контекстом. В области агентного кодинга Anthropic регулярно выступает пионером, добавляя функции, которые потом становятся стандартом индустрии и копируются всеми остальными разработчиками инструментов. Адекватные лимиты на Opus 4.5 наконец-то снова делают Claude Code очень привлекательным вариантом.
Опенсорс: Kimi
Заслуживают упоминания опенсорсные модели от Kimi: K2 Thinking и Linear 48B A3B. На сегодня это лучшие модели, которые можно запустить на собственном сервере или арендованной облачной виртуалке.
Любопытно, что K2 Thinking держится в топе различных рейтингов качества сгенерированной прозы, конкурируя с ведущими закрытыми моделями. То есть модель в теории может подойти, например, для текстовых RPG или в качестве ИИ-ассистента писателя, не доверяющего коммерческим поставщикам моделей (допустим, из опасения, что данные могут использоваться для тренинга новых моделей).
К сожалению, всё это упирается в общую проблему открытых моделей: очень маленькое практическое контекстное окно. Формально K2 Thinking поддерживает 256K токенов контекста, но качество генерации резко падает уже после 10K. Сгенерировать две страницы текста — без проблем. Сгенерировать целую главу не противореча другим пяти главам — совершенно нереально.
С этой точки зрения интересна ещё одна новая модель от Kimi — экспериментальная Linear 48B A3B. Она использует новый механизм внимания, значительно снижающий вычислительную сложность инференса и почти устраняющий (!) деградацию при увеличении контекста. Модель сама по себе «глупая» — на практике её можно использовать только для простых задач. Но думаю, этот механизм вскоре начнут применять в более умных моделях, и в течение нескольких месяцев есть шансы увидеть значительное улучшение опенсорсных моделей в работе с большими контекстами.
Navigation Popup