<img src="https://habrastorage.org/getpro/habr/upload_files/740/b71/f8d/740b71f8d1a713aac9bdaeac835d52ab.jpg" /><p>Две недели. Именно столько понадобилось, чтобы гонка ИИ-гигантов превратилась в полноценную войну миров.</p><p><strong>5 февраля Anthropic выпускает Claude Opus 4.6 –</strong> короля экспертных задач, который мгновенно захватывает вершины рейтингов качества и пользовательских симпатий. Ажиотаж, восторг, заголовки.</p><p><strong>Но 19 февраля Google берёт паузу... и выстреливает Gemini 3.1 Pro.</strong> Результат? +46 процентных пунктов в тесте ARC-AGI-2 (77,1% против 31,1% у предшественника), лидерство в 12 из 18 бенчмарков и ценник, от которого у конкурентов округляются глаза.</p><p>Gemini 3.1 Pro вдвое обходит предшественника в тестах на рассуждение, стоит <strong>в 6,5 раза дешевле</strong> флагмана конкурента и штампует 3D-симуляции птичьих стай по текстовому описанию. Claude Opus 4.6, который не гонится за скоростью, а размышляет вслух, взвешивает моральные дилеммы и остаётся любимцем людей в слепых тестах.</p><p>Как не запутаться в этом треугольнике и выбрать модель под свои задачи? И почему эксперты в финансах и юриспруденции отдают предпочтение Sonnet 4.6, оставляя “тяжеловесов” далеко позади? </p><p>Разобрали 18 бенчмарков, чтобы вы поняли, за какой моделью – ваше завтра. В этом материале мы свели все цифры, графики и пользовательские ощущения, чтобы у вас была полная картина февральской перезагрузки.<em> </em>Узнайте, какая модель сделает вашу работу лучше, быстрее и дешевле и <strong>кто победит в этой дуэли – цифровой гений-отличник или философ с душой.</strong></p> <a href="https://habr.com/ru/articles/1005724/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1005724#habracut">Читать далее</a>