Alibaba выпустила конкурента DeepSeek-R1, уменьшив вычислительные затраты в 60 раз
В ноябре 2024 года Alibaba представила QwQ (Qwen-with-Questions) — открытую модель логических рассуждений, которая позиционировалась как конкурент o1-preview. Разработчики сделали упор на логику и планирование, что улучшило работу с математикой и кодом. Первая версия тоже имела 32 млрд параметров и поддерживала контекст до 32 000 токенов. В математических и научных тестах (AIME, MATH, GPQA) QwQ превзошла o1-preview, но уступала в программировании (LiveCodeBench). Последняя разработка Alibaba, QwQ-32B, развивает эти достижения за счет объединения обучения с подкреплением и структурированного самоанализа.
Длина контекста достигает 131 072 токенов, что позволяет лучше обрабатывать длинные последовательности входных данных.
QwQ-32B получила агентские функции, поэтому может гибко адаптировать логику рассуждений на основе внешней информации. Но пока эти возможности ограничены.
Обучение QwQ-32B состояло из двух этапов. Сначала модель оттачивали на математике и программировании: верификатор точности проверял решения задач, а сервер выполнения кода — корректность программ. Это гарантировало, что закреплялись только правильные ответы. Затем модель прошла этап улучшения общих навыков: с помощью вознаграждения её научили лучше следовать инструкциям, рассуждать и соответствовать человеческим ожиданиям, сохраняя при этом сильные стороны в математике и коде.
При сравнении с конкурентами DeepSeek-R1, o1-mini и DeepSeek-R1-Distilled-Qwen-32B модель Alibaba показала впечатляющие результаты при меньшем количестве параметров. Например, DeepSeek-R1 использует 671 млрд параметров (с активацией 37 млрд), а QwQ-32B демонстрирует схожую производительность, требуя всего 24 ГБ видеопамяти на GPU (у Nvidia H100 — 80 ГБ). Для сравнения, полная версия DeepSeek-R1 «съедает» более 1500 ГБ (16 процессоров Nvidia A100). Это иллюстрирует эффективность подхода, основанного на обучении с подкреплением.
Модель выдаёт точные, структурированные и контекстно-зависимые результаты и может автоматизировать анализ данных, стратегическое планирование, разработку ПО и интеллектуальную автоматизацию. Как заявляют в компании, "это мощный инструмент для руководителей, ИТ-лидеров и разработчиков".
QwQ-32B доступна с открытыми весами на Hugging Face и ModelScope под лицензией Apache 2.0, что позволяет использовать её как в коммерческих, так и в исследовательских целях. Компании могут сразу интегрировать модель в свои продукты, включая платные приложения. На выпуск QwQ-32B хорошо отреагировали в сообществе ИИ. Эксперты, включая представителей Hugging Face и Hyperbolic Labs, отметили ее высокую скорость вывода, производительность, сравнимую с более крупными моделями, и простоту развертывания.