Скрытая цена LLM: как KV-cache увеличивает стоимость инференса и как эту проблему решает Google TurboQuant

4 мая, 10:00 Habr.com

При инференсе LLM общее потребление памяти определяется не только размером самой модели, но и промежуточными данными, накапливаемыми в процессе ее работы. С ростом контекста объем этих данных растет почти линейно и может стать сопоставимым или даже превышать размер самой модели.

В основе этой проблемы лежит KV-cache. Пример: у LLaMA 2 7B веса занимают около 14 ГБ, но при контексте 8K токенов KV-cache весит уже примерно 4 ГБ. Всего при четырех параллельных запросах это около 16 ГБ.

Это и есть скрытая цена инференса, которая не так очевидна на первый взгляд.

Скрытая цена LLM: как KV-cache увеличивает стоимость инференса и как эту проблему решает Google TurboQuant

Google в новостях

PCMag: в Google DeepMind считают, что сверхсильный ИИ появится к 2030 году

Google признала провал гаджета спустя 13 лет

GSMArena: Samsung и Google представили ИИ-очки с камерой на Google I/O 2026

Бизнес

Астроном Назаров назвал солнечные вспышки главной причиной сгорания спутников Starlink

SpaceX успешно завершила тестовый полет самой большой ракеты мира

Борис Ротенберг-старший оценил игру «Краснодара» и «Спартака» в Суперфинале Кубка России

Культура

Акиньшина опубликовала первое фото с новорожденным сыном от Козловского

Бунтарь балета Сергей Полунин: как звезда Королевского театра променял славу на семью и жизнь в Израиле

Спорт

Теннисистка Макарова оценила шансы Даниила Медведева на «Ролан Гаррос»

Коламбус обыграл Атланту: Миранчук выступил в капитанском составе

Политика

Авианосцы США у берегов Кубы, русский корабль не смог зайти в порт: Кастро вынесли приговор

Иван Мезюхо: В эфире телеканала «Москва 24» прокомментировал сужение круга приближенных лиц Владимира Зеленского

Общество

Посол Джалали: Иран приветствует предложения России по ядерной сделке

Министр туризма Абхазии заявил о росте турпотока с мая 2025 года

Авторы

Коммерсантъ: введение платы за VPN-трафик в России отложили до сентября

Президент РФ утвердит состав попечительского совета "Сколково"

Новости тенниса