В публикации на блоге vLLM описан новый режим работы - Sleep Mode - который позволяет резко ускорить переключение между языковыми моделями. Традиционные методы требуют либо держать обе модели загруженными (что удваивает нагрузку на GPU), либо перезагружать их по очереди с паузой в 30–100 секунд. Sleep Mode предлагает третий вариант: модели «усыпляют» и «просыпают» за считанные секунды, сохраняя уже инициализированное состояние.
Доступны два уровня сна: уровень 1 - веса сбрасываются на RAM, быстрый подъём, но требуется много оперативной памяти; уровень 2 - веса выгружаются полностью, минимальное использование RAM, подъём чуть медленнее. Оба уровня дали прирост производительности: переключения моделей стали от 18 до 200 раз быстрее, а время инференса после пробуждения - на 61–88 % выше, поскольку сохраняется память процессов, CUDA-графы и JIT-компиляция.
Sleep Mode идеально подходит для сценариев с частым использованием разных моделей и делает практичным мульти-модельное обслуживание даже на GPU среднего уровня - от A4000 до A100.
Блог: https://blog.vllm.ai/2025/10/26/sleep-mode.html
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤15👍7🔥3🥰3