Появилась библиотека AirLLM, которая помогает запускать очень крупные языковые модели (вплоть до 405B) на слабом железе — даже на видеокарте с 4 ГБ VRAM или вообще без GPU, только на CPU.
Ключевая идея — оптимизация хранения и подгрузки параметров модели, за счёт чего снижаются требования к памяти и ресурсам без заметной потери возможностей. Есть интеграция с моделями из Hugging Face и совместимость с популярными типами LLM, включая OCR-модели, чат-ботов и генераторы изображений.
Ключевая идея — оптимизация хранения и подгрузки параметров модели, за счёт чего снижаются требования к памяти и ресурсам без заметной потери возможностей. Есть интеграция с моделями из Hugging Face и совместимость с популярными типами LLM, включая OCR-модели, чат-ботов и генераторы изображений.
