Большое новое обновление наших динамических квантов!
Мы рады представить наш метод количественного анализа Dynamic v2.0 — серьезное обновление наших предыдущих методов количественного анализа. Этот новый метод превосходит ведущие методы количественного анализа и устанавливает новые стандарты для 5-кратной дивергенции MMLU и KL.
Это означает, что теперь вы можете точно настроить квантованный LLM, сохраняя при этом максимально возможную точность! Вы можете запускать GGUF 2.0 на любом механизме вывода, таком как llama.cpp, Ollama, Open WebUI, LM Studio и т. д.
Подробный анализ наших показателей и оценок представлен ниже.




💡Что нового в Dynamic v2.0?
-
Измененный выбор слоев для GGUF+SafeTensor: Unsloth Dynamic 2.0 теперь квантует выбранные слои более разумно и комплексно. Вместо того, чтобы просто выборочно изменять слои, мы теперь динамически настраиваем тип квантования каждого возможного слоя, и комбинация будет разной для каждого слоя и модели.
-
Текущая выбранная и все будущие загрузки GGUF будут использовать Dynamic 2.0 и наш новый набор калибровочных данных. Набор данных содержит > 1,5 млн. жетон (в зависимости от модели) и включает высококачественные, тщательно отобранные и очищенные данные — для повышения производительности разговорного чата.
-
Раньше наше динамическое квантование (1,58-битный GGUF DeepSeq-R1) было эффективно только для архитектур MOE. Динамическое квантование 2.0 теперь работает на всех моделях (включая MOE и не MOE)..
-
Количество для конкретной модели: Каждая модель теперь использует индивидуальную схему квантования. Например, количественные слои в «Гемме 3» сильно отличаются от слоев в «Ламе 4».
-
Чтобы максимизировать эффективность, особенно на устройствах Apple Silicon и ARM, мы теперь также добавляем форматы Q4_NL, Q5.1, Q5.0, Q4.1 и Q4.0.
Чтобы обеспечить точный сравнительный анализ, мы создали систему внутренней оценки, соответствующую официально заявленным показателям MMLU за 5 выстрелов для Llama 4 и Gemma 3. Это позволило провести полное сравнение между полной точностью и Dynamic v2.0. КАТ и стандарты иматрица Количество ГГУФ.


Все будущие загрузки GGUF будут использовать Unsloth Dynamic 2.0, и наши динамические 4-битные безопасные тензорные кванты также получат от него выгоду в будущем.
📊Почему дивергенция KL?
Точность – это еще не все, что вам нужно Это показывает, что обрезка слоев, даже выбор избыточных слоев, дает огромную разницу с точки зрения «переворотов». «Переворот» определяется как изменение ответа с неправильного на правильный или наоборот. В статье показано, что MMLU может не уменьшаться, когда мы сокращаем слои или выполняем квантование, но это потому, что некоторые неправильные ответы можно «перевернуть» на правильные. Наша цель — соответствовать исходной модели, поэтому измерение «переворотов» — хороший показатель.


Дивергенция КЛ должно быть Один из золотых стандартов сообщения об ошибках квантования. Согласно исследовательской работе «Точность — это еще не все, что вам нужно». использование путаницы неправильно Поскольку значения выходных токенов могут взаимоисключаться, мы должны использовать более сложные тесты, такие как KLD или Adder.
В статье также показано, что, что интересно, КЛ-расхождение сильно коррелирует с переворотами, и поэтому наша цель — минимизировать среднее КЛ-расхождение, одновременно увеличивая дисковое пространство для квантования как можно меньше.
⚖️Переобучение набора калибровочных данных
Большинство фреймворков сообщают об возмущениях и расхождениях KL, используя тестовый набор статей в Википедии. Однако мы заметили, что использование набора калибровочных данных, который также связан с Википедией, не соответствует квантилям и дает более низкие оценки путаницы. Мы используем калибровку_v3 и калибровка_v5 Набор данных для честного тестирования, который включает в себя некоторые данные викитекста и другие данные. Кроме того, модели Instruct имеют уникальные шаблоны чата, и использование только набора текстовых калибровочных данных неэффективно для моделей Instruct. (Базовая модель да). Фактически, большинство GGUF Imatrix обычно откалиброваны с учетом этих проблем. В результате они, естественно, лучше работают в тестах дивергенции KL, которые также используют данные Википедии, поскольку модель по существу оптимизирована для этой области.
Чтобы обеспечить объективную и контролируемую оценку, мы не используем наш собственный набор калибровочных данных (который оптимизирован для производительности чата) при сравнительном анализе KL Divergence. Вместо этого мы провели тесты с использованием того же стандартного набора данных Википедии, что позволило нам напрямую сравнить производительность нашего метода Dynamic 2.0 с базовым подходом Imatrix.
🔢 реплика ммлу приключение
-
Воспроизведение выстрела MMLU 5 было кошмаром. Мы Не мог Повторите результаты MMLU для нескольких моделей, включая Lamma 3.1 (8b) Instruct, Gemma 3 (12b) и других. проблемы с микрореализацией. Например, Llama 3.1 (8b) должен достичь ~68,2%, тогда как использование неправильной реализации может привести к достижению Точность 35%.

-
Учебное пособие Llama 3.1 (8B) имеет точность выстрела MMLU 5 67,8% при использовании простой реализации MMLU. Однако мы находим ламу Токенизирует «a» и «_a» (a с пробелом впереди) как отдельные идентификаторы токенов.. Если мы рассмотрим как разнесенные, так и неразнесенные токены, мы получим 68,2% (+0,4%)
-
Интересно, что по данным LLM Harness of Eleuther AI, Лама 3 также присоединяется «Лучший ответ» Чтобы ответить на этот вопрос, давайте проследим за исходным тестом MMLU Llama 3.
-
Есть много других тонких проблем, поэтому для тестирования всего в контролируемой среде мы создали собственную реализацию MMLU, просмотрев github.com/hendrycks/test. напрямую, а также проверили наши результаты на нескольких моделях и сравнили полученные цифры.
▪️ Репликация Gemma 3 QAT, тест
Команда Gemma выпустила две версии Gemma 3 QAT (Quantization Aware Training):
-
Q4_0 GGUF — квантует все слои до Q4_0 по формуле.
w = q * block_scaleВ каждом блоке 32 гири. См. вики llama.cpp. Для получения дополнительной информации.
Мы протестировали все версии Q4_0 GGUF и провели обширные эксперименты с моделью 12B. мы видим Модель 12B Q4_0 QAT получила 67,07% В то время как полная версия bfloat16 12B набирает 67,15% на 5-зарядном MMLU. Это очень впечатляет! Модель 27В в основном вот-вот появится!
мы разработали новый показатель эффективности При этом вычисляется полезность модели, а также учитывается размер ее диска и оценка выстрела MMLU 5:
мы должны минус 25 Поскольку в MMLU есть 4 варианта множественного выбора – A, B, C или D. Допустим, мы создаем модель, которая просто выбирает ответы случайным образом – это даст точность 25% и займет несколько байт дискового пространства. Но очевидно, что это бесполезная модель.
Ниже приведена таблица, показывающая улучшения по сравнению с расхождением KL по сравнению с базовой моделью. Напомним, что чем ближе расхождение KL к 0, тем лучше (т.е. 0 означает то же самое, что и модель полной точности).
толкать битой
Базовый уровень КЛД
ГБ
новый клд
ГБ
Если мы построим график увеличения дискового пространства и изменения коэффициента расхождения KL, мы увидим более очевидные преимущества! Наш динамический 2-битный Q2_K_XL значительно снижает KLD (около 7,5%).
Сводная таблица результатов MMLU для Gemma 3 (27b). См. ниже.
-
Наша динамическая 4-битная версия на 2 ГБ меньше, но имеет +1% дополнительную точность по сравнению с версией QAT!
-
С точки зрения эффективности, 2-битный Q2_K_XL и другие работают очень хорошо!
толкать битой
безвкусный
Неленивость + QAT
размер диска
Емкость
кликните сюда Полный тест Google Gemma 3 (27B) QAT:
Образец
бесстыдный
Неленивость + QAT
размер диска
Емкость
🦙 Лама 4 исправить ошибку + запустить
Мы также помогли и исправили некоторые ошибки Llama 4:
-
Llama 4 Scout изменил конфигурацию масштабирования RoPE в своем официальном репозитории. Мы помогли решить проблемы в llama.cpp, включив это изменение здесь.

-
Команда Llama4 и VLLM также независимо устранили проблему, связанную с тем, что норма QQ распространялась на все основные направления (такого быть не должно).. Точность MMLU Pro увеличилась с 68,58% до 71,53%.
-
вольфрам вороной волк Показано, как наши GGUF через llama.cpp достигают гораздо более высокой точности, чем сторонние поставщики оценок — вероятно, это было сочетанием проблем, упомянутых выше, а также, возможно, из-за проблем с квантованием.

Как показано на нашем графике, наше 4-битное динамическое квантование QAT обеспечивает лучшую производительность по сравнению с 5-кадровым MMLU, но при этом меньше по размеру.
Бегущий Лама 4 Разведчик:
Например, чтобы запустить Llama 4 Scout, сначала клонируйте llama.cpp:
Тогда загрузите новую версию Dynamic v2.0 Quant для Scout:
И давайте угадаем!
последнее обновление