Heretic: Полностью автоматическое снятие цензуры (safety alignment) с языковых моделей
Основной чат
Чат для вайбкодеров: новости, гайды, поиск исполнителей, маркетплейс и разбор реальных кейсов.
В мире локальных LLM цензура и «безопасное выравнивание» (safety alignment) часто становятся серьёзным ограничением. Многие модели отказываются отвечать на «чувствительные» запросы, даже если они вполне легитимны.
Heretic — это мощный open-source инструмент от разработчика p-e-w, который автоматически удаляет цензуру из transformer-моделей без дорогостоящего дообучения. Он стал одним из самых популярных решений в сообществе LocalLLaMA в 2025–2026 годах.
Как работает Heretic?
Heretic использует продвинутую технику directional ablation (также известную как abliteration), основанную на исследованиях Arditi et al. (2024) и последующих работах.
Ключевой инновацией является автоматическая оптимизация параметров с помощью TPE (Tree-structured Parzen Estimator) через библиотеку Optuna. Инструмент одновременно минимизирует:
- Количество отказов (refusals) на вредоносных промптах
- KL-дивергенцию от оригинальной модели (чтобы сохранить как можно больше исходных способностей)
Благодаря этому процесс полностью автоматический — не требуется ручная настройка или глубокое понимание архитектуры трансформеров.
Преимущества Heretic
- Автоматичность — запустил команду и получил результат.
- Высокое качество — часто превосходит ручные abliteration по сохранению интеллекта модели при том же уровне снятия цензуры.
- Поддержка широкого спектра моделей — большинство dense-моделей, многие MoE, мультимодальные и даже гибридные (например, Qwen3.5).
- Эффективность — поддержка 4-битной квантизации (bitsandbytes) для работы на видеокартах с малым объёмом VRAM.
- Исследовательские возможности — визуализация residual vectors, PaCMAP-проекции, геометрический анализ.
Пример сравнения (Gemma-3-12B-IT):
| Модель | Отказы на вредных промптах | KL-дивергенция (ниже = лучше) |
|---|---|---|
| Оригинал | 97/100 | 0 |
| Ручные abliteration (лучшие) | 3/100 | 0.45–1.04 |
| Heretic | 3/100 | 0.16 |
Heretic достигает такого же снятия цензуры, но с существенно меньшим ущербом для способностей модели.
Установка и использование
pip install -U heretic-llm
heretic Qwen/Qwen3-4B-Instruct-2507
Или для любой другой модели:
heretic meta-llama/Llama-3.1-8B-Instruct
После завершения процесса вы можете:
- Сохранить модель локально
- Загрузить на Hugging Face
- Протестировать в чате
- Запустить бенчмарки
Время работы: ~45 минут на Llama-3.1-8B на RTX 3090 (с квантизацией — быстрее и легче по памяти).
Дополнительные возможности
- Конфигурационные файлы (
config.default.toml,config.noslop.toml) - Режим исследования (
heretic-llm[research]) - Генерация графиков residual vectors и анимированных GIF
- Подробная геометрическая аналитика по слоям модели
- Встроенная оценка качества
Кому подойдёт Heretic?
- Энтузиастам локальных LLM, желающим максимальную свободу от цензуры
- Исследователям интерпретируемости моделей
- Разработчикам, которым нужны «неприкрытые» модели для специфических задач
- Всем, кто устал от постоянных отказов в ChatGPT-подобных интерфейсах
Заключение
Heretic — это один из самых элегантных и эффективных инструментов в экосистеме open-source LLM на сегодняшний день. Он democratizes сложную технику abliteration, делая её доступной любому пользователю с минимальными техническими навыками.
Благодаря автоматической оптимизации Heretic производит модели, которые часто превосходят ручные варианты по балансу «свобода vs сохранение интеллекта». Более 3000 моделей, созданных сообществом с помощью Heretic, уже доступны на Hugging Face.
Ссылка на репозиторий: https://github.com/p-e-w/heretic