Heretic: Полностью автоматическое снятие цензуры (safety alignment) с языковых моделей

◷ 4 мин чтения 04.05.2026

Основной чат

Чат для вайбкодеров: новости, гайды, поиск исполнителей, маркетплейс и разбор реальных кейсов.

В мире локальных LLM цензура и «безопасное выравнивание» (safety alignment) часто становятся серьёзным ограничением. Многие модели отказываются отвечать на «чувствительные» запросы, даже если они вполне легитимны.

Heretic — это мощный open-source инструмент от разработчика p-e-w, который автоматически удаляет цензуру из transformer-моделей без дорогостоящего дообучения. Он стал одним из самых популярных решений в сообществе LocalLLaMA в 2025–2026 годах.

Как работает Heretic?

Heretic использует продвинутую технику directional ablation (также известную как abliteration), основанную на исследованиях Arditi et al. (2024) и последующих работах.

Ключевой инновацией является автоматическая оптимизация параметров с помощью TPE (Tree-structured Parzen Estimator) через библиотеку Optuna. Инструмент одновременно минимизирует:

Количество отказов (refusals) на вредоносных промптах
KL-дивергенцию от оригинальной модели (чтобы сохранить как можно больше исходных способностей)

Благодаря этому процесс полностью автоматический — не требуется ручная настройка или глубокое понимание архитектуры трансформеров.

Преимущества Heretic

Автоматичность — запустил команду и получил результат.
Высокое качество — часто превосходит ручные abliteration по сохранению интеллекта модели при том же уровне снятия цензуры.
Поддержка широкого спектра моделей — большинство dense-моделей, многие MoE, мультимодальные и даже гибридные (например, Qwen3.5).
Эффективность — поддержка 4-битной квантизации (bitsandbytes) для работы на видеокартах с малым объёмом VRAM.
Исследовательские возможности — визуализация residual vectors, PaCMAP-проекции, геометрический анализ.

Пример сравнения (Gemma-3-12B-IT):

Модель	Отказы на вредных промптах	KL-дивергенция (ниже = лучше)
Оригинал	97/100	0
Ручные abliteration (лучшие)	3/100	0.45–1.04
Heretic	3/100	0.16

Heretic достигает такого же снятия цензуры, но с существенно меньшим ущербом для способностей модели.

Установка и использование

bash

pip install -U heretic-llm
heretic Qwen/Qwen3-4B-Instruct-2507

Или для любой другой модели:

bash

heretic meta-llama/Llama-3.1-8B-Instruct

После завершения процесса вы можете:

Сохранить модель локально
Загрузить на Hugging Face
Протестировать в чате
Запустить бенчмарки

Время работы: ~45 минут на Llama-3.1-8B на RTX 3090 (с квантизацией — быстрее и легче по памяти).

Дополнительные возможности

Конфигурационные файлы (config.default.toml, config.noslop.toml)
Режим исследования (heretic-llm[research])
Генерация графиков residual vectors и анимированных GIF
Подробная геометрическая аналитика по слоям модели
Встроенная оценка качества

Кому подойдёт Heretic?

Энтузиастам локальных LLM, желающим максимальную свободу от цензуры
Исследователям интерпретируемости моделей
Разработчикам, которым нужны «неприкрытые» модели для специфических задач
Всем, кто устал от постоянных отказов в ChatGPT-подобных интерфейсах

Заключение

Heretic — это один из самых элегантных и эффективных инструментов в экосистеме open-source LLM на сегодняшний день. Он democratizes сложную технику abliteration, делая её доступной любому пользователю с минимальными техническими навыками.

Благодаря автоматической оптимизации Heretic производит модели, которые часто превосходят ручные варианты по балансу «свобода vs сохранение интеллекта». Более 3000 моделей, созданных сообществом с помощью Heretic, уже доступны на Hugging Face.

Ссылка на репозиторий: https://github.com/p-e-w/heretic

Heretic: Полностью автоматическое снятие цензуры (safety alignment) с языковых моделей

## Как работает Heretic?

## Преимущества Heretic

## Установка и использование

## Дополнительные возможности

## Кому подойдёт Heretic?

## Заключение

Goal Maker: Skill для Codex, который превращает расплывчатые долгосрочные цели в управляемый PM-цикл

—