vibecode.wiki
RU EN
~/wiki / github / heretic-automatic-censorship-removal-llm

Heretic: Полностью автоматическое снятие цензуры (safety alignment) с языковых моделей

◷ 4 min read 5/4/2026

Main chat

A chat for vibe coders: news, guides, live cases, marketplace, and finding executors.

$ cd section/ $ join vibe dev
English translation is being prepared. Russian version is shown.

В мире локальных LLM цензура и «безопасное выравнивание» (safety alignment) часто становятся серьёзным ограничением. Многие модели отказываются отвечать на «чувствительные» запросы, даже если они вполне легитимны.

Heretic — это мощный open-source инструмент от разработчика p-e-w, который автоматически удаляет цензуру из transformer-моделей без дорогостоящего дообучения. Он стал одним из самых популярных решений в сообществе LocalLLaMA в 2025–2026 годах.

Как работает Heretic?

Heretic использует продвинутую технику directional ablation (также известную как abliteration), основанную на исследованиях Arditi et al. (2024) и последующих работах.

Ключевой инновацией является автоматическая оптимизация параметров с помощью TPE (Tree-structured Parzen Estimator) через библиотеку Optuna. Инструмент одновременно минимизирует:

  • Количество отказов (refusals) на вредоносных промптах
  • KL-дивергенцию от оригинальной модели (чтобы сохранить как можно больше исходных способностей)

Благодаря этому процесс полностью автоматический — не требуется ручная настройка или глубокое понимание архитектуры трансформеров.

Преимущества Heretic

  • Автоматичность — запустил команду и получил результат.
  • Высокое качество — часто превосходит ручные abliteration по сохранению интеллекта модели при том же уровне снятия цензуры.
  • Поддержка широкого спектра моделей — большинство dense-моделей, многие MoE, мультимодальные и даже гибридные (например, Qwen3.5).
  • Эффективность — поддержка 4-битной квантизации (bitsandbytes) для работы на видеокартах с малым объёмом VRAM.
  • Исследовательские возможности — визуализация residual vectors, PaCMAP-проекции, геометрический анализ.

Пример сравнения (Gemma-3-12B-IT):

Модель Отказы на вредных промптах KL-дивергенция (ниже = лучше)
Оригинал 97/100 0
Ручные abliteration (лучшие) 3/100 0.45–1.04
Heretic 3/100 0.16

Heretic достигает такого же снятия цензуры, но с существенно меньшим ущербом для способностей модели.

Установка и использование

bash
pip install -U heretic-llm
heretic Qwen/Qwen3-4B-Instruct-2507

Или для любой другой модели:

bash
heretic meta-llama/Llama-3.1-8B-Instruct

После завершения процесса вы можете:

  • Сохранить модель локально
  • Загрузить на Hugging Face
  • Протестировать в чате
  • Запустить бенчмарки

Время работы: ~45 минут на Llama-3.1-8B на RTX 3090 (с квантизацией — быстрее и легче по памяти).

Дополнительные возможности

  • Конфигурационные файлы (config.default.toml, config.noslop.toml)
  • Режим исследования (heretic-llm[research])
  • Генерация графиков residual vectors и анимированных GIF
  • Подробная геометрическая аналитика по слоям модели
  • Встроенная оценка качества

Кому подойдёт Heretic?

  • Энтузиастам локальных LLM, желающим максимальную свободу от цензуры
  • Исследователям интерпретируемости моделей
  • Разработчикам, которым нужны «неприкрытые» модели для специфических задач
  • Всем, кто устал от постоянных отказов в ChatGPT-подобных интерфейсах

Заключение

Heretic — это один из самых элегантных и эффективных инструментов в экосистеме open-source LLM на сегодняшний день. Он democratizes сложную технику abliteration, делая её доступной любому пользователю с минимальными техническими навыками.

Благодаря автоматической оптимизации Heretic производит модели, которые часто превосходят ручные варианты по балансу «свобода vs сохранение интеллекта». Более 3000 моделей, созданных сообществом с помощью Heretic, уже доступны на Hugging Face.

Ссылка на репозиторий: https://github.com/p-e-w/heretic