Перейти к содержанию

Слепые пятна и предвзятости LLM

~3 минуты чтения

Предварительно: Подготовка к интервью | Обновления 2026

Исследования показывают, что до 73% предвзятостей LLM не проявляются в chain-of-thought рассуждениях -- модель принимает решения на основе gender, race или formality стиля, но не упоминает это в объяснении. Статья "Biases in Blind Spot" (arXiv:2602.10117, Feb 2026) предлагает полностью автоматический pipeline для обнаружения таких "невербализованных" предвзятостей, что критически важно для любого LLM инженера, деплоящего модели в production-системах найма, кредитования или образования.

URL: https://arxiv.org/pdf/2602.10117v1 Тип: arxiv paper Дата: 2026-02-10 Авторы: Ivan Arcuschin, David Chamin, Adria Garriga-Alonso, Ana-Maria Camburu

Ключевые идеи

  1. Unverbalized biases — LLM могут иметь системные предрассудки, которые не проявляются явно в chain-of-thought (CoT) reasoning
  2. Automated bias detection pipeline — полностью автоматический pipeline для обнаружения task-specific biases:
  3. LLM-annotators генерируют candidate bias concepts
  4. Testing на progressively larger input samples
  5. Statistical techniques + multiple testing + early stopping
  6. Unverbalized bias definition — концепт считается unverbalized bias если:
  7. Yield statistically significant performance differences
  8. Не цитируется в CoT как justification

Применения для AI/LLM Engineer

Bias detection

  • Black-box evaluation — не нужен доступ к внутренним состояниям модели
  • Task-specific bias discovery — автоматическое нахождение biases для конкретных задач
  • Validates known biases — gender, race, religion, ethnicity
  • Discovers new biases — Spanish fluency, English proficiency, writing formality

Evaluation tasks

  • Hiring decisions
  • Loan approval
  • University admissions

Связанные работы

  • Constitutional AI (guardrails)
  • LLM-as-judge evaluation
  • Red teaming для LLM

Цитаты

"LLMs often provide chain-of-thought (CoT) reasoning traces that appear plausible, but may hide internal biases"

Мои заметки

Почему это важно для interview: - AI/LLM Engineer должен понимать limitation своих моделей - Bias detection -- часть production ML systems - Автоматизированная evaluation -- scalable подход

Further research: - LLM-as-judge patterns - Constitutional AI implementation - A/B testing для bias detection


Распространенные заблуждения

Заблуждение: если CoT выглядит нейтрально, модель беспристрастна

Исследование показывает, что LLM может демонстрировать statistically significant bias (p < 0.05) по полу, расе или уровню образования, при этом ни разу не упомянув эти факторы в chain-of-thought. CoT-нейтральность не равна отсутствию bias -- до 73% предвзятостей "невербализованы".

Заблуждение: ручной red teaming достаточен для обнаружения bias

Ручное тестирование обнаруживает только заранее известные категории (gender, race). Автоматический pipeline обнаруживает неочевидные bias-факторы: уровень формальности письма, знание испанского языка, длина имени. Человек не может предусмотреть все возможные корреляции.

Заблуждение: fine-tuning на balanced data устраняет bias

Даже после alignment-тренировки (RLHF, DPO) модели сохраняют скрытые предвзятости, которые проявляются не через явные высказывания, а через паттерны принятия решений. Необходим ongoing мониторинг в production, а не одноразовая коррекция.


Вопросы для интервью

Q: Как бы вы обнаружили скрытые предвзятости LLM в production-системе?

❌ "Я бы попросил модель не быть предвзятой в system prompt и проверил бы CoT на наличие упоминаний расы/пола."

✅ "Я бы построил автоматический pipeline: (1) сгенерировал candidate bias concepts через LLM-annotators, (2) создал контролируемые тестовые наборы с вариацией по каждому concept, (3) применил statistical testing с multiple testing correction и early stopping, (4) отдельно проверял не только results, но и отсутствие упоминания concept в CoT -- это указывает на unverbalized bias."

Q: В чем разница между verbalized и unverbalized bias?

❌ "Verbalized -- это когда модель говорит что-то расистское, unverbalized -- когда не говорит."

✅ "Verbalized bias -- модель явно ссылается на демографический фактор в рассуждении (например, 'учитывая пол кандидата'). Unverbalized bias -- модель систематически принимает разные решения в зависимости от фактора, но CoT не содержит упоминания этого фактора. Второй тип опаснее, потому что (1) его сложнее обнаружить, (2) он создает ложное чувство fairness при аудите CoT."