Слепые пятна и предвзятости LLM¶
~3 минуты чтения
Предварительно: Подготовка к интервью | Обновления 2026
Исследования показывают, что до 73% предвзятостей LLM не проявляются в chain-of-thought рассуждениях -- модель принимает решения на основе gender, race или formality стиля, но не упоминает это в объяснении. Статья "Biases in Blind Spot" (arXiv:2602.10117, Feb 2026) предлагает полностью автоматический pipeline для обнаружения таких "невербализованных" предвзятостей, что критически важно для любого LLM инженера, деплоящего модели в production-системах найма, кредитования или образования.
URL: https://arxiv.org/pdf/2602.10117v1 Тип: arxiv paper Дата: 2026-02-10 Авторы: Ivan Arcuschin, David Chamin, Adria Garriga-Alonso, Ana-Maria Camburu
Ключевые идеи¶
- Unverbalized biases — LLM могут иметь системные предрассудки, которые не проявляются явно в chain-of-thought (CoT) reasoning
- Automated bias detection pipeline — полностью автоматический pipeline для обнаружения task-specific biases:
- LLM-annotators генерируют candidate bias concepts
- Testing на progressively larger input samples
- Statistical techniques + multiple testing + early stopping
- Unverbalized bias definition — концепт считается unverbalized bias если:
- Yield statistically significant performance differences
- Не цитируется в CoT как justification
Применения для AI/LLM Engineer¶
Bias detection¶
- Black-box evaluation — не нужен доступ к внутренним состояниям модели
- Task-specific bias discovery — автоматическое нахождение biases для конкретных задач
- Validates known biases — gender, race, religion, ethnicity
- Discovers new biases — Spanish fluency, English proficiency, writing formality
Evaluation tasks¶
- Hiring decisions
- Loan approval
- University admissions
Связанные работы¶
- Constitutional AI (guardrails)
- LLM-as-judge evaluation
- Red teaming для LLM
Цитаты¶
"LLMs often provide chain-of-thought (CoT) reasoning traces that appear plausible, but may hide internal biases"
Мои заметки¶
Почему это важно для interview: - AI/LLM Engineer должен понимать limitation своих моделей - Bias detection -- часть production ML systems - Автоматизированная evaluation -- scalable подход
Further research: - LLM-as-judge patterns - Constitutional AI implementation - A/B testing для bias detection
Распространенные заблуждения¶
Заблуждение: если CoT выглядит нейтрально, модель беспристрастна
Исследование показывает, что LLM может демонстрировать statistically significant bias (p < 0.05) по полу, расе или уровню образования, при этом ни разу не упомянув эти факторы в chain-of-thought. CoT-нейтральность не равна отсутствию bias -- до 73% предвзятостей "невербализованы".
Заблуждение: ручной red teaming достаточен для обнаружения bias
Ручное тестирование обнаруживает только заранее известные категории (gender, race). Автоматический pipeline обнаруживает неочевидные bias-факторы: уровень формальности письма, знание испанского языка, длина имени. Человек не может предусмотреть все возможные корреляции.
Заблуждение: fine-tuning на balanced data устраняет bias
Даже после alignment-тренировки (RLHF, DPO) модели сохраняют скрытые предвзятости, которые проявляются не через явные высказывания, а через паттерны принятия решений. Необходим ongoing мониторинг в production, а не одноразовая коррекция.
Вопросы для интервью¶
Q: Как бы вы обнаружили скрытые предвзятости LLM в production-системе?
"Я бы попросил модель не быть предвзятой в system prompt и проверил бы CoT на наличие упоминаний расы/пола."
"Я бы построил автоматический pipeline: (1) сгенерировал candidate bias concepts через LLM-annotators, (2) создал контролируемые тестовые наборы с вариацией по каждому concept, (3) применил statistical testing с multiple testing correction и early stopping, (4) отдельно проверял не только results, но и отсутствие упоминания concept в CoT -- это указывает на unverbalized bias."
Q: В чем разница между verbalized и unverbalized bias?
"Verbalized -- это когда модель говорит что-то расистское, unverbalized -- когда не говорит."
"Verbalized bias -- модель явно ссылается на демографический фактор в рассуждении (например, 'учитывая пол кандидата'). Unverbalized bias -- модель систематически принимает разные решения в зависимости от фактора, но CoT не содержит упоминания этого фактора. Второй тип опаснее, потому что (1) его сложнее обнаружить, (2) он создает ложное чувство fairness при аудите CoT."