Слепые пятна и предвзятости LLM¶

~3 минуты чтения

Предварительно: Подготовка к интервью | Обновления 2026

Исследования показывают, что до 73% предвзятостей LLM не проявляются в chain-of-thought рассуждениях -- модель принимает решения на основе gender, race или formality стиля, но не упоминает это в объяснении. Статья "Biases in Blind Spot" (arXiv:2602.10117, Feb 2026) предлагает полностью автоматический pipeline для обнаружения таких "невербализованных" предвзятостей, что критически важно для любого LLM инженера, деплоящего модели в production-системах найма, кредитования или образования.

URL: https://arxiv.org/pdf/2602.10117v1 Тип: arxiv paper Дата: 2026-02-10 Авторы: Ivan Arcuschin, David Chamin, Adria Garriga-Alonso, Ana-Maria Camburu

Ключевые идеи¶

Unverbalized biases — LLM могут иметь системные предрассудки, которые не проявляются явно в chain-of-thought (CoT) reasoning
Automated bias detection pipeline — полностью автоматический pipeline для обнаружения task-specific biases:
LLM-annotators генерируют candidate bias concepts
Testing на progressively larger input samples
Statistical techniques + multiple testing + early stopping
Unverbalized bias definition — концепт считается unverbalized bias если:
Yield statistically significant performance differences
Не цитируется в CoT как justification

Применения для AI/LLM Engineer¶

Bias detection¶

Black-box evaluation — не нужен доступ к внутренним состояниям модели
Task-specific bias discovery — автоматическое нахождение biases для конкретных задач
Validates known biases — gender, race, religion, ethnicity
Discovers new biases — Spanish fluency, English proficiency, writing formality

Evaluation tasks¶

Hiring decisions
Loan approval
University admissions

Связанные работы¶

Constitutional AI (guardrails)
LLM-as-judge evaluation
Red teaming для LLM

Цитаты¶

"LLMs often provide chain-of-thought (CoT) reasoning traces that appear plausible, but may hide internal biases"

Мои заметки¶

Почему это важно для interview: - AI/LLM Engineer должен понимать limitation своих моделей - Bias detection -- часть production ML systems - Автоматизированная evaluation -- scalable подход

Further research: - LLM-as-judge patterns - Constitutional AI implementation - A/B testing для bias detection

Распространенные заблуждения¶

Заблуждение: если CoT выглядит нейтрально, модель беспристрастна

Исследование показывает, что LLM может демонстрировать statistically significant bias (p < 0.05) по полу, расе или уровню образования, при этом ни разу не упомянув эти факторы в chain-of-thought. CoT-нейтральность не равна отсутствию bias -- до 73% предвзятостей "невербализованы".

Заблуждение: ручной red teaming достаточен для обнаружения bias

Ручное тестирование обнаруживает только заранее известные категории (gender, race). Автоматический pipeline обнаруживает неочевидные bias-факторы: уровень формальности письма, знание испанского языка, длина имени. Человек не может предусмотреть все возможные корреляции.

Заблуждение: fine-tuning на balanced data устраняет bias

Даже после alignment-тренировки (RLHF, DPO) модели сохраняют скрытые предвзятости, которые проявляются не через явные высказывания, а через паттерны принятия решений. Необходим ongoing мониторинг в production, а не одноразовая коррекция.

Вопросы для интервью¶

Q: Как бы вы обнаружили скрытые предвзятости LLM в production-системе?

"Я бы попросил модель не быть предвзятой в system prompt и проверил бы CoT на наличие упоминаний расы/пола."

"Я бы построил автоматический pipeline: (1) сгенерировал candidate bias concepts через LLM-annotators, (2) создал контролируемые тестовые наборы с вариацией по каждому concept, (3) применил statistical testing с multiple testing correction и early stopping, (4) отдельно проверял не только results, но и отсутствие упоминания concept в CoT -- это указывает на unverbalized bias."

Q: В чем разница между verbalized и unverbalized bias?

"Verbalized -- это когда модель говорит что-то расистское, unverbalized -- когда не говорит."

"Verbalized bias -- модель явно ссылается на демографический фактор в рассуждении (например, 'учитывая пол кандидата'). Unverbalized bias -- модель систематически принимает разные решения в зависимости от фактора, но CoT не содержит упоминания этого фактора. Второй тип опаснее, потому что (1) его сложнее обнаружить, (2) он создает ложное чувство fairness при аудите CoT."