Формулы теории вероятностей¶
~5 минут чтения
Предварительно: Подготовка к интервью по математике
Теория вероятностей -- язык неопределённости в ML. Каждый output классификатора -- это вероятность P(class|features), оптимизируемая через MLE. Байесовский подход (posterior ~ likelihood x prior) лежит в основе Bayesian neural networks, Gaussian Processes и даже L2 regularization (Gaussian prior на веса). KL-дивергенция -- ключевой компонент VAE loss и RLHF (PPO ограничивает KL между policy и reference model, типично KL < 0.1). Cross-entropy loss -- это KL(true || predicted) + H(true), где H(true) -- константа. Центральная предельная теорема объясняет, почему BatchNorm работает: при large batch средние активаций стремятся к нормальному распределению. Вопросы на Байеса, распределения и MLE/MAP встречаются на 60%+ ML-интервью.
Основы вероятности¶
Аксиомы¶
Условная вероятность¶
Независимость¶
Формула полной вероятности¶
Теорема Байеса¶
Расширенная форма: $\(P(A|B) = \frac{P(B|A) P(A)}{\sum_{i} P(B|A_i) P(A_i)}\)$
Распределения¶
Дискретные¶
Бернулли¶
Биномиальное¶
Пуассона¶
Геометрическое¶
Категориальное¶
Непрерывные¶
Равномерное¶
Нормальное (Гауссово)¶
Стандартное нормальное¶
Экспоненциальное¶
Гамма¶
Бета¶
Лог-нормальное¶
Многомерные¶
Многомерное нормальное¶
Математическое ожидание и дисперсия¶
Свойства E[X]¶
Свойства Var[X]¶
Ковариация¶
Корреляция¶
Статистика¶
Выборочные характеристики¶
Среднее¶
Дисперсия (несмещённая)¶
Стандартное отклонение¶
Медиана¶
Мода¶
Оценка параметров¶
Maximum Likelihood Estimation (MLE)¶
Maximum A Posteriori (MAP)¶
Связь с регуляризацией¶
- Gaussian prior → L2 регуляризация
- Laplace prior → L1 регуляризация
Доверительные интервалы¶
Для среднего (известная σ)¶
Для среднего (неизвестная σ)¶
Z-значения¶
- 90%: z = 1.645
- 95%: z = 1.96
- 99%: z = 2.576
Проверка гипотез¶
Z-тест¶
t-тест¶
t-тест для двух выборок¶
где \(s_p^2 = \frac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1 + n_2 - 2}\)
p-value¶
Информационная теория¶
Энтропия¶
Кросс-энтропия¶
KL-дивергенция¶
Взаимная информация¶
Условная энтропия¶
Важные неравенства¶
Неравенство Маркова¶
Неравенство Чебышёва¶
Закон больших чисел¶
Центральная предельная теорема¶
A/B тестирование¶
Размер выборки (power analysis)¶
где \(\Delta\) — минимальный эффект, \(\beta\) — вероятность ошибки II рода
Uplift¶
Chi-squared тест¶
Типичные заблуждения¶
Заблуждение: KL-дивергенция симметрична
KL(p||q) != KL(q||p). Пример: p = N(0,1), q = N(0,10). KL(p||q) ~ 2.15 (p "видит" что q слишком широкое). KL(q||p) ~ 47.5 (q "видит" что p слишком узкое). В VAE используется KL(q(z|x) || p(z)), где q -- posterior, p -- prior N(0,I). Переставить аргументы = совсем другая оптимизация (mode-covering vs mode-seeking). В RLHF: KL(policy || reference) штрафует отклонение policy от baseline -- замена порядка аргументов сломает training.
Заблуждение: некоррелированность = независимость
Cov(X,Y) = 0 (некоррелированность) не означает независимость. Контрпример: X ~ N(0,1), Y = X^2. Корреляция Cov(X, X^2) = E[X^3] - E[X]*E[X^2] = 0 (для симметричного X), но Y полностью определяется X. Корреляция Пирсона ловит только линейную связь. Независимость означает P(A,B) = P(A)*P(B) для ВСЕХ событий. Единственное исключение: для многомерного нормального распределения некоррелированность = независимость.
Заблуждение: при MLE и MAP разница только в prior
Формально верно: MLE = argmax P(D|theta), MAP = argmax P(D|theta) * P(theta). Но практические последствия огромны. Gaussian prior N(0, sigma^2) в MAP эквивалентен L2 regularization с lambda = 1/(2*sigma^2). Laplace prior эквивалентен L1. MLE без prior при ограниченных данных переобучается: для логистической регрессии с linearly separable data веса уходят в бесконечность. MAP с Gaussian prior = Ridge regression -- всегда имеет конечное решение. Для нейросетей weight decay = MAP с Gaussian prior.
Интервью¶
Объясните связь между cross-entropy loss и KL-дивергенцией.
"Cross-entropy -- это loss для классификации, KL -- мера различия распределений"
"H(p,q) = H(p) + KL(p||q), где H(p) -- энтропия истинного распределения, H(p,q) -- cross-entropy, KL -- дивергенция. При обучении H(p) -- константа (зависит только от labels), поэтому минимизация cross-entropy = минимизация KL(true || predicted). Для one-hot labels H(p) = 0, т.е. CE = KL точно. Практический смысл: мы учим модель приближать предсказанное распределение q к истинному p. В knowledge distillation используем KL(teacher || student) напрямую с soft labels."
Как теорема Байеса связана с ML?
"Байес используется в Naive Bayes классификаторе"
"P(theta|D) ~ P(D|theta) * P(theta). В ML: (1) MLE = MAP без prior, (2) L2 regularization = Gaussian prior на веса, L1 = Laplace prior, (3) Bayesian Neural Networks оценивают полный posterior P(theta|D), дают uncertainty estimates, (4) Gaussian Processes -- непараметрический байесовский подход, posterior обновляется аналитически, (5) в RLHF reward model обучается через MLE: argmax sum log P(preferred > rejected | theta). Naive Bayes -- простейший пример, но принцип пронизывает весь ML."
Что такое Центральная предельная теорема и где она применяется в ML?
"Среднее выборки стремится к нормальному распределению"
"ЦПТ: (X_bar - mu) / (sigma/sqrt(n)) -> N(0,1) при n -> infinity, независимо от распределения X. В ML: (1) стохастический градиент -- среднее по mini-batch ~ нормальное, что обосновывает SGD с batch_size >= 32; (2) BatchNorm работает потому что среднее активаций по batch приблизительно нормально; (3) A/B тестирование -- z-тест для пропорций валиден при n >= 30 благодаря ЦПТ; (4) confidence intervals для метрик модели. Ограничение: ЦПТ не работает для тяжёлых хвостов (Cauchy distribution) -- важно для financial ML."
See Also¶
- Linear Algebra -- ковариационные матрицы, PCA, SVD опираются на теорвер
- Loss Functions -- cross-entropy, KL-divergence как loss функции
- Metrics Cheatsheet -- метрики классификации и регрессии
- Hyperparameters Cheatsheet -- Bayesian optimization использует prior/posterior
- Alignment Methods -- RLHF: reward modeling опирается на байесовский подход и MLE