Формулы теории вероятностей¶

~5 минут чтения

Предварительно: Подготовка к интервью по математике

Теория вероятностей -- язык неопределённости в ML. Каждый output классификатора -- это вероятность P(class|features), оптимизируемая через MLE. Байесовский подход (posterior ~ likelihood x prior) лежит в основе Bayesian neural networks, Gaussian Processes и даже L2 regularization (Gaussian prior на веса). KL-дивергенция -- ключевой компонент VAE loss и RLHF (PPO ограничивает KL между policy и reference model, типично KL < 0.1). Cross-entropy loss -- это KL(true || predicted) + H(true), где H(true) -- константа. Центральная предельная теорема объясняет, почему BatchNorm работает: при large batch средние активаций стремятся к нормальному распределению. Вопросы на Байеса, распределения и MLE/MAP встречаются на 60%+ ML-интервью.

Основы вероятности¶

Аксиомы¶

\[P(A) \geq 0\]

\[P(\Omega) = 1\]

\[P(A \cup B) = P(A) + P(B) \text{ если } A \cap B = \emptyset\]

Условная вероятность¶

\[P(A|B) = \frac{P(A \cap B)}{P(B)}\]

Независимость¶

\[P(A \cap B) = P(A) \cdot P(B)\]

\[P(A|B) = P(A)\]

Формула полной вероятности¶

\[P(A) = \sum_{i} P(A|B_i) P(B_i)\]

Теорема Байеса¶

\[P(A|B) = \frac{P(B|A) P(A)}{P(B)}\]

Расширенная форма: $$P(A|B) = \frac{P(B|A) P(A)}{\sum_{i} P(B|A_i) P(A_i)}$$

Распределения¶

Дискретные¶

Бернулли¶

\[P(X = k) = p^k (1-p)^{1-k}, \quad k \in \{0, 1\}\]

\[E[X] = p, \quad Var[X] = p(1-p)\]

Биномиальное¶

\[P(X = k) = \binom{n}{k} p^k (1-p)^{n-k}\]

\[E[X] = np, \quad Var[X] = np(1-p)\]

Пуассона¶

\[P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}\]

\[E[X] = \lambda, \quad Var[X] = \lambda\]

Геометрическое¶

\[P(X = k) = (1-p)^{k-1} p\]

\[E[X] = \frac{1}{p}, \quad Var[X] = \frac{1-p}{p^2}\]

Категориальное¶

\[P(X = k) = p_k, \quad \sum_{k} p_k = 1\]

Непрерывные¶

Равномерное¶

\[f(x) = \frac{1}{b-a}, \quad x \in [a, b]\]

\[E[X] = \frac{a+b}{2}, \quad Var[X] = \frac{(b-a)^2}{12}\]

Нормальное (Гауссово)¶

\[f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)\]

\[E[X] = \mu, \quad Var[X] = \sigma^2\]

Стандартное нормальное¶

\[\phi(z) = \frac{1}{\sqrt{2\pi}} e^{-z^2/2}\]

\[\Phi(z) = P(Z \leq z) = \int_{-\infty}^{z} \phi(t) dt\]

Экспоненциальное¶

\[f(x) = \lambda e^{-\lambda x}, \quad x \geq 0\]

\[E[X] = \frac{1}{\lambda}, \quad Var[X] = \frac{1}{\lambda^2}\]

Гамма¶

\[f(x) = \frac{\beta^\alpha}{\Gamma(\alpha)} x^{\alpha-1} e^{-\beta x}\]

\[E[X] = \frac{\alpha}{\beta}, \quad Var[X] = \frac{\alpha}{\beta^2}\]

Бета¶

\[f(x) = \frac{x^{\alpha-1}(1-x)^{\beta-1}}{B(\alpha, \beta)}, \quad x \in [0, 1]\]

\[E[X] = \frac{\alpha}{\alpha + \beta}\]

Лог-нормальное¶

\[f(x) = \frac{1}{x\sigma\sqrt{2\pi}} \exp\left(-\frac{(\ln x - \mu)^2}{2\sigma^2}\right)\]

Многомерные¶

Многомерное нормальное¶

\[f(\mathbf{x}) = \frac{1}{(2\pi)^{d/2}|\Sigma|^{1/2}} \exp\left(-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^T \Sigma^{-1} (\mathbf{x}-\boldsymbol{\mu})\right)\]

Математическое ожидание и дисперсия¶

Свойства E[X]¶

\[E[aX + b] = aE[X] + b\]

\[E[X + Y] = E[X] + E[Y]\]

\[E[XY] = E[X]E[Y] \text{ если независимы}\]

Свойства Var[X]¶

\[Var[X] = E[X^2] - (E[X])^2\]

\[Var[aX + b] = a^2 Var[X]\]

\[Var[X + Y] = Var[X] + Var[Y] + 2Cov[X, Y]\]

\[Var[X + Y] = Var[X] + Var[Y] \text{ если независимы}\]

Ковариация¶

\[Cov[X, Y] = E[(X - E[X])(Y - E[Y])] = E[XY] - E[X]E[Y]\]

Корреляция¶

\[\rho_{XY} = \frac{Cov[X, Y]}{\sigma_X \sigma_Y}\]

Статистика¶

Выборочные характеристики¶

Среднее¶

\[\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i\]

Дисперсия (несмещённая)¶

\[s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2\]

Стандартное отклонение¶

\[s = \sqrt{s^2}\]

Медиана¶

\[\tilde{x} = \begin{cases} x_{(n+1)/2} & n \text{ нечётно} \\ \frac{x_{n/2} + x_{n/2+1}}{2} & n \text{ чётно} \end{cases}\]

Мода¶

\[\text{mode} = \arg\max_x f(x)\]

Оценка параметров¶

Maximum Likelihood Estimation (MLE)¶

\[\hat{\theta}_{MLE} = \arg\max_\theta \prod_{i=1}^{n} p(x_i|\theta) = \arg\max_\theta \sum_{i=1}^{n} \log p(x_i|\theta)\]

Maximum A Posteriori (MAP)¶

\[\hat{\theta}_{MAP} = \arg\max_\theta p(\theta|X) = \arg\max_\theta p(X|\theta) p(\theta)\]

Связь с регуляризацией¶

Gaussian prior → L2 регуляризация
Laplace prior → L1 регуляризация

Доверительные интервалы¶

Для среднего (известная σ)¶

\[\bar{x} \pm z_{\alpha/2} \frac{\sigma}{\sqrt{n}}\]

Для среднего (неизвестная σ)¶

\[\bar{x} \pm t_{\alpha/2, n-1} \frac{s}{\sqrt{n}}\]

Z-значения¶

90%: z = 1.645
95%: z = 1.96
99%: z = 2.576

Проверка гипотез¶

Z-тест¶

\[z = \frac{\bar{x} - \mu_0}{\sigma / \sqrt{n}}\]

t-тест¶

\[t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}}\]

t-тест для двух выборок¶

\[t = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{s_p^2(\frac{1}{n_1} + \frac{1}{n_2})}}\]

где $s_p^2 = \frac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1 + n_2 - 2}$

p-value¶

\[p = P(\text{статистика} \geq \text{наблюдаемая} | H_0)\]

Информационная теория¶

Энтропия¶

\[H(X) = -\sum_{x} p(x) \log p(x) = E[-\log p(X)]\]

Кросс-энтропия¶

\[H(p, q) = -\sum_{x} p(x) \log q(x)\]

KL-дивергенция¶

\[D_{KL}(p\|q) = \sum_{x} p(x) \log \frac{p(x)}{q(x)} = H(p, q) - H(p)\]

Взаимная информация¶

\[I(X; Y) = H(X) - H(X|Y) = H(X) + H(Y) - H(X, Y)\]

Условная энтропия¶

\[H(X|Y) = -\sum_{x,y} p(x,y) \log p(x|y)\]

Важные неравенства¶

Неравенство Маркова¶

\[P(X \geq a) \leq \frac{E[X]}{a}\]

Неравенство Чебышёва¶

\[P(|X - \mu| \geq k\sigma) \leq \frac{1}{k^2}\]

Закон больших чисел¶

\[\bar{X}_n \xrightarrow{p} \mu \text{ при } n \to \infty\]

Центральная предельная теорема¶

\[\frac{\bar{X}_n - \mu}{\sigma/\sqrt{n}} \xrightarrow{d} \mathcal{N}(0, 1)\]

A/B тестирование¶

Размер выборки (power analysis)¶

\[n = \frac{2(z_{\alpha/2} + z_\beta)^2 \sigma^2}{\Delta^2}\]

где $\Delta$ — минимальный эффект, $\beta$ — вероятность ошибки II рода

Uplift¶

\[\text{Uplift} = \frac{\bar{x}_B - \bar{x}_A}{\bar{x}_A}\]

Chi-squared тест¶

\[\chi^2 = \sum_{i} \frac{(O_i - E_i)^2}{E_i}\]

Типичные заблуждения¶

Заблуждение: KL-дивергенция симметрична

KL(p||q) != KL(q||p). Пример: p = N(0,1), q = N(0,10). KL(p||q) ~ 2.15 (p "видит" что q слишком широкое). KL(q||p) ~ 47.5 (q "видит" что p слишком узкое). В VAE используется KL(q(z|x) || p(z)), где q -- posterior, p -- prior N(0,I). Переставить аргументы = совсем другая оптимизация (mode-covering vs mode-seeking). В RLHF: KL(policy || reference) штрафует отклонение policy от baseline -- замена порядка аргументов сломает training.

Заблуждение: некоррелированность = независимость

Cov(X,Y) = 0 (некоррелированность) не означает независимость. Контрпример: X ~ N(0,1), Y = X^2. Корреляция Cov(X, X^2) = E[X^3] - E[X]*E[X^2] = 0 (для симметричного X), но Y полностью определяется X. Корреляция Пирсона ловит только линейную связь. Независимость означает P(A,B) = P(A)*P(B) для ВСЕХ событий. Единственное исключение: для многомерного нормального распределения некоррелированность = независимость.

Заблуждение: при MLE и MAP разница только в prior

Формально верно: MLE = argmax P(D|theta), MAP = argmax P(D|theta) * P(theta). Но практические последствия огромны. Gaussian prior N(0, sigma^2) в MAP эквивалентен L2 regularization с lambda = 1/(2*sigma^2). Laplace prior эквивалентен L1. MLE без prior при ограниченных данных переобучается: для логистической регрессии с linearly separable data веса уходят в бесконечность. MAP с Gaussian prior = Ridge regression -- всегда имеет конечное решение. Для нейросетей weight decay = MAP с Gaussian prior.

Интервью¶

Объясните связь между cross-entropy loss и KL-дивергенцией.

"Cross-entropy -- это loss для классификации, KL -- мера различия распределений"

"H(p,q) = H(p) + KL(p||q), где H(p) -- энтропия истинного распределения, H(p,q) -- cross-entropy, KL -- дивергенция. При обучении H(p) -- константа (зависит только от labels), поэтому минимизация cross-entropy = минимизация KL(true || predicted). Для one-hot labels H(p) = 0, т.е. CE = KL точно. Практический смысл: мы учим модель приближать предсказанное распределение q к истинному p. В knowledge distillation используем KL(teacher || student) напрямую с soft labels."

Как теорема Байеса связана с ML?

"Байес используется в Naive Bayes классификаторе"

"P(theta|D) ~ P(D|theta) * P(theta). В ML: (1) MLE = MAP без prior, (2) L2 regularization = Gaussian prior на веса, L1 = Laplace prior, (3) Bayesian Neural Networks оценивают полный posterior P(theta|D), дают uncertainty estimates, (4) Gaussian Processes -- непараметрический байесовский подход, posterior обновляется аналитически, (5) в RLHF reward model обучается через MLE: argmax sum log P(preferred > rejected | theta). Naive Bayes -- простейший пример, но принцип пронизывает весь ML."

Что такое Центральная предельная теорема и где она применяется в ML?

"Среднее выборки стремится к нормальному распределению"

"ЦПТ: (X_bar - mu) / (sigma/sqrt(n)) -> N(0,1) при n -> infinity, независимо от распределения X. В ML: (1) стохастический градиент -- среднее по mini-batch ~ нормальное, что обосновывает SGD с batch_size >= 32; (2) BatchNorm работает потому что среднее активаций по batch приблизительно нормально; (3) A/B тестирование -- z-тест для пропорций валиден при n >= 30 благодаря ЦПТ; (4) confidence intervals для метрик модели. Ограничение: ЦПТ не работает для тяжёлых хвостов (Cauchy distribution) -- важно для financial ML."