Cheatsheet

Теория вероятностей и статистика — all topics on one page

9 modules

27 articles

6 definitions

27 formulas

Contents

Аксиоматика теории вероятностей

Аксиомы Колмогорова, вероятностное пространство и классические вероятности

Вероятностное пространство и аксиомы Колмогорова

Вероятностное пространство → Аксиомы Колмогорова → Классическая вероятность → Историческое развитие аксиоматики → Типы событий и операции → Непрерывность вероятностной меры → Модели вероятностных пространств на практике → Численный пример: бросок трёх монет

Теория вероятностей получила строгое математическое основание в 1933 году, когда Андрей Николаевич Колмогоров опубликовал «Основные понятия теории вероятностей», заложив аксиоматическую базу, действующую по сей день.

Определение: Тройка (Ω, F, P), где: Ω — пространство элементарных исходов. F ⊆ 2^Ω — σ-алгебра событий. P: F → [0,1] — вероятностная мера.

σ-алгебра F: Семейство подмножеств Ω, удовлетворяющее: (1) Ω ∈ F; (2) A ∈ F → Aᶜ ∈ F (замкнутость относительно дополнения); (3) A₁, A₂,... ∈ F → ⋃ₙ Aₙ ∈ F (замкнутость относительно счётного объединения).

P1 (Неотрицательность): P(A) ≥ 0 для всех A ∈ F. P2 (Нормировка): P(Ω) = 1. P3 (Счётная аддитивность): Для попарно несовместных A₁, A₂,...: P(⋃ₙ Aₙ) = Σₙ P(Aₙ).

Условная вероятность и независимость

Условная вероятность → Независимость событий → Байесовский вывод на практике → Цепи условных вероятностей → Независимость в потоке информации → Каузальный вывод и парадокс Симпсона → Байесовский вывод и обновление убеждений → Численный пример: теорема Байеса — три урны

Definitions

Дерево событий — наглядный способ применять формулы условных вероятностей. Каждый узел — событие, каждая ветвь — условная вероятность перехода. Вероятность конечного исхода — произведение вероятностей по пути от корня. Сумма вероятностей листьев одного узла = 1.

Условная вероятность — вероятность события при условии, что другое событие произошло. Это позволяет обновлять наши знания при поступлении информации и лежит в основе байесовского вывода.

Теорема умножения: P(A₁∩A₂∩...∩Aₙ) = P(A₁)·P(A₂|A₁)·P(A₃|A₁A₂)·...·P(Aₙ|A₁...Aₙ₋₁).

Формула полной вероятности: Если B₁,...,Bₙ — полная группа (попарно несовместны, ⋃Bᵢ = Ω): P(A) = Σᵢ P(A|Bᵢ)P(Bᵢ).

Теорема Байеса: P(Bᵢ|A) = P(A|Bᵢ)P(Bᵢ) / Σⱼ P(A|Bⱼ)P(Bⱼ). «Апостериорная вероятность гипотезы Bᵢ при наблюдении A».

Геометрические вероятности и непрерывные пространства

Геометрические вероятности → Непрерывные вероятностные пространства → Парадокс Бертрана и проблема меры → Мера Лебега и «нулевые» вероятности → Метод Монте-Карло и геометрические вероятности → Непрерывные вероятностные пространства и σ-алгебры → Мера Лебега и абсолютная непрерывность → Численный пример: вычисление вероятности через плотность

Классическая вероятность предполагает конечное число равновероятных исходов. Для непрерывных пространств (отрезок, круг, ℝⁿ) нужны геометрические вероятности, определяемые через меру Лебега.

Принцип: В непрерывном пространстве «равновозможность» — равномерное распределение по мере (длине, площади, объёму). P(A) = мера(A)/мера(Ω).

Парадокс Бертрана (1889): «Случайная хорда» окружности — длиннее ли стороны вписанного равностороннего треугольника? Три разумных определения «случайной хорды» дают P = 1/2, P = 1/3, P = 1/4. Демонстрирует, что «равновозможность» без точного определения неоднозначна.

Игла Бюффона: Иглу длины l бросают на пол с параллельными линиями расстояния d (l < d). P(пересечь линию) = 2l/(πd). Позволяет оценить π через эксперимент!

Случайные величины и распределения

Дискретные и непрерывные распределения, функции от случайных величин

Дискретные распределения

Бернулли и биномиальное распределение → Отрицательное биномиальное и гипергеометрическое → Функция распределения и производящие функции → Аппроксимации и предельные теоремы для дискретных распределений → Реальные приложения дискретных распределений → Дисперсия и взаимосвязь моментов → Методы оценки параметров распределений → Численный пример: распределение Пуассона

Formulas

Бернулли: X ~ Bernoulli(p). P(X=1)=p, P(X=0)=1-p. E[X]=p, Var[X]=p(1-p).

Пуассоновское: X ~ Poisson(λ). P(X=k) = e^{-λ}λ^k/k!, k=0,1,2,... E[X] = Var[X] = λ. Предел Bin(n,p) при n→∞, p→0, np→λ.

Дискретная случайная величина принимает счётное число значений. Её полностью описывает функция вероятности (PMF) — вероятности каждого значения.

Биномиальное: X ~ Bin(n,p). X = число успехов в n независимых испытаниях Бернулли. P(X=k) = C(n,k)p^k(1-p)^{n-k}. E[X]=np, Var[X]=np(1-p). Производящая функция: G(z) = (1-p+pz)^n.

Пуассоновское: X ~ Poisson(λ). P(X=k) = e^{-λ}λ^k/k!, k=0,1,2,... E[X] = Var[X] = λ. Предел Bin(n,p) при n→∞, p→0, np→λ.

Геометрическое: X ~ Geom(p). X = число испытаний до первого успеха. P(X=k) = (1-p)^{k-1}p. E[X]=1/p, Var[X]=(1-p)/p². Свойство памяти без последствий: P(X>m+n|X>m) = P(X>n).

Непрерывные распределения

Нормальное распределение → Экспоненциальное и гамма-распределения → Логнормальное и тяжёлые хвосты → Свойство отсутствия памяти и его единственность → Суммы и преобразования случайных величин → Применения непрерывных распределений в науке и технике → Хвостовые вероятности и распределения экстремумов → Связь непрерывных распределений с реальными данными → Численный пример: нормальное и показательное распределения

Definitions

Аналог для дискретного случая — геометрическое распределение (P(X > m+n | X > m) = P(X > n)). Это объясняет, почему пуассоновские процессы (непрерывное время, экспоненциальные межсобытийные интервалы) и цепи Маркова (дискретное время, геометрические времена пребывания) математич...

Formulas

X ~ N(μ, σ²): f(x) = (1/√(2πσ²)) exp(-(x-μ)²/(2σ²)). E[X]=μ, Var[X]=σ². Симметрично, 68-95-99.7 правило (±1σ, ±2σ, ±3σ).

Гамма-распределение: X ~ Gamma(α,β). f(x) = β^α x^{α-1}e^{-βx}/Γ(α). E[X]=α/β, Var[X]=α/β². При α=1: Exp(β). Сумма n Exp(λ) ~ Gamma(n,λ).

Непрерывная случайная величина имеет плотность распределения f(x) ≥ 0 с ∫f dx = 1. Вероятность попасть в интервал — интеграл плотности.

X ~ N(μ, σ²): f(x) = (1/√(2πσ²)) exp(-(x-μ)²/(2σ²)). E[X]=μ, Var[X]=σ². Симметрично, 68-95-99.7 правило (±1σ, ±2σ, ±3σ).

Стандартное: Z ~ N(0,1). Функция Φ(z) = P(Z≤z). P(a<X<b) = Φ((b-μ)/σ) - Φ((a-μ)/σ).

Сумма нормальных: Если X~N(μ₁,σ₁²) и Y~N(μ₂,σ₂²) независимы: X+Y~N(μ₁+μ₂, σ₁²+σ₂²).

Многомерные распределения и копулы

Двумерное нормальное распределение → Теорема Склара и копулы → Маргинальные и условные распределения → Многомерное нормальное распределение → Зависимость, корреляция и меры связи → Роль копул в финансовом кризисе 2008 года → Условное распределение и совместные моменты → Симуляция многомерных распределений → Численный пример: условное распределение в двумерной нормальной

Formulas

Шаг 2: Условная дисперсия: Var[X₂|X₁] = σ₂²·(1−ρ²) = 1·(1−0.49) = 0.51, σ ≈ 0.714.

•Гауссова: C_Gauss(u,v) = Φ₂(Φ⁻¹(u), Φ⁻¹(v); ρ)
•Клейтоновская: C_Clay(u,v) = (u⁻ᵅ + v⁻ᵅ - 1)^{-1/α}
•Гумбелевская: хвостовая зависимость верхних хвостов

Многомерные распределения описывают совместное поведение нескольких случайных величин. Копулы — мощный инструмент для моделирования зависимостей между переменными независимо от их маргинальных распределений.

Совместная плотность: (X,Y) ~ N₂(μ,Σ). Σ = [[σ₁², ρσ₁σ₂],[ρσ₁σ₂, σ₂²]]. Параметр корреляции ρ = Cov(X,Y)/(σ₁σ₂). Условные: Y|X=x ~ N(μ₂+ρσ₂/σ₁(x-μ₁), σ₂²(1-ρ²)).

Корреляция ≠ зависимость: При ρ=0: X и Y некоррелированы, но не обязательно независимы (для нормальных — эквивалентно!).

Теорема Склара (1959): Для совместного CDF H(x,y) = C(F₁(x), F₂(y)), где F₁, F₂ — маргинальные CDFs, C: [0,1]² → [0,1] — копула. При непрерывных маргиналях: C единственна.

Математическое ожидание и моменты

Моменты, производящие функции, неравенства и закон больших чисел

Математическое ожидание и моменты

Математическое ожидание → Дисперсия и ковариация → Условное математическое ожидание → Неравенство Йенсена и выпуклость → Неравенство Маркова: происхождение и следствия → Концентрация меры и высокие измерения → Мартингалы и неравенство Азумы-Хёффдинга → Численный пример: применение неравенства Чебышёва (ЗБЧ)

Formulas

Дисперсия: Var[X] = E[(X-E[X])²] = E[X²] - (E[X])². Σ — стандартное отклонение. Var[aX+b] = a²Var[X]. Var[X+Y] = Var[X] + Var[Y] + 2Cov(X,Y).

Шаг 1: Дисперсия: σ² = p(1−p) = 0.4·0.6 = 0.24. Var[X̄ₙ] = σ²/n = 0.24/n.

Шаг 2: Неравенство Чебышёва: P(|X̄ₙ−μ|≥ε) ≤ Var[X̄ₙ]/ε² = 0.24/(n·0.0025).

Математическое ожидание — «центр тяжести» распределения. Моменты характеризуют форму распределения: среднее, дисперсия, асимметрия, эксцесс.

Определение: E[X] = Σ x·P(X=x) (дискретная), ∫ x·f(x)dx (непрерывная). Существует при Σ|x|P(X=x) < ∞.

Линейность: E[aX+bY] = aE[X] + bE[Y] — всегда (независимо от зависимости X,Y!). E[X₁+...+Xₙ] = nμ (при одинаковых E[Xᵢ]=μ).

Для функций: E[g(X)] = Σ g(x)P(X=x) = ∫ g(x)f(x)dx. Неравенство Йенсена: для выпуклой g: E[g(X)] ≥ g(E[X]).

Производящие функции и характеристические функции

Производящая функция моментов (МГФ) → Производящая функция вероятностей (ПФВ) → Характеристическая функция → МГФ и вычисление моментов распределений → Тяжёлые хвосты и отсутствие МГФ → Производящие функции и рекуррентные цепи событий → Характеристическая функция: применения и теоремы → МГФ для оценки рисков: Value-at-Risk и CVaR → Численный пример: моменты через МГФ

Formulas

Для дискретных X ≥ 0: G_X(z) = E[z^X] = Σ_k P(X=k)z^k. P(X=k) = G^{(k)}(0)/k!. E[X] = G'(1), Var[X] = G''(1) + G'(1) - (G'(1))².

Задача: X ~ Exp(λ=3). Найти E[X] и Var[X] через производящую функцию моментов.

Производящие функции — мощный инструмент для работы с распределениями суммы независимых случайных величин. Характеристическая функция существует всегда и единственно определяет распределение.

Определение: M_X(t) = E[e^{tX}] = Σ E[Xⁿ]tⁿ/n! (ряд Тейлора). При существовании в окрестности t=0: E[Xⁿ] = M_X^{(n)}(0). МГФ единственно определяет распределение.

Для суммы независимых: M_{X+Y}(t) = M_X(t)·M_Y(t). Это превращает свёртки в умножения.

Примеры: Poisson(λ): M(t) = exp(λ(eᵗ-1)). N(μ,σ²): M(t) = exp(μt + σ²t²/2). Сумма нормальных: M_{X+Y} = exp((μ₁+μ₂)t + (σ₁²+σ₂²)t²/2) → N(μ₁+μ₂, σ₁²+σ₂²). ✓

Неравенства теории вероятностей

Базовые неравенства → Концентрационные неравенства → Неравенство Азумы-Хёффдинга → Неравенство Чернова и применения → Субгауссовские и субэкспоненциальные случайные величины → Размерность VC и обобщение в ML → Рандомизированные алгоритмы и вероятностный анализ → Метод второго момента → Концентрация меры и высокая размерность → Численный пример: сравнение трёх неравенств

Formulas

Шаг 1 (Чебышёв): Var[X̄]=p(1−p)/n=0.16/100=0.0016. P(|X̄−0.2|≥0.1) ≤ Var[X̄]/ε² = 0.0016/0.01 = 0.16 (оценка: 16%).

Вероятностные неравенства позволяют оценивать вероятности событий без полного знания распределения. Они критически важны для статистики, машинного обучения и теории информации.

Неравенство Маркова: Для X ≥ 0, a > 0: P(X ≥ a) ≤ E[X]/a. Доказательство: E[X] ≥ E[X·1_{X≥a}] ≥ a·P(X≥a).

Неравенство Чебышёва: Для любого X с конечным E[X]=μ, Var[X]=σ²: P(|X-μ| ≥ k) ≤ σ²/k² или P(|X-μ| ≥ kσ) ≤ 1/k². Не требует знания распределения, только μ и σ².

Неравенство Йенсена: Для выпуклой g: E[g(X)] ≥ g(E[X]). Следствия: E[X²] ≥ (E[X])² (дисперсия ≥ 0). E[e^X] ≥ e^{E[X]}.

Предельные теоремы

ЗБЧ, ЦПТ, теоремы о больших уклонениях

Закон больших чисел

Слабый и сильный ЗБЧ → Применения ЗБЧ → Закон итерированного логарифма → Сильный vs. слабый ЗБЧ → Применения ЗБЧ в вычислениях → Ergodic theorem и сильный ЗБЧ для зависимых данных → Метод характеристических функций в ЗБЧ → Вероятностный метод в комбинаторике → Неравенства для суммы случайных переменных → Численный пример: ЗБЧ на подбрасывании монет

Formulas

ЗБЧ без конечной дисперсии (Хинчин): Достаточно конечности E[|X|]. При Var[X]=∞ ЗБЧ всё равно выполнен!

Шаг 1: Var[X̄ₙ] = p(1−p)/n = 0.25/n. Стандартное отклонение: σ[X̄ₙ] = 0.5/√n.

Закон больших чисел (ЗБЧ) — фундаментальный результат теории вероятностей: среднее большого числа независимых случайных величин сходится к их математическому ожиданию. Это математическое основание статистики.

Слабый ЗБЧ (Чебышёв, 1866): Для i.i.d. X₁,...,Xₙ с E[Xᵢ]=μ и Var[Xᵢ]=σ² < ∞: X̄ₙ = (X₁+...+Xₙ)/n →_P μ (сходимость по вероятности). Доказательство через Чебышёв: P(|X̄ₙ-μ| ≥ ε) ≤ σ²/(nε²) → 0.

Сильный ЗБЧ (Колмогоров): При тех же условиях: X̄ₙ → μ почти наверное (P(lim X̄ₙ = μ) = 1). Сильнее слабого (п.н. → по вероятности, но не наоборот).

ЗБЧ без конечной дисперсии (Хинчин): Достаточно конечности E[|X|]. При Var[X]=∞ ЗБЧ всё равно выполнен!

Центральная предельная теорема

Классическая ЦПТ → Обобщения ЦПТ → Применения ЦПТ → Скорость сходимости в ЦПТ → Многомерная ЦПТ и функциональные пределы → Пуассоновская аппроксимация: теорема Чен-Стейна → Обобщённая ЦПТ и устойчивые распределения → Случайные матрицы и спектральные распределения → Теорема непрерывности Леви → Скорость сходимости в ЦПТ: неравенство Берри-Эссена

Formulas

Теорема (Линдеберг-Леви): Для i.i.d. X₁,...,Xₙ с E[Xᵢ]=μ, Var[Xᵢ]=σ² < ∞: (X̄ₙ - μ)/(σ/√n) →_d N(0,1). Эквивалентно: (Sₙ - nμ)/(σ√n) →_d N(0,1).

Шаг 1: E[Xᵢ]=1/2, Var[Xᵢ]=1/12. Для суммы: E[S₃₆]=36·(1/2)=18, Var[S₃₆]=36·(1/12)=3.

Центральная предельная теорема (ЦПТ) — один из важнейших результатов математики. Она объясняет, почему нормальное распределение встречается повсеместно: сумма большого числа независимых случайных величин приближается к нормальному.

Скорость сходимости (Berry-Esseen): |P((Sₙ-nμ)/(σ√n) ≤ x) - Φ(x)| ≤ C·ρ/(σ³√n), где ρ = E[|X-μ|³]. При C ≤ 0.4748. Скорость O(1/√n).

Доказательство через характеристические функции: φ_{(Sₙ-nμ)/(σ√n)}(t) = [φ_X(t/(σ√n))]ⁿ. Разложением φ_X(t) ≈ 1 - t²/2 + ... при малых t: → exp(-t²/2) = φ_{N(0,1)}(t). Теорема непрерывности Леви → CDF сходится к нормальной.

Сходимости случайных величин и большие уклонения

Виды сходимости → Теория больших уклонений → Функция скорости и скорость убывания вероятностей → Принцип больших уклонений: общая теория → Связь функции скорости с энтропией → Ланжевеновская динамика и выборка из непрерывных распределений → Принцип максимума энтропии → Теория информации и вероятность → Дифференциальная энтропия и её свойства → Численный пример: функция скорости уклонения Крамера

Существует несколько различных понятий сходимости последовательностей случайных величин. Теория больших уклонений (Large Deviations Theory) изучает вероятности редких событий — экспоненциально малые вероятности отклонений от среднего.

Почти наверное (п.н.): Xₙ →_{п.н.} X, если P(lim Xₙ = X) = 1. Сильнее, чем по вероятности. Следствие: сходимость по вероятности.

По распределению (слабая): Xₙ →_d X, если F_{Xₙ}(x) → F_X(x) для всех точек непрерывности F_X. Самая слабая — не требует совпадения на одном вероятностном пространстве.

В среднеквадратичном: Xₙ →_{L²} X, если E[(Xₙ-X)²] → 0. Сильнее по вероятности, несравнимо с п.н.

Выборочная статистика и оценивание

Методы оценивания параметров, непараметрические методы и достаточные статистики

Параметрическое оценивание

Метод максимального правдоподобия (ММП) → Байесовское оценивание → EM-алгоритм → Теория оценивания: полнота и достаточность → Байесовское оценивание: апостериорные функционалы → Сопряжённые семейства прайоров в байесовском анализе → Байесовская модель выбора и сравнение моделей → Апостериорное предсказание и калибровка → Вариационный байесовский вывод → Байесовское обновление в реальном времени

Formulas

ОМП: θ̂_MLE = argmax_θ ℓ(θ). Решение: ∂ℓ/∂θ = 0 (уравнения правдоподобия).

Информация Фишера: I(θ) = E[-(∂²ℓ/∂θ²)] = Var[∂ℓ/∂θ]. Нижняя граница Крамера-Рао: Var[θ̂] ≥ 1/(nI(θ)).

Байесовские оценки: MAP (maximum a posteriori): θ̂_MAP = argmax π(θ|x). EAP (expected a posteriori): θ̂_Bayes = E[θ|x] — минимизирует MSE.

EM: E-шаг: Q(θ|θ^t) = E_{z|x,θ^t}[log P(x,z;θ)]. M-шаг: θ^{t+1} = argmax_θ Q(θ|θ^t). Гарантированно не уменьшает ℓ на каждом шаге.

Статистическое оценивание — построение оценок неизвестных параметров по наблюдённым данным. Метод максимального правдоподобия, байесовский подход и метод моментов — три основных парадигмы.

Функция правдоподобия: L(θ; x₁,...,xₙ) = Πᵢ f(xᵢ; θ) (для i.i.d. выборки). Log-правдоподобие: ℓ(θ) = Σᵢ log f(xᵢ; θ).

Свойства ОМП: Состоятельность: θ̂_n →_P θ₀. Асимптотическая нормальность: √n(θ̂_n - θ₀) →_d N(0, I(θ₀)⁻¹). Асимптотическая эффективность: достигает нижней границы Крамера-Рао.

Информация Фишера: I(θ) = E[-(∂²ℓ/∂θ²)] = Var[∂ℓ/∂θ]. Нижняя граница Крамера-Рао: Var[θ̂] ≥ 1/(nI(θ)).

Непараметрические методы и бутстрэп

Непараметрические критерии → Оценка функции плотности → Бутстрэп → Непараметрическая статистика: подробности → Бутстрэп: теория и варианты → Ранговые тесты и их мощность → Методы повторных выборок: jackknife и permutation tests → Байесовские непараметрические методы → Гауссовские процессы в регрессии → Численный пример: бутстрэп-оценка стандартной ошибки

•{1,1,5,9,7} → x̄*=23/5=4.6;
•{3,5,5,9,9} → x̄*=31/5=6.2;
•{7,7,3,1,5} → x̄*=23/5=4.6;
•{9,5,7,5,3} → x̄*=29/5=5.8.

Непараметрические методы не предполагают конкретной формы распределения. Они применяются, когда предположения параметрических методов нарушены. Бутстрэп — универсальная техника оценки погрешностей.

Знаковый критерий: H₀: медиана = m₀. Статистика: число наблюдений > m₀. При H₀: ~ Bin(n, 0.5). Не зависит от формы распределения, но малоэффективен.

Критерий знаковых рангов Вилкоксона: Учитывает размер отклонений. Вычисляем dᵢ = xᵢ - m₀, ранжируем |dᵢ|, W⁺ = сумма рангов с dᵢ > 0. При H₀: E[W⁺] = n(n+1)/4, Var[W⁺] = n(n+1)(2n+1)/24.

Критерий Манна-Уитни: Непараметрический двухвыборочный. U = #{(xᵢ,yⱼ): xᵢ>yⱼ}. При H₀: E[U] = n₁n₂/2. Аналог двухвыборочного t-теста без нормальности.

Достаточные статистики и теорема Рао-Блэкуэлла

Достаточные статистики → Теорема Рао-Блэкуэлла → УМНО-оценки (UMVUE) → Теорема Рао-Блэкуэлла: алгоритм применения → Оптимальность и нижние оценки дисперсии → Методы робастной оценки → Достаточность в многомерных моделях → Пример применения теоремы Рао-Блэкуэлла → Численный пример: теорема Рао-Блэкуэлла

Formulas

Шаг 1: δ(X)=X₁ несмещена: E[X₁]=p. Var[X₁]=p(1−p). Достаточная статистика: T=X₁+X₂+X₃+X₄.

Достаточная статистика сжимает всю информацию о параметре из выборки. Теорема Рао-Блэкуэлла позволяет улучшить любую оценку, условно усредняя по достаточной статистике.

Определение (Фишер, 1922): Статистика T(X) достаточна для θ, если условное распределение выборки при фиксированном T не зависит от θ. Интуиция: T содержит всё, что выборка знает о θ.

Критерий факторизации (Неймана-Фишера): T достаточна тогда и только тогда, когда правдоподобие факторизуется: L(θ; x) = g(T(x); θ) · h(x). Часть, зависящая от θ, входит только через T(x).

Примеры: Poisson(λ): T = ΣXᵢ. Bernoulli(p): T = ΣXᵢ. N(μ, σ² известна): T = X̄ = ΣXᵢ/n. N(μ, σ² неизвестна): T = (ΣXᵢ, ΣXᵢ²) — двумерная достаточная статистика.

Проверка статистических гипотез

Критерии проверки гипотез, регрессионный анализ и критерии согласия

Проверка статистических гипотез

Основные понятия → Критерии для нормального распределения → Лемма Неймана-Пирсона → Множественное тестирование → Мощность критерия и размер выборки → Байесовские факторы и альтернативы p-значениям → Последовательные тесты (SPRT) → Байесовские тесты и процедуры → Множественное сравнение в клинических испытаниях → Адаптивные тесты и задачи распределённого вывода

Проверка гипотез — формализованная процедура принятия решений на основе данных. Нулевая гипотеза H₀ отвергается или не отвергается на основе статистики критерия.

Нулевая (H₀) и альтернативная (H₁) гипотезы. Уровень значимости α = P(ошибка I рода) = P(отвергнуть H₀ | H₀ верна). Мощность 1-β = P(отвергнуть H₀ | H₁ верна).

p-значение: p = P(наблюдаемая статистика или более экстремальная | H₀). Если p < α → отвергаем H₀. p-значение ≠ вероятность H₀ (ошибочная интерпретация!).

t-тест Стьюдента: σ неизвестна. T = (X̄-μ₀)/(S/√n) ~ t(n-1). |T| > t_{α/2,n-1} → отвергаем.

Линейная регрессия и дисперсионный анализ

Простая линейная регрессия → Множественная линейная регрессия → Однофакторный дисперсионный анализ (ANOVA) → Регуляризованная регрессия: Ridge и Lasso → Двухфакторный ANOVA и взаимодействие → Диагностика линейной регрессии: углублённый анализ → Нелинейная регрессия → Пространственная регрессия и геостатистика → Причинно-следственный вывод (Causal Inference) → Численный пример: простая линейная регрессия

Formulas

Матричная форма: Y = Xβ + ε. МНК: β̂ = (XᵀX)⁻¹XᵀY. Ĥ = X(XᵀX)⁻¹Xᵀ — матрица проекции. Var[β̂] = σ²(XᵀX)⁻¹.

Линейная регрессия моделирует зависимость между переменными и является важнейшим инструментом прикладной статистики. Дисперсионный анализ обобщает t-тест на несколько групп.

Модель: Yi = β₀ + β₁xᵢ + εᵢ, εᵢ ~ N(0, σ²) i.i.d. МНК-оценки: β̂₁ = Σ(xᵢ-x̄)(yᵢ-ȳ)/Σ(xᵢ-x̄)², β̂₀ = ȳ - β̂₁x̄.

Теорема Гаусса-Маркова: β̂ — BLUE (best linear unbiased estimator) среди всех линейных несмещённых оценок. Var[β̂₁] = σ²/Σ(xᵢ-x̄)². S² = RSS/(n-2) — несмещённая оценка σ².

Коэффициент детерминации R²: R² = 1 - RSS/TSS, RSS = Σ(yᵢ-ŷᵢ)², TSS = Σ(yᵢ-ȳ)². R² = cor(y, ŷ)² при простой регрессии. Доля объяснённой вариации ∈ [0,1].

Критерии согласия

Критерий хи-квадрат Пирсона → Критерий Колмогорова-Смирнова → Критерий Шапиро-Уилка на нормальность → Критерий Андерсона-Дарлинга → Проверка симметрии и тяжёлых хвостов → Тесты согласия для дискретных распределений → Проверка на избыточную дисперсию (overdispersion) → Тесты согласия в байесовской статистике → Информационные критерии и выбор модели → Численный пример: χ²-тест согласия и критерий AIC

Критерии согласия проверяют соответствие данных предполагаемому теоретическому распределению. Это важный шаг в статистическом анализе перед применением параметрических методов.

Идея: Разбить данные на k ячеек с наблюдёнными частотами Oᵢ и теоретическими Eᵢ = nPᵢ(θ). Статистика: χ² = Σᵢ(Oᵢ - Eᵢ)²/Eᵢ. При H₀ асимптотически: χ² ~ χ²(k-1-r), где r — число оцененных параметров.

Условия применимости: Eᵢ ≥ 5 для каждой ячейки (при нарушении — объединить соседние). Независимые наблюдения. Минимум n ≥ 30-50.

Таблицы сопряжённости: Проверка независимости двух категориальных переменных. χ² = Σᵢⱼ(Oᵢⱼ - Eᵢⱼ)²/Eᵢⱼ, Eᵢⱼ = nᵢ·nⱼ/n. Степени свободы: (r-1)(c-1).

Случайные процессы

Цепи Маркова, пуассоновский процесс, мартингалы и теория оптимальной остановки

Цепи Маркова с дискретным временем

Определение и свойства Маркова → Классификация состояний → Стационарное и предельное распределение → Эргодичность и предельные теоремы для цепей Маркова → MCMC: Метрополис-Гастингс и сэмплирование Гиббса → Скрытые марковские модели (HMM) → Теорема о сходимости MCMC → Вариационные методы и нормализующие потоки → Спектральные методы в кластеризации → Численный пример: стационарное распределение цепи Маркова

Definitions

Эргодическая цепь — неразложимая, непериодическая, положительно рекуррентная. Для эргодической цепи: μₙ → π (геометрически быстро при конечном S). Скорость смешения: gap спектра Lₛ = 1 − λ₂ (λ₂ — второе наибольшее собственное значение P). Время смешения: τ_mix ≈ 1/ga...

Цепь Маркова — стохастический процесс без памяти: будущее зависит только от настоящего, не от прошлого. Это мощная модель для систем с «состояниями»: очереди, рынки, геномные последовательности, PageRank.

Определение: Последовательность X₀, X₁, X₂,... со значениями в конечном/счётном множестве S удовлетворяет марковскому свойству: P(Xₙ₊₁ = j | X₀,...,Xₙ) = P(Xₙ₊₁ = j | Xₙ) для всех n и j.

Матрица переходов: Pᵢⱼ = P(Xₙ₊₁ = j | Xₙ = i). Стохастическая: Pᵢⱼ ≥ 0, ΣⱼPᵢⱼ = 1 для всех i.

n-шаговые переходы: P(Xₙ = j | X₀ = i) = (Pⁿ)ᵢⱼ — (i,j)-й элемент матрицы Pⁿ.

Пуассоновский процесс и цепи Маркова в непрерывном времени

Пуассоновский процесс → Цепи Маркова в непрерывном времени (ЦМНВ) → Неоднородный и составной пуассоновский процессы → Теория очередей: расширения и практика → Непрерывные цепи Маркова: подробнее → Вычислительная сложность задач теории очередей → Нелинейные цепи Маркова и приложения в AI → Случайные блуждания: возвратность и рекуррентность → Ковариационные структуры в непрерывных процессах → Численный пример: Пуассоновский процесс и НМПВ

Formulas

Шаг 2: Между 3-й и 5-й заявками — суммарный интервал T₄+T₅ (два i.i.d. Exp(3)). E[T₄+T₅]=2/3 ч≈40 мин. Var=2/9 ч².

Пуассоновский процесс — стандартная модель событий, происходящих случайно во времени (звонки в call-center, распад атомов, транзакции). ЦМНВ описывают системы с непрерывным временем и дискретными состояниями.

Определение: {N(t), t ≥ 0} — Пуассоновский процесс с интенсивностью λ, если: 1. N(0) = 0 2. Независимость приращений на непересекающихся интервалах 3. N(t+s) - N(t) ~ Poisson(λs) для всех t,s > 0

Межсобытийные интервалы: Tᵢ = время между i-м и (i-1)-м событиями ~ Exp(λ) независимы.

Суперпозиция: Слияние двух Пуассоновских процессов с λ₁ и λ₂ — Пуассоновский с λ₁+λ₂. Прореживание (thinning): каждое событие независимо включается с вероятностью p — Пуассоновский с pλ.

Мартингалы и теория оптимальной остановки

Мартингалы → Теоремы о мартингалах → Оптимальная остановка → Теория оптимальной остановки: общий подход → Неравенства для мартингалей → Теория оптимальной остановки → Опциональная теорема о выборке (Doob's OST) → Stochastic dominance и сравнение распределений → Теория мартингалов в дискретной оптимизации → Теорема Дуба-Мейера и компенсатор

Мартингал — стохастический процесс без «систематического дрейфа»: ожидаемое будущее значение равно текущему. Это математическое воплощение «честной игры» и основа финансовой математики.

Определение: Последовательность {Mₙ, Fₙ} — мартингал относительно фильтрации {Fₙ}, если: (1) Mₙ Fₙ-измерима; (2) E[|Mₙ|] < ∞; (3) E[Mₙ₊₁|Fₙ] = Mₙ.

Примеры: Симметричное случайное блуждание: Sₙ = X₁+...+Xₙ, Xᵢ = ±1. E[Sₙ₊₁|Fₙ] = Sₙ. Mₙ = Sₙ² - n — тоже мартингал (подходит для вычисления E[τ]).

Теорема об опциональной остановке (Дуб): При достаточных условиях для мартингала Mₙ и времени остановки τ: E[M_τ] = E[M₀]. «В честной игре ожидаемый выигрыш = 0».

Стохастическое исчисление

Броуновское движение, интеграл Ито, лемма Ито и стохастические методы в финансах

Броуновское движение: конструкция и свойства

Определение и конструкция → Ключевые свойства → Броуновское движение: конструкция и свойства → Пространство путей и меры Винера → Многомерное броуновское движение и корреляция → Стохастические дифференциальные уравнения: существование и единственность → Процессы с прыжками: модели Ле́ви → Измерение рисков: VaR и CVaR → Численные методы в стохастических задачах → Формула Феймана-Каца

Броуновское движение (Винеровский процесс) — математическая модель хаотического движения, описанного Броуном в 1827 году при наблюдении пыльцы на воде. Оно является пределом случайных блужданий и фундаментом стохастического анализа.

Стандартное броуновское движение: Процесс {W_t, t ≥ 0} такой, что: 1. W₀ = 0 2. Независимость приращений: W_{t₄}-W_{t₃} ⊥ W_{t₂}-W_{t₁} при 0≤t₁<t₂≤t₃<t₄ 3. Нормальность: W_t - W_s ~ N(0, t-s) 4. Непрерывность траекторий: t → W_t непрерывно

Конструкция (Леви-Чентсов): Через гауссовский ряд по функциям Хаара: W_t = Σ_{n,k} Z_{nk}·H_{nk}(t). Или через ЦПТ: W_t = lim_{n→∞} S_{⌊nt⌋}/√n (скейлинговый предел случайного блуждания).

Негладкость: W_t везде непрерывно, но нигде не дифференцируемо (п.н.). Вариация: полная вариация бесконечна, квадратичная вариация [W]_t = t (конечна!). [W,W]_t = t — «ключевой факт», на котором строится лемма Ито.

Лемма Ито и стохастические дифференциальные уравнения

Интеграл Ито → Лемма Ито → СДУ и геометрическое броуновское движение → Стохастические дифференциальные уравнения → Теорема Гирсанова и нейтральная к риску мера → Частичное дифференциальное уравнение Блэка-Шоулза → Греки: чувствительность опционов → Имплицированная волатильность и улыбка волатильности → Процентные ставки и модели кривой доходности → Мера нейтральная к риску и фундаментальные теоремы ценообразования

Лемма Ито — стохастический аналог цепного правила дифференцирования. Из-за ненулевой квадратичной вариации броуновского движения появляется дополнительный «поправочный» член второго порядка.

Интеграл ∫₀^T f_t dW_t для адаптированных процессов fₜ. Нельзя определить поточечно (W_t нигде не дифференцируем). Определяется как L²-предел ступенчатых процессов.

Свойства: Мартингал: E[∫₀^T f dW] = 0. Изометрия Ито: E[(∫₀^T f dW)²] = E[∫₀^T f² dt].

Пусть dX = b dt + σ dW, f ∈ C²(ℝ). Тогда: df(X_t) = f'(X_t) dX_t + (1/2)f''(X_t) d[X,X]_t = [f'(X_t)b + (1/2)f''(X_t)σ²] dt + f'(X_t)σ dW_t.

Стохастические методы в финансах

Теорема Гирсанова и нейтральная к риску мера → Формула Блэка-Шоулза → Стохастическая оптимизация (Мертон) → Греки опционов: полная таблица → Подразумеваемая волатильность (IV) и улыбка волатильности → Портфель Мертона и задача максимизации утилиты → Стохастическое управление и принцип динамического программирования → Задача Портфолио Марковица в непрерывном времени → Теория экстремальных значений в финансах → Кредитный риск и структурные модели

Definitions

Уравнение Гамильтона-Якоби-Беллмана: — V_t + r W V_W - (μ-r)²/(2σ²) (V_W)²/V_{WW} = 0. Нелинейное PDE для функции ценности V(W,t).

IV — значение σ, при котором формула BS даёт рыночную цену. IV ≠ реализованная волатильность. Улыбка волатильности: IV зависит от страйка K — нарушение предположений BS. В реальности: IV выше для OTM опционов (хвостовой риск). Поверхность волатильности...

Formulas

Решение (CARA u = -e^{-γW}): Оптимальная π* = (μ-r)/(γσ²W) — постоянная доля активов в акции. «Правило Мертона».

Математическая финансовая теория использует стохастическое исчисление для ценообразования деривативов, управления рисками и оптимального инвестирования. Теорема Гирсанова и формула Блэка-Шоулза — центральные результаты.

Проблема: В реальном мире акция растёт со ставкой μ > r (безрисковая). Для ценообразования нужна «нейтральная к риску» мера Q.

Теорема Гирсанова: При замене меры с P на Q через dQ/dP = e^{-θW_T - θ²T/2}: W̃_t = W_t + θt — Q-броуновское движение. Для GBM с μ: dS = μS dt + σS dW → dS = rS dt + σS dW̃ (при θ=(μ-r)/σ).

Ценообразование: V₀(F) = e^{-rT} E^Q[F_T] — цена деривата с выплатой F_T. Это следует из отсутствия арбитража: дисконтированная цена — Q-мартингал.

Асимптотическая статистика и робастность

Сходимость оценок, граница Крамера-Рао, эффективность и робастное оценивание

Асимптотические свойства оценок и дельта-метод

Состоятельность → Асимптотическая нормальность ОМП → Дельта-метод → Дельта-метод: второй порядок и многомерный случай → Информация Фишера: смысл и применения → Регрессия как задача оценивания → Асимптотические критерии: тесты Вальда, Рао, Wald → Бутстрэп в оценке информации Фишера → Регуляризованное оценивание при высокой размерности → Теория оценивания при ограничениях

Definitions

I(θ) = -E[∂²/∂θ² log f(X;θ)] — «ожидаемая информация» в одном наблюдении. Чем больше кривизна log-правдоподобия, тем больше информации. Информационное неравенство: Var(θ̂) ≥ 1/(nI(θ)) — нижний предел дисперсии. Для нормального N(μ,σ²): I(μ)=1/σ², I(σ²)=1/(2σ⁴). Для Poisson(λ): ...

Formulas

Шаг 2: При p̂=0.3: g'(0.3)=1/(0.3·0.7)=1/0.21≈4.762. Var[g(p̂)]≈[g'(p̂)]²·p̂(1−p̂)/n=22.68·0.21/100=0.0476.

Асимптотическая статистика изучает поведение оценок при n → ∞. Состоятельность, асимптотическая нормальность и дельта-метод — основные инструменты для анализа свойств оценок.

Слабая состоятельность: θ̂ₙ →_P θ₀ при n→∞. Достаточное условие: Bias(θ̂ₙ)→0 и Var[θ̂ₙ]→0. Среднеквадратическая состоятельность (MSE→0) влечёт слабую.

Сильная состоятельность: θ̂ₙ →_{п.н.} θ₀. ОМП сильно состоятелен при регулярных условиях — следует из сильного ЗБЧ применённого к лог-правдоподобию.

Инвариантность ОМП: Если θ̂ — ОМП для θ, то g(θ̂) — ОМП для g(θ) (для любой функции g). Это следствие определения через максимум правдоподобия.

Граница Крамера-Рао и асимптотическая эффективность

Информация Фишера → Неравенство Крамера-Рао → Асимптотическая эффективность → Относительная эффективность оценок → Выпуклость и оценка из семейства экспонент → Оценки методом моментов и их эффективность → Тест Хаусмана: эффективность vs. состоятельность → Инструментальные переменные и двухшаговый МНК → Экспоненциальные неравенства Беннетта и Бернштейна → Сверхэффективность и теорема Ле Кама

Formulas

Формулировка: Для несмещённой оценки θ̂ при регулярных условиях: Var[θ̂] ≥ 1/(n·I(θ)). Нижняя граница дисперсии CRB = 1/(nI(θ)).

Задача: X₁,...,X₁₀₀ ~ Bernoulli(p). Найти I(p), нижнюю границу Var[p̂] при p=0.4. Сравнить с Var[X̄].

Шаг 3: При p=0.4: I(0.4)=1/(0.4·0.6)=1/0.24≈4.167. Граница КР для n=100: Var[p̂]≥1/(n·I(p))=1/(100·4.167)=0.0024. SE≥√0.0024≈0.049.

Граница Крамера-Рао устанавливает нижний предел дисперсии несмещённых оценок. Асимптотически эффективная оценка достигает этой границы при n → ∞.

Определение: I(θ) = E[(∂ log f(X;θ)/∂θ)²] = -E[∂² log f(X;θ)/∂θ²]. Информация Фишера измеряет «крутизну» функции правдоподобия — чем она выше, тем точнее можно оценить θ.

Аддитивность: Для n i.i.d. наблюдений: Iₙ(θ) = n·I(θ). Матричная форма: I(θ)ᵢⱼ = -E[∂² log f/∂θᵢ∂θⱼ] — информационная матрица Фишера.

Примеры: N(μ,σ²) при σ² известной: I(μ)=1/σ². Poisson(λ): I(λ)=1/λ. Bernoulli(p): I(p)=1/(p(1-p)). Exp(λ): I(λ)=1/λ².

Робастное оценивание и M-оценки

Точка разрыва и функция влияния → M-оценки (Huber, 1964) → Алгоритм IRLS и асимптотика → Точка разрыва и устойчивость оценок → Робастные оценки рассеяния и матрицы ковариации → Тест на выбросы и методы обнаружения аномалий → Связь с теорией выживания → Копулы и зависимость хвостов → Многомерная статистика и анализ главных компонент → Численный пример: метод главных компонент (PCA)

Классические оценки (среднее, ОМП) чувствительны к выбросам. Робастная статистика разрабатывает оценки, устойчивые к загрязнению данных при сохранении высокой эффективности в нормальном случае.

Точка разрыва (Breakdown Point, BP): Минимальная доля загрязнённых данных, при которой оценка ломается. X̄: BP = 1/n → 0. Медиана: BP = 0.5. S²: BP = 1/n. MAD = median|Xᵢ - median|: BP = 0.5.

Функция влияния (Hampel, 1974): IF(x; T, F) = lim_{ε→0} [T((1-ε)F + εδ_x) - T(F)]/ε. Для X̄: IF(x) = x - μ — неограничена. Для медианы: IF(x) = sign(x-μ)/(2f(μ)) — ограничена. Gross-error sensitivity: γ* = sup|IF(x)| < ∞ → робастная оценка.

Определение: M-оценка θ̂ = argmin_θ Σᵢ ρ(Xᵢ - θ), или решение Σᵢ ψ(Xᵢ - θ) = 0, ψ = ρ'. Среднее: ρ(r) = r²/2. Медиана: ρ(r) = |r|. ОМП: ρ(r) = -log f(r).