Cheatsheet
Теория вероятностей и статистика — all topics on one page
Аксиоматика теории вероятностей
Аксиомы Колмогорова, вероятностное пространство и классические вероятности
Вероятностное пространство → Аксиомы Колмогорова → Классическая вероятность → Историческое развитие аксиоматики → Типы событий и операции → Непрерывность вероятностной меры → Модели вероятностных пространств на практике → Численный пример: бросок трёх монет
Теория вероятностей получила строгое математическое основание в 1933 году, когда Андрей Николаевич Колмогоров опубликовал «Основные понятия теории вероятностей», заложив аксиоматическую базу, действующую по сей день.
Определение: Тройка (Ω, F, P), где: Ω — пространство элементарных исходов. F ⊆ 2^Ω — σ-алгебра событий. P: F → [0,1] — вероятностная мера.
σ-алгебра F: Семейство подмножеств Ω, удовлетворяющее: (1) Ω ∈ F; (2) A ∈ F → Aᶜ ∈ F (замкнутость относительно дополнения); (3) A₁, A₂,... ∈ F → ⋃ₙ Aₙ ∈ F (замкнутость относительно счётного объединения).
P1 (Неотрицательность): P(A) ≥ 0 для всех A ∈ F. P2 (Нормировка): P(Ω) = 1. P3 (Счётная аддитивность): Для попарно несовместных A₁, A₂,...: P(⋃ₙ Aₙ) = Σₙ P(Aₙ).
Условная вероятность → Независимость событий → Байесовский вывод на практике → Цепи условных вероятностей → Независимость в потоке информации → Каузальный вывод и парадокс Симпсона → Байесовский вывод и обновление убеждений → Численный пример: теорема Байеса — три урны
Definitions
Условная вероятность — вероятность события при условии, что другое событие произошло. Это позволяет обновлять наши знания при поступлении информации и лежит в основе байесовского вывода.
Теорема умножения: P(A₁∩A₂∩...∩Aₙ) = P(A₁)·P(A₂|A₁)·P(A₃|A₁A₂)·...·P(Aₙ|A₁...Aₙ₋₁).
Формула полной вероятности: Если B₁,...,Bₙ — полная группа (попарно несовместны, ⋃Bᵢ = Ω): P(A) = Σᵢ P(A|Bᵢ)P(Bᵢ).
Теорема Байеса: P(Bᵢ|A) = P(A|Bᵢ)P(Bᵢ) / Σⱼ P(A|Bⱼ)P(Bⱼ). «Апостериорная вероятность гипотезы Bᵢ при наблюдении A».
Геометрические вероятности → Непрерывные вероятностные пространства → Парадокс Бертрана и проблема меры → Мера Лебега и «нулевые» вероятности → Метод Монте-Карло и геометрические вероятности → Непрерывные вероятностные пространства и σ-алгебры → Мера Лебега и абсолютная непрерывность → Численный пример: вычисление вероятности через плотность
Классическая вероятность предполагает конечное число равновероятных исходов. Для непрерывных пространств (отрезок, круг, ℝⁿ) нужны геометрические вероятности, определяемые через меру Лебега.
Принцип: В непрерывном пространстве «равновозможность» — равномерное распределение по мере (длине, площади, объёму). P(A) = мера(A)/мера(Ω).
Парадокс Бертрана (1889): «Случайная хорда» окружности — длиннее ли стороны вписанного равностороннего треугольника? Три разумных определения «случайной хорды» дают P = 1/2, P = 1/3, P = 1/4. Демонстрирует, что «равновозможность» без точного определения неоднозначна.
Игла Бюффона: Иглу длины l бросают на пол с параллельными линиями расстояния d (l < d). P(пересечь линию) = 2l/(πd). Позволяет оценить π через эксперимент!
Случайные величины и распределения
Дискретные и непрерывные распределения, функции от случайных величин
Бернулли и биномиальное распределение → Отрицательное биномиальное и гипергеометрическое → Функция распределения и производящие функции → Аппроксимации и предельные теоремы для дискретных распределений → Реальные приложения дискретных распределений → Дисперсия и взаимосвязь моментов → Методы оценки параметров распределений → Численный пример: распределение Пуассона
Formulas
Дискретная случайная величина принимает счётное число значений. Её полностью описывает функция вероятности (PMF) — вероятности каждого значения.
Биномиальное: X ~ Bin(n,p). X = число успехов в n независимых испытаниях Бернулли. P(X=k) = C(n,k)p^k(1-p)^{n-k}. E[X]=np, Var[X]=np(1-p). Производящая функция: G(z) = (1-p+pz)^n.
Пуассоновское: X ~ Poisson(λ). P(X=k) = e^{-λ}λ^k/k!, k=0,1,2,... E[X] = Var[X] = λ. Предел Bin(n,p) при n→∞, p→0, np→λ.
Геометрическое: X ~ Geom(p). X = число испытаний до первого успеха. P(X=k) = (1-p)^{k-1}p. E[X]=1/p, Var[X]=(1-p)/p². Свойство памяти без последствий: P(X>m+n|X>m) = P(X>n).
Нормальное распределение → Экспоненциальное и гамма-распределения → Логнормальное и тяжёлые хвосты → Свойство отсутствия памяти и его единственность → Суммы и преобразования случайных величин → Применения непрерывных распределений в науке и технике → Хвостовые вероятности и распределения экстремумов → Связь непрерывных распределений с реальными данными → Численный пример: нормальное и показательное распределения
Definitions
Formulas
Непрерывная случайная величина имеет плотность распределения f(x) ≥ 0 с ∫f dx = 1. Вероятность попасть в интервал — интеграл плотности.
X ~ N(μ, σ²): f(x) = (1/√(2πσ²)) exp(-(x-μ)²/(2σ²)). E[X]=μ, Var[X]=σ². Симметрично, 68-95-99.7 правило (±1σ, ±2σ, ±3σ).
Стандартное: Z ~ N(0,1). Функция Φ(z) = P(Z≤z). P(a<X<b) = Φ((b-μ)/σ) - Φ((a-μ)/σ).
Сумма нормальных: Если X~N(μ₁,σ₁²) и Y~N(μ₂,σ₂²) независимы: X+Y~N(μ₁+μ₂, σ₁²+σ₂²).
Двумерное нормальное распределение → Теорема Склара и копулы → Маргинальные и условные распределения → Многомерное нормальное распределение → Зависимость, корреляция и меры связи → Роль копул в финансовом кризисе 2008 года → Условное распределение и совместные моменты → Симуляция многомерных распределений → Численный пример: условное распределение в двумерной нормальной
Formulas
- •Гауссова: C_Gauss(u,v) = Φ₂(Φ⁻¹(u), Φ⁻¹(v); ρ)
- •Клейтоновская: C_Clay(u,v) = (u⁻ᵅ + v⁻ᵅ - 1)^{-1/α}
- •Гумбелевская: хвостовая зависимость верхних хвостов
Многомерные распределения описывают совместное поведение нескольких случайных величин. Копулы — мощный инструмент для моделирования зависимостей между переменными независимо от их маргинальных распределений.
Совместная плотность: (X,Y) ~ N₂(μ,Σ). Σ = [[σ₁², ρσ₁σ₂],[ρσ₁σ₂, σ₂²]]. Параметр корреляции ρ = Cov(X,Y)/(σ₁σ₂). Условные: Y|X=x ~ N(μ₂+ρσ₂/σ₁(x-μ₁), σ₂²(1-ρ²)).
Корреляция ≠ зависимость: При ρ=0: X и Y некоррелированы, но не обязательно независимы (для нормальных — эквивалентно!).
Теорема Склара (1959): Для совместного CDF H(x,y) = C(F₁(x), F₂(y)), где F₁, F₂ — маргинальные CDFs, C: [0,1]² → [0,1] — копула. При непрерывных маргиналях: C единственна.
Математическое ожидание и моменты
Моменты, производящие функции, неравенства и закон больших чисел
Математическое ожидание → Дисперсия и ковариация → Условное математическое ожидание → Неравенство Йенсена и выпуклость → Неравенство Маркова: происхождение и следствия → Концентрация меры и высокие измерения → Мартингалы и неравенство Азумы-Хёффдинга → Численный пример: применение неравенства Чебышёва (ЗБЧ)
Formulas
Математическое ожидание — «центр тяжести» распределения. Моменты характеризуют форму распределения: среднее, дисперсия, асимметрия, эксцесс.
Определение: E[X] = Σ x·P(X=x) (дискретная), ∫ x·f(x)dx (непрерывная). Существует при Σ|x|P(X=x) < ∞.
Линейность: E[aX+bY] = aE[X] + bE[Y] — всегда (независимо от зависимости X,Y!). E[X₁+...+Xₙ] = nμ (при одинаковых E[Xᵢ]=μ).
Для функций: E[g(X)] = Σ g(x)P(X=x) = ∫ g(x)f(x)dx. Неравенство Йенсена: для выпуклой g: E[g(X)] ≥ g(E[X]).
Производящая функция моментов (МГФ) → Производящая функция вероятностей (ПФВ) → Характеристическая функция → МГФ и вычисление моментов распределений → Тяжёлые хвосты и отсутствие МГФ → Производящие функции и рекуррентные цепи событий → Характеристическая функция: применения и теоремы → МГФ для оценки рисков: Value-at-Risk и CVaR → Численный пример: моменты через МГФ
Formulas
Производящие функции — мощный инструмент для работы с распределениями суммы независимых случайных величин. Характеристическая функция существует всегда и единственно определяет распределение.
Определение: M_X(t) = E[e^{tX}] = Σ E[Xⁿ]tⁿ/n! (ряд Тейлора). При существовании в окрестности t=0: E[Xⁿ] = M_X^{(n)}(0). МГФ единственно определяет распределение.
Для суммы независимых: M_{X+Y}(t) = M_X(t)·M_Y(t). Это превращает свёртки в умножения.
Примеры: Poisson(λ): M(t) = exp(λ(eᵗ-1)). N(μ,σ²): M(t) = exp(μt + σ²t²/2). Сумма нормальных: M_{X+Y} = exp((μ₁+μ₂)t + (σ₁²+σ₂²)t²/2) → N(μ₁+μ₂, σ₁²+σ₂²). ✓
Базовые неравенства → Концентрационные неравенства → Неравенство Азумы-Хёффдинга → Неравенство Чернова и применения → Субгауссовские и субэкспоненциальные случайные величины → Размерность VC и обобщение в ML → Рандомизированные алгоритмы и вероятностный анализ → Метод второго момента → Концентрация меры и высокая размерность → Численный пример: сравнение трёх неравенств
Formulas
Вероятностные неравенства позволяют оценивать вероятности событий без полного знания распределения. Они критически важны для статистики, машинного обучения и теории информации.
Неравенство Маркова: Для X ≥ 0, a > 0: P(X ≥ a) ≤ E[X]/a. Доказательство: E[X] ≥ E[X·1_{X≥a}] ≥ a·P(X≥a).
Неравенство Чебышёва: Для любого X с конечным E[X]=μ, Var[X]=σ²: P(|X-μ| ≥ k) ≤ σ²/k² или P(|X-μ| ≥ kσ) ≤ 1/k². Не требует знания распределения, только μ и σ².
Неравенство Йенсена: Для выпуклой g: E[g(X)] ≥ g(E[X]). Следствия: E[X²] ≥ (E[X])² (дисперсия ≥ 0). E[e^X] ≥ e^{E[X]}.
Предельные теоремы
ЗБЧ, ЦПТ, теоремы о больших уклонениях
Слабый и сильный ЗБЧ → Применения ЗБЧ → Закон итерированного логарифма → Сильный vs. слабый ЗБЧ → Применения ЗБЧ в вычислениях → Ergodic theorem и сильный ЗБЧ для зависимых данных → Метод характеристических функций в ЗБЧ → Вероятностный метод в комбинаторике → Неравенства для суммы случайных переменных → Численный пример: ЗБЧ на подбрасывании монет
Formulas
Закон больших чисел (ЗБЧ) — фундаментальный результат теории вероятностей: среднее большого числа независимых случайных величин сходится к их математическому ожиданию. Это математическое основание статистики.
Слабый ЗБЧ (Чебышёв, 1866): Для i.i.d. X₁,...,Xₙ с E[Xᵢ]=μ и Var[Xᵢ]=σ² < ∞: X̄ₙ = (X₁+...+Xₙ)/n →_P μ (сходимость по вероятности). Доказательство через Чебышёв: P(|X̄ₙ-μ| ≥ ε) ≤ σ²/(nε²) → 0.
Сильный ЗБЧ (Колмогоров): При тех же условиях: X̄ₙ → μ почти наверное (P(lim X̄ₙ = μ) = 1). Сильнее слабого (п.н. → по вероятности, но не наоборот).
ЗБЧ без конечной дисперсии (Хинчин): Достаточно конечности E[|X|]. При Var[X]=∞ ЗБЧ всё равно выполнен!
Классическая ЦПТ → Обобщения ЦПТ → Применения ЦПТ → Скорость сходимости в ЦПТ → Многомерная ЦПТ и функциональные пределы → Пуассоновская аппроксимация: теорема Чен-Стейна → Обобщённая ЦПТ и устойчивые распределения → Случайные матрицы и спектральные распределения → Теорема непрерывности Леви → Скорость сходимости в ЦПТ: неравенство Берри-Эссена
Formulas
Центральная предельная теорема (ЦПТ) — один из важнейших результатов математики. Она объясняет, почему нормальное распределение встречается повсеместно: сумма большого числа независимых случайных величин приближается к нормальному.
Теорема (Линдеберг-Леви): Для i.i.d. X₁,...,Xₙ с E[Xᵢ]=μ, Var[Xᵢ]=σ² < ∞: (X̄ₙ - μ)/(σ/√n) →_d N(0,1). Эквивалентно: (Sₙ - nμ)/(σ√n) →_d N(0,1).
Скорость сходимости (Berry-Esseen): |P((Sₙ-nμ)/(σ√n) ≤ x) - Φ(x)| ≤ C·ρ/(σ³√n), где ρ = E[|X-μ|³]. При C ≤ 0.4748. Скорость O(1/√n).
Доказательство через характеристические функции: φ_{(Sₙ-nμ)/(σ√n)}(t) = [φ_X(t/(σ√n))]ⁿ. Разложением φ_X(t) ≈ 1 - t²/2 + ... при малых t: → exp(-t²/2) = φ_{N(0,1)}(t). Теорема непрерывности Леви → CDF сходится к нормальной.
Виды сходимости → Теория больших уклонений → Функция скорости и скорость убывания вероятностей → Принцип больших уклонений: общая теория → Связь функции скорости с энтропией → Ланжевеновская динамика и выборка из непрерывных распределений → Принцип максимума энтропии → Теория информации и вероятность → Дифференциальная энтропия и её свойства → Численный пример: функция скорости уклонения Крамера
Существует несколько различных понятий сходимости последовательностей случайных величин. Теория больших уклонений (Large Deviations Theory) изучает вероятности редких событий — экспоненциально малые вероятности отклонений от среднего.
Почти наверное (п.н.): Xₙ →_{п.н.} X, если P(lim Xₙ = X) = 1. Сильнее, чем по вероятности. Следствие: сходимость по вероятности.
По распределению (слабая): Xₙ →_d X, если F_{Xₙ}(x) → F_X(x) для всех точек непрерывности F_X. Самая слабая — не требует совпадения на одном вероятностном пространстве.
В среднеквадратичном: Xₙ →_{L²} X, если E[(Xₙ-X)²] → 0. Сильнее по вероятности, несравнимо с п.н.
Выборочная статистика и оценивание
Методы оценивания параметров, непараметрические методы и достаточные статистики
Метод максимального правдоподобия (ММП) → Байесовское оценивание → EM-алгоритм → Теория оценивания: полнота и достаточность → Байесовское оценивание: апостериорные функционалы → Сопряжённые семейства прайоров в байесовском анализе → Байесовская модель выбора и сравнение моделей → Апостериорное предсказание и калибровка → Вариационный байесовский вывод → Байесовское обновление в реальном времени
Formulas
Статистическое оценивание — построение оценок неизвестных параметров по наблюдённым данным. Метод максимального правдоподобия, байесовский подход и метод моментов — три основных парадигмы.
Функция правдоподобия: L(θ; x₁,...,xₙ) = Πᵢ f(xᵢ; θ) (для i.i.d. выборки). Log-правдоподобие: ℓ(θ) = Σᵢ log f(xᵢ; θ).
Свойства ОМП: Состоятельность: θ̂_n →_P θ₀. Асимптотическая нормальность: √n(θ̂_n - θ₀) →_d N(0, I(θ₀)⁻¹). Асимптотическая эффективность: достигает нижней границы Крамера-Рао.
Информация Фишера: I(θ) = E[-(∂²ℓ/∂θ²)] = Var[∂ℓ/∂θ]. Нижняя граница Крамера-Рао: Var[θ̂] ≥ 1/(nI(θ)).
Непараметрические критерии → Оценка функции плотности → Бутстрэп → Непараметрическая статистика: подробности → Бутстрэп: теория и варианты → Ранговые тесты и их мощность → Методы повторных выборок: jackknife и permutation tests → Байесовские непараметрические методы → Гауссовские процессы в регрессии → Численный пример: бутстрэп-оценка стандартной ошибки
- •{1,1,5,9,7} → x̄*=23/5=4.6;
- •{3,5,5,9,9} → x̄*=31/5=6.2;
- •{7,7,3,1,5} → x̄*=23/5=4.6;
- •{9,5,7,5,3} → x̄*=29/5=5.8.
Непараметрические методы не предполагают конкретной формы распределения. Они применяются, когда предположения параметрических методов нарушены. Бутстрэп — универсальная техника оценки погрешностей.
Знаковый критерий: H₀: медиана = m₀. Статистика: число наблюдений > m₀. При H₀: ~ Bin(n, 0.5). Не зависит от формы распределения, но малоэффективен.
Критерий знаковых рангов Вилкоксона: Учитывает размер отклонений. Вычисляем dᵢ = xᵢ - m₀, ранжируем |dᵢ|, W⁺ = сумма рангов с dᵢ > 0. При H₀: E[W⁺] = n(n+1)/4, Var[W⁺] = n(n+1)(2n+1)/24.
Критерий Манна-Уитни: Непараметрический двухвыборочный. U = #{(xᵢ,yⱼ): xᵢ>yⱼ}. При H₀: E[U] = n₁n₂/2. Аналог двухвыборочного t-теста без нормальности.
Достаточные статистики → Теорема Рао-Блэкуэлла → УМНО-оценки (UMVUE) → Теорема Рао-Блэкуэлла: алгоритм применения → Оптимальность и нижние оценки дисперсии → Методы робастной оценки → Достаточность в многомерных моделях → Пример применения теоремы Рао-Блэкуэлла → Численный пример: теорема Рао-Блэкуэлла
Formulas
Достаточная статистика сжимает всю информацию о параметре из выборки. Теорема Рао-Блэкуэлла позволяет улучшить любую оценку, условно усредняя по достаточной статистике.
Определение (Фишер, 1922): Статистика T(X) достаточна для θ, если условное распределение выборки при фиксированном T не зависит от θ. Интуиция: T содержит всё, что выборка знает о θ.
Критерий факторизации (Неймана-Фишера): T достаточна тогда и только тогда, когда правдоподобие факторизуется: L(θ; x) = g(T(x); θ) · h(x). Часть, зависящая от θ, входит только через T(x).
Примеры: Poisson(λ): T = ΣXᵢ. Bernoulli(p): T = ΣXᵢ. N(μ, σ² известна): T = X̄ = ΣXᵢ/n. N(μ, σ² неизвестна): T = (ΣXᵢ, ΣXᵢ²) — двумерная достаточная статистика.
Проверка статистических гипотез
Критерии проверки гипотез, регрессионный анализ и критерии согласия
Основные понятия → Критерии для нормального распределения → Лемма Неймана-Пирсона → Множественное тестирование → Мощность критерия и размер выборки → Байесовские факторы и альтернативы p-значениям → Последовательные тесты (SPRT) → Байесовские тесты и процедуры → Множественное сравнение в клинических испытаниях → Адаптивные тесты и задачи распределённого вывода
Проверка гипотез — формализованная процедура принятия решений на основе данных. Нулевая гипотеза H₀ отвергается или не отвергается на основе статистики критерия.
Нулевая (H₀) и альтернативная (H₁) гипотезы. Уровень значимости α = P(ошибка I рода) = P(отвергнуть H₀ | H₀ верна). Мощность 1-β = P(отвергнуть H₀ | H₁ верна).
p-значение: p = P(наблюдаемая статистика или более экстремальная | H₀). Если p < α → отвергаем H₀. p-значение ≠ вероятность H₀ (ошибочная интерпретация!).
t-тест Стьюдента: σ неизвестна. T = (X̄-μ₀)/(S/√n) ~ t(n-1). |T| > t_{α/2,n-1} → отвергаем.
Простая линейная регрессия → Множественная линейная регрессия → Однофакторный дисперсионный анализ (ANOVA) → Регуляризованная регрессия: Ridge и Lasso → Двухфакторный ANOVA и взаимодействие → Диагностика линейной регрессии: углублённый анализ → Нелинейная регрессия → Пространственная регрессия и геостатистика → Причинно-следственный вывод (Causal Inference) → Численный пример: простая линейная регрессия
Formulas
Линейная регрессия моделирует зависимость между переменными и является важнейшим инструментом прикладной статистики. Дисперсионный анализ обобщает t-тест на несколько групп.
Модель: Yi = β₀ + β₁xᵢ + εᵢ, εᵢ ~ N(0, σ²) i.i.d. МНК-оценки: β̂₁ = Σ(xᵢ-x̄)(yᵢ-ȳ)/Σ(xᵢ-x̄)², β̂₀ = ȳ - β̂₁x̄.
Теорема Гаусса-Маркова: β̂ — BLUE (best linear unbiased estimator) среди всех линейных несмещённых оценок. Var[β̂₁] = σ²/Σ(xᵢ-x̄)². S² = RSS/(n-2) — несмещённая оценка σ².
Коэффициент детерминации R²: R² = 1 - RSS/TSS, RSS = Σ(yᵢ-ŷᵢ)², TSS = Σ(yᵢ-ȳ)². R² = cor(y, ŷ)² при простой регрессии. Доля объяснённой вариации ∈ [0,1].
Критерий хи-квадрат Пирсона → Критерий Колмогорова-Смирнова → Критерий Шапиро-Уилка на нормальность → Критерий Андерсона-Дарлинга → Проверка симметрии и тяжёлых хвостов → Тесты согласия для дискретных распределений → Проверка на избыточную дисперсию (overdispersion) → Тесты согласия в байесовской статистике → Информационные критерии и выбор модели → Численный пример: χ²-тест согласия и критерий AIC
Критерии согласия проверяют соответствие данных предполагаемому теоретическому распределению. Это важный шаг в статистическом анализе перед применением параметрических методов.
Идея: Разбить данные на k ячеек с наблюдёнными частотами Oᵢ и теоретическими Eᵢ = nPᵢ(θ). Статистика: χ² = Σᵢ(Oᵢ - Eᵢ)²/Eᵢ. При H₀ асимптотически: χ² ~ χ²(k-1-r), где r — число оцененных параметров.
Условия применимости: Eᵢ ≥ 5 для каждой ячейки (при нарушении — объединить соседние). Независимые наблюдения. Минимум n ≥ 30-50.
Таблицы сопряжённости: Проверка независимости двух категориальных переменных. χ² = Σᵢⱼ(Oᵢⱼ - Eᵢⱼ)²/Eᵢⱼ, Eᵢⱼ = nᵢ·nⱼ/n. Степени свободы: (r-1)(c-1).
Случайные процессы
Цепи Маркова, пуассоновский процесс, мартингалы и теория оптимальной остановки
Определение и свойства Маркова → Классификация состояний → Стационарное и предельное распределение → Эргодичность и предельные теоремы для цепей Маркова → MCMC: Метрополис-Гастингс и сэмплирование Гиббса → Скрытые марковские модели (HMM) → Теорема о сходимости MCMC → Вариационные методы и нормализующие потоки → Спектральные методы в кластеризации → Численный пример: стационарное распределение цепи Маркова
Definitions
Цепь Маркова — стохастический процесс без памяти: будущее зависит только от настоящего, не от прошлого. Это мощная модель для систем с «состояниями»: очереди, рынки, геномные последовательности, PageRank.
Определение: Последовательность X₀, X₁, X₂,... со значениями в конечном/счётном множестве S удовлетворяет марковскому свойству: P(Xₙ₊₁ = j | X₀,...,Xₙ) = P(Xₙ₊₁ = j | Xₙ) для всех n и j.
Матрица переходов: Pᵢⱼ = P(Xₙ₊₁ = j | Xₙ = i). Стохастическая: Pᵢⱼ ≥ 0, ΣⱼPᵢⱼ = 1 для всех i.
n-шаговые переходы: P(Xₙ = j | X₀ = i) = (Pⁿ)ᵢⱼ — (i,j)-й элемент матрицы Pⁿ.
Пуассоновский процесс → Цепи Маркова в непрерывном времени (ЦМНВ) → Неоднородный и составной пуассоновский процессы → Теория очередей: расширения и практика → Непрерывные цепи Маркова: подробнее → Вычислительная сложность задач теории очередей → Нелинейные цепи Маркова и приложения в AI → Случайные блуждания: возвратность и рекуррентность → Ковариационные структуры в непрерывных процессах → Численный пример: Пуассоновский процесс и НМПВ
Formulas
Пуассоновский процесс — стандартная модель событий, происходящих случайно во времени (звонки в call-center, распад атомов, транзакции). ЦМНВ описывают системы с непрерывным временем и дискретными состояниями.
Определение: {N(t), t ≥ 0} — Пуассоновский процесс с интенсивностью λ, если: 1. N(0) = 0 2. Независимость приращений на непересекающихся интервалах 3. N(t+s) - N(t) ~ Poisson(λs) для всех t,s > 0
Межсобытийные интервалы: Tᵢ = время между i-м и (i-1)-м событиями ~ Exp(λ) независимы.
Суперпозиция: Слияние двух Пуассоновских процессов с λ₁ и λ₂ — Пуассоновский с λ₁+λ₂. Прореживание (thinning): каждое событие независимо включается с вероятностью p — Пуассоновский с pλ.
Мартингалы → Теоремы о мартингалах → Оптимальная остановка → Теория оптимальной остановки: общий подход → Неравенства для мартингалей → Теория оптимальной остановки → Опциональная теорема о выборке (Doob's OST) → Stochastic dominance и сравнение распределений → Теория мартингалов в дискретной оптимизации → Теорема Дуба-Мейера и компенсатор
Мартингал — стохастический процесс без «систематического дрейфа»: ожидаемое будущее значение равно текущему. Это математическое воплощение «честной игры» и основа финансовой математики.
Определение: Последовательность {Mₙ, Fₙ} — мартингал относительно фильтрации {Fₙ}, если: (1) Mₙ Fₙ-измерима; (2) E[|Mₙ|] < ∞; (3) E[Mₙ₊₁|Fₙ] = Mₙ.
Примеры: Симметричное случайное блуждание: Sₙ = X₁+...+Xₙ, Xᵢ = ±1. E[Sₙ₊₁|Fₙ] = Sₙ. Mₙ = Sₙ² - n — тоже мартингал (подходит для вычисления E[τ]).
Теорема об опциональной остановке (Дуб): При достаточных условиях для мартингала Mₙ и времени остановки τ: E[M_τ] = E[M₀]. «В честной игре ожидаемый выигрыш = 0».
Стохастическое исчисление
Броуновское движение, интеграл Ито, лемма Ито и стохастические методы в финансах
Определение и конструкция → Ключевые свойства → Броуновское движение: конструкция и свойства → Пространство путей и меры Винера → Многомерное броуновское движение и корреляция → Стохастические дифференциальные уравнения: существование и единственность → Процессы с прыжками: модели Ле́ви → Измерение рисков: VaR и CVaR → Численные методы в стохастических задачах → Формула Феймана-Каца
Броуновское движение (Винеровский процесс) — математическая модель хаотического движения, описанного Броуном в 1827 году при наблюдении пыльцы на воде. Оно является пределом случайных блужданий и фундаментом стохастического анализа.
Стандартное броуновское движение: Процесс {W_t, t ≥ 0} такой, что: 1. W₀ = 0 2. Независимость приращений: W_{t₄}-W_{t₃} ⊥ W_{t₂}-W_{t₁} при 0≤t₁<t₂≤t₃<t₄ 3. Нормальность: W_t - W_s ~ N(0, t-s) 4. Непрерывность траекторий: t → W_t непрерывно
Конструкция (Леви-Чентсов): Через гауссовский ряд по функциям Хаара: W_t = Σ_{n,k} Z_{nk}·H_{nk}(t). Или через ЦПТ: W_t = lim_{n→∞} S_{⌊nt⌋}/√n (скейлинговый предел случайного блуждания).
Негладкость: W_t везде непрерывно, но нигде не дифференцируемо (п.н.). Вариация: полная вариация бесконечна, квадратичная вариация [W]_t = t (конечна!). [W,W]_t = t — «ключевой факт», на котором строится лемма Ито.
Интеграл Ито → Лемма Ито → СДУ и геометрическое броуновское движение → Стохастические дифференциальные уравнения → Теорема Гирсанова и нейтральная к риску мера → Частичное дифференциальное уравнение Блэка-Шоулза → Греки: чувствительность опционов → Имплицированная волатильность и улыбка волатильности → Процентные ставки и модели кривой доходности → Мера нейтральная к риску и фундаментальные теоремы ценообразования
Лемма Ито — стохастический аналог цепного правила дифференцирования. Из-за ненулевой квадратичной вариации броуновского движения появляется дополнительный «поправочный» член второго порядка.
Интеграл ∫₀^T f_t dW_t для адаптированных процессов fₜ. Нельзя определить поточечно (W_t нигде не дифференцируем). Определяется как L²-предел ступенчатых процессов.
Свойства: Мартингал: E[∫₀^T f dW] = 0. Изометрия Ито: E[(∫₀^T f dW)²] = E[∫₀^T f² dt].
Пусть dX = b dt + σ dW, f ∈ C²(ℝ). Тогда: df(X_t) = f'(X_t) dX_t + (1/2)f''(X_t) d[X,X]_t = [f'(X_t)b + (1/2)f''(X_t)σ²] dt + f'(X_t)σ dW_t.
Теорема Гирсанова и нейтральная к риску мера → Формула Блэка-Шоулза → Стохастическая оптимизация (Мертон) → Греки опционов: полная таблица → Подразумеваемая волатильность (IV) и улыбка волатильности → Портфель Мертона и задача максимизации утилиты → Стохастическое управление и принцип динамического программирования → Задача Портфолио Марковица в непрерывном времени → Теория экстремальных значений в финансах → Кредитный риск и структурные модели
Definitions
Formulas
Математическая финансовая теория использует стохастическое исчисление для ценообразования деривативов, управления рисками и оптимального инвестирования. Теорема Гирсанова и формула Блэка-Шоулза — центральные результаты.
Проблема: В реальном мире акция растёт со ставкой μ > r (безрисковая). Для ценообразования нужна «нейтральная к риску» мера Q.
Теорема Гирсанова: При замене меры с P на Q через dQ/dP = e^{-θW_T - θ²T/2}: W̃_t = W_t + θt — Q-броуновское движение. Для GBM с μ: dS = μS dt + σS dW → dS = rS dt + σS dW̃ (при θ=(μ-r)/σ).
Ценообразование: V₀(F) = e^{-rT} E^Q[F_T] — цена деривата с выплатой F_T. Это следует из отсутствия арбитража: дисконтированная цена — Q-мартингал.
Асимптотическая статистика и робастность
Сходимость оценок, граница Крамера-Рао, эффективность и робастное оценивание
Состоятельность → Асимптотическая нормальность ОМП → Дельта-метод → Дельта-метод: второй порядок и многомерный случай → Информация Фишера: смысл и применения → Регрессия как задача оценивания → Асимптотические критерии: тесты Вальда, Рао, Wald → Бутстрэп в оценке информации Фишера → Регуляризованное оценивание при высокой размерности → Теория оценивания при ограничениях
Definitions
Formulas
Асимптотическая статистика изучает поведение оценок при n → ∞. Состоятельность, асимптотическая нормальность и дельта-метод — основные инструменты для анализа свойств оценок.
Слабая состоятельность: θ̂ₙ →_P θ₀ при n→∞. Достаточное условие: Bias(θ̂ₙ)→0 и Var[θ̂ₙ]→0. Среднеквадратическая состоятельность (MSE→0) влечёт слабую.
Сильная состоятельность: θ̂ₙ →_{п.н.} θ₀. ОМП сильно состоятелен при регулярных условиях — следует из сильного ЗБЧ применённого к лог-правдоподобию.
Инвариантность ОМП: Если θ̂ — ОМП для θ, то g(θ̂) — ОМП для g(θ) (для любой функции g). Это следствие определения через максимум правдоподобия.
Информация Фишера → Неравенство Крамера-Рао → Асимптотическая эффективность → Относительная эффективность оценок → Выпуклость и оценка из семейства экспонент → Оценки методом моментов и их эффективность → Тест Хаусмана: эффективность vs. состоятельность → Инструментальные переменные и двухшаговый МНК → Экспоненциальные неравенства Беннетта и Бернштейна → Сверхэффективность и теорема Ле Кама
Formulas
Граница Крамера-Рао устанавливает нижний предел дисперсии несмещённых оценок. Асимптотически эффективная оценка достигает этой границы при n → ∞.
Определение: I(θ) = E[(∂ log f(X;θ)/∂θ)²] = -E[∂² log f(X;θ)/∂θ²]. Информация Фишера измеряет «крутизну» функции правдоподобия — чем она выше, тем точнее можно оценить θ.
Аддитивность: Для n i.i.d. наблюдений: Iₙ(θ) = n·I(θ). Матричная форма: I(θ)ᵢⱼ = -E[∂² log f/∂θᵢ∂θⱼ] — информационная матрица Фишера.
Примеры: N(μ,σ²) при σ² известной: I(μ)=1/σ². Poisson(λ): I(λ)=1/λ. Bernoulli(p): I(p)=1/(p(1-p)). Exp(λ): I(λ)=1/λ².
Точка разрыва и функция влияния → M-оценки (Huber, 1964) → Алгоритм IRLS и асимптотика → Точка разрыва и устойчивость оценок → Робастные оценки рассеяния и матрицы ковариации → Тест на выбросы и методы обнаружения аномалий → Связь с теорией выживания → Копулы и зависимость хвостов → Многомерная статистика и анализ главных компонент → Численный пример: метод главных компонент (PCA)
Классические оценки (среднее, ОМП) чувствительны к выбросам. Робастная статистика разрабатывает оценки, устойчивые к загрязнению данных при сохранении высокой эффективности в нормальном случае.
Точка разрыва (Breakdown Point, BP): Минимальная доля загрязнённых данных, при которой оценка ломается. X̄: BP = 1/n → 0. Медиана: BP = 0.5. S²: BP = 1/n. MAD = median|Xᵢ - median|: BP = 0.5.
Функция влияния (Hampel, 1974): IF(x; T, F) = lim_{ε→0} [T((1-ε)F + εδ_x) - T(F)]/ε. Для X̄: IF(x) = x - μ — неограничена. Для медианы: IF(x) = sign(x-μ)/(2f(μ)) — ограничена. Gross-error sensitivity: γ* = sup|IF(x)| < ∞ → робастная оценка.
Определение: M-оценка θ̂ = argmin_θ Σᵢ ρ(Xᵢ - θ), или решение Σᵢ ψ(Xᵢ - θ) = 0, ψ = ρ'. Среднее: ρ(r) = r²/2. Медиана: ρ(r) = |r|. ОМП: ρ(r) = -log f(r).