Ковариация, сходимости случайных величин, предельные теоремы
1 Ковариация, корреляция
Определение 1 Ковариацей случайных величин \(\xi , \eta\) называется
\[ \operatorname{Cov}\left( \xi, \eta \right) = \mathbb{E}\left[\left(\xi - \mathbb{E}\left[\xi\right]\right) \cdot \left(\eta - \mathbb{E}\left[\eta\right]\right)\right] \] Сразу раскроем ее, используя линейность матожидания:
\[ \operatorname{Cov}\left( \xi, \eta \right) = \mathbb{E}\left[\xi \eta\right] - \mathbb{E}\left[\xi\right] \cdot \mathbb{E}\left[\eta\right] - \mathbb{E}\left[\xi\right] \cdot \mathbb{E}\left[\eta\right] + \mathbb{E}\left[\xi\right] \cdot \mathbb{E}\left[\eta\right] = \mathbb{E}\left[\xi \eta\right]- \mathbb{E}\left[\xi\right] \cdot \mathbb{E}\left[\eta\right] \] Ковариация существует, если существуют первые моменты \(\mathbb {E}\left[\xi \right]\), \(\mathbb {E}\left[\eta \right]\) и \(\mathbb {E}\left[\xi \eta \right]\).
Корреляцией случайных величин \(\xi , \eta\) называется дробь
\[ \operatorname{Corr}\left( \xi, \eta \right) = \frac{\operatorname{Cov}\left( \xi, \eta \right)}{\sqrt{\operatorname{Var}\left[\xi\right] \operatorname{Var}\left[\eta\right]}} \] Она существует, если существуют соотв. дисперсии.
Корреляция является в некотором смысле мерой зависимости случайных величин \(\xi , \eta\). Так, если случайные величины \(\xi , \eta\) независимы, то \(\operatorname {Corr}\left( \xi , \eta \right) =0\). Если же \(\operatorname {Corr}\left( \xi , \eta \right) = \pm 1\), то случайные величины линейно зависимы.
Свойства ковариации
Ковариация симметрична: \(\operatorname {Cov}\left( \xi , \eta \right) = \operatorname {Cov}\left( \eta , \xi \right)\);
Ковариация билинейна:
\[ \begin{align} \operatorname{Cov}\left( a_1\xi_1 + a_2\xi_2, \eta \right) &= a_1\operatorname{Cov}\left( \xi_1, \eta \right) + a_2 \operatorname{Cov}\left( \xi_2, \eta \right) \\ \operatorname{Cov}\left( \xi, b_1\eta_1 + b_2\eta_2 \right) &= b_1\operatorname{Cov}\left( \xi, \eta_1 \right) + b_2 \operatorname{Cov}\left( \xi, \eta_2 \right) \end{align} \]
\(\operatorname {Cov}\left( \xi , \xi \right) = \operatorname {Var}\left[\xi \right]\);
\(\operatorname {Cov}\left( \xi , \eta \right) = \mathbb {E}\left[\xi \eta \right] - \mathbb {E}\left[\xi \right]\mathbb {E}\left[\eta \right]\);
если \(\xi , \eta\) независимы, то \(\operatorname {Cov}\left( \xi , \eta \right)=0\);
если \(c\in \mathbb {R}\) – некоторая константа, то \(\operatorname {Cov}\left( \xi + c, \eta \right) = \operatorname {Cov}\left( \xi , \eta \right)\);
\(\operatorname {Var}\left[\xi_{1}+\ldots +\xi_{n}\right]=\operatorname {Var}\left[\xi_{1}\right]+\ldots +\operatorname {Var}\left[\xi_{n}\right]+\sum_{i \neq j} \operatorname {Cov}\left( \xi_i, \xi_j \right)\).
2 Индикаторный метод
3 Слабая сходимость распределений, сходимость случайных величин по распределению
Предположим, у нас есть последовательность распределений (вероятностных мер) \(\mathbf{P}_1, \mathbf{P}_2, \ldots\) на \((\mathbb {R}, \mathscr {B}\left(\mathbb {R}\right))\). Говорят, что эта последовательность сильно сходится (или сходится помножественно, т.е. сходится на каждом множестве) к распределению \(\mathbf{P}\), если
\[ \mathbf{P}_{n}\left(B\right) \xrightarrow[n \to \infty]{} \mathbf{P}\left(B\right), \quad \forall B \in \mathscr{B}\left(\mathbb{R}\right) \]
Обозначение:
\[ \mathbf{P}_n \xrightarrow[n \to \infty]{s} \mathbf{P}, \]
от англ. strong (сильный).
Сильная сходимость не очень удобна. Например, если \(\mathbf{P}_n = \delta_{1/n}\), т.е. это единичные массы в точках \(\frac{1}{n}\), то такая последовательность сильно никуда не сходится, в частности, она не сходится к \(\delta_0\). Действительно, если взять \(B = \left\{ 0\right\}\), то
\[ \delta_{1/n}(\left\{0\right\}) = 0 \not\to 1 = \delta_{0}(\left\{0\right\}) \]
при \(n \to \infty\). В связи с этим вводят слабую сходимость. Говорят, что \(\mathbf{P}_1, \mathbf{P}_2, \ldots\)слабо сходятся к \(\mathbf{P}\), если
\[ \mathbf{P}_{n}\left(B\right) \xrightarrow[n \to \infty]{} \mathbf{P}\left(B\right), \quad \forall B \in \mathscr{B}\left(\mathbb{R}\right), \; \mathbf{P}\left(\partial B\right) = 0 \]
Отличие от сильной сходимости в том, что теперь мы должны проверять сходимость не на всех борелевских множествах, но только на т.н. множествах непрерывности для \(\mathbf{P}\), т.е. на таких множествах, предельная мера границы которых равна \(0\). Обозначение:
\[ \mathbf{P}_n \xrightarrow[n \to \infty]{w} \mathbf{P}, \]
от англ. weak (слабый).
Теорема 1 (Эквивалентные формулировки слабой сходимости) Следующие условия эквивалентны:
\(\mathbf{P}_{n} \xrightarrow [n \to \infty ]{w} \mathbf{P}\);
\(\int f \; \mathrm{d}\mathbf{P}_n \to \int f \; \mathrm{d} \mathbf{P}\) для любой непрерывной, ограниченной функции \(f: \mathbb {R} \to \mathbb {R}\);
\(F_{\mathbf{P}_n}(x) \to F_{\mathbf{P}}(x)\) для любой точки \(x \in \mathbb {R}\), в которой \(F_{\mathbf{P}}\) непрерывна.
Говорят, что последовательность случайных величин \(\xi_1, \xi_2, \ldots\)сходится по распределению к СВ \(\xi\), если их распределения слабо сходятся к распределению \(\xi\). Обозначение:
\[ \xi_{n} \xrightarrow[n \to \infty]{d} \xi, \]
от англ. distribution (распределение). Кратко:
\[ \xi_{n} \xrightarrow[n \to \infty]{d} \xi \quad \stackrel{\text{def}}{\iff} \quad \mathbf{P}_{\xi_n} \xrightarrow[n \to \infty]{w} \mathbf{P}_{\xi} \]
Иначе говоря,
\[ \xi_{n} \xrightarrow[n \to \infty]{d} \xi \quad \iff \quad \forall B \in \mathscr{B}\left(\mathbb{R}\right), \; \mathbb{P}\left(\xi \in \partial B\right) = 0 \; \hookrightarrow \; \mathbb{P}\left(\xi_{n} \in B\right) \xrightarrow[n \to \infty]{} \mathbb{P}\left(\xi \in B\right) \]
Теорема 2 (Эквивалентные формулировки сходимости по распределению) Следующие условия эквивалентны:
\(\xi_{n} \xrightarrow [n \to \infty ]{d} \xi\);
\(\mathbb {E}\left[f(\xi_n)\right] \to \mathbb {E}\left[f(\xi )\right]\) для любой непрерывной, ограниченной функции \(f: \mathbb {R} \to \mathbb {R}\);
\(F_{\xi_n}(x) \to F_{\xi }(x)\) для любой точки \(x \in \mathbb {R}\), в которой \(F_{\xi }\) непрерывна.
4 Сходимость по распределению к константе, сходимость по вероятности
Рассмотрим частный случай сходимости последовательности случайных величин по распределению – сходимость к константе:
\[ \xi_n \xrightarrow[n \to \infty]{d} c \in \mathbb{R} \]
В данном случае, когда мы пишем в пределе по вероятности \(c\), мы имеем ввиду случайную величину, тождественно равную константе \(c\).
По определению, эта сходимость эквивалентна слабой сходимости распределений к мере Дирака в точке \(c\) (к единичной массе в точке \(c\)):
\[ \mathbf{P}_{\xi_n} \xrightarrow[n \to \infty]{w} \delta_c \]
Для произвольного \(\varepsilon > 0\) пусть
\[ B_{\varepsilon} := \mathbb{R} \setminus U_{\varepsilon}(c) = (-\infty, c - \varepsilon] \cup [c + \varepsilon, +\infty) \]
Заметим, что \(\partial B = \left\{ c - \varepsilon , c + \varepsilon \right\}\), т.е. \(\delta_{c}(\partial B) = 0\). В таком случае
\[ 0 = \lim_{n \to \infty}\mathbf{P}_{\xi_n}\left(B\right) =\lim_{n \to \infty} \mathbb{P}\left(\xi_n \in B\right) = \lim_{n \to \infty} \mathbb{P}\left(\left|\xi_n - c\right| \geq \varepsilon\right) \]
Как видно, если \(\xi_1, \xi_2, \ldots\) сходятся по распределнию к константе, то
\[ \mathbb{P}\left(\left|\xi_n - c\right| \geq \varepsilon\right) \xrightarrow[n \to \infty]{} 0, \quad \forall \varepsilon > 0 \]
Мы пришли к определению сходимости по вероятности: \(\xi_1, \xi_2, \ldots\)сходятся по вероятности к СВ \(\xi\), если
\[ \mathbb{P}\left(\left|\xi_n - \xi\right| \geq \varepsilon\right) \xrightarrow[n \to \infty]{} 0, \quad \forall \varepsilon > 0 \]
Обозначение:
\[ \xi_n \xrightarrow[n \to \infty]{\mathbb{P}} \xi \]
Как видно, из сходимости по распределению к константе следует сходимость по вероятности. Можно доказать и в обратную сторону, а именно: сходимость последовательности случайных величин по распределению к константе эквивалентна сходимости к этой константе по вероятности. Однако в общем случае сходимость по вероятности сильнее.
Пусть \(\xi_1, \xi_2, \ldots\), \(\xi\) – это случайные величины на одном ВП. Тогда
\[ \xi_n \xrightarrow[n \to \infty]{\mathbb{P}} \xi \quad \; \Rightarrow \; \quad \xi_n \xrightarrow[n \to \infty]{d} \xi \]
Если же \(\xi \equiv c \in \mathbb {R}\), то
\[ \xi_n \xrightarrow[n \to \infty]{\mathbb{P}} c \quad \iff \quad \xi_n \xrightarrow[n \to \infty]{d} c \]
5 Предельные теоремы
5.1 Закон больших чисел
Пусть даны \(\xi_1, \xi_2, \ldots\) – независимые одинаково распределенные случайные величины (сокращенно НОРСВ) с матожиданием \(\mu := \mathbb {E}\left[\xi_1\right]\). Закон больших чисел (ЗБЧ) обуславливает сходимость их среднего арифметического \(\frac{S_n}{n}\) к \(\mu\), где \(S_n = \xi_1 + \ldots + \xi_n\).
Есть много разных вариантов ЗБЧ. Мы сформулируем ЗБЧ в самой простой формулировке.
Теорема 3 (ЗБЧ) Пусть \(X_1, X_2, \ldots\) – это НОРСВ с конечным вторым моментом (т.е. дисперсия \(\operatorname {Var}\left[X_1\right] = \sigma^2 < \infty\) существует), пусть \(\mu := \mathbb {E}\left[X_1\right]\). Тогда \[ \frac{1}{n}S_n \xrightarrow[n \to \infty]{d, \mathbb{P}} \mu. \]
Для доказательства нам понадобятся следующие известные оценки.
[Неравенство Маркова] Пусть \(Y \geq 0\) и \(\mathbb {E}\left[Y\right] < \infty\). Тогда для любого \(a > 0\)
\[ \mathbb{P}(Y \geq a) \leq \frac{\mathbb{E}\left[Y\right]}{a}. \]
[Неравенство Чебышева] Пусть \(Y\) имеет конечное матожидание \(\mu\) и дисперсию \(\sigma^2\). Тогда для любого \(\varepsilon > 0\)
\[ \mathbb{P}\big(|Y - \mu| \geq \varepsilon\big) \leq \frac{\sigma^2}{\varepsilon^2}. \]
5.2 Доказательство ЗБЧ
Рассмотрим \(\frac{1}{n}S_n = \frac{1}{n}\sum_{k=1}^n X_k\). По линейности матожидания имеем \[ \mathbb{E}\left[\frac{1}{n}S_n\right] = \mu. \] Найдём дисперсию: \[ \operatorname{Var}\left[\frac{1}{n}S_n\right] = \frac{1}{n^2}\operatorname{Var}\left[\sum_{k=1}^n X_k\right] \] Так как \(X_k\) независимы и одинаково распределены, \[ \operatorname{Var}\left[\sum_{k=1}^n X_k\right] = n \cdot \operatorname{Var}\left[X_1\right] = n\sigma^2. \] Следовательно, \[ \operatorname{Var}\left[\frac{1}{n}S_n\right] = \frac{\sigma^2}{n}. \] По неравенству Чебышева для любого \(\varepsilon > 0\): \[ \mathbb{P}\!\left(\left|\frac{1}{n}S_n - \mu\right| \geq \varepsilon\right) \leq \frac{\operatorname{Var}\left[\frac{1}{n}S_n\right]}{\varepsilon^2} = \frac{1}{n^2} \cdot \frac{\operatorname{Var}\left[S_n\right]}{\varepsilon^2} = \frac{1}{n^2} \cdot \frac{n \sigma^2}{\varepsilon^2} = \frac{\sigma^2}{n\varepsilon^2}. \] Правая часть стремится к \(0\) при \(n \to \infty\), откуда следует, что \[ \frac{1}{n}S_n \xrightarrow{\mathbb{P}} \mu. \] Так как предел константа, то имеем также сходимость по распределению. Теорема доказана.
Заметим, что некоторые условия из ЗБЧ можно ослабить.
Вместо независимости требовать некоррелированность. Действительно, независимость нам была нужна, чтобы представить дисперсию суммы как сумму дисперсий. Но для этого достаточно попарной некоррелированности.
Вместо одинаковой распределенности требовать, чтобы
матожидания сходились к какой-то константе \(\mu\): \(\mathbb {E}\left[X_n\right] \to \mu\) при \(n \to \infty\)
дисперсии были равномерно ограниченны: существует \(M > 0\), такое что \(\operatorname {Var}\left[X_n\right] \leq M\) для всех \(n \in \mathbb {N}\)
(проверьте самостоятельно, что это действительно так)
Если формулировать ЗБЧ как
\[ \frac{1}{n} \left(S_n - \mathbb{E}\left[S_n\right]\right) \xrightarrow[n \to \infty]{d,\mathbb{P}} 0 \] то вместо \(\frac{1}{n}\) можно брать \(\frac{1}{n^{\alpha }}\), \(\alpha > 0.5\) – произвольное.
Теорема 4 (ЗБЧ, более общая формулировка) Пусть \(X_1, X_2, \ldots\) – это некоррелированные случайные величины с конечным вторым моментом. Пусть дисперсии равномерно ограниченны: существует \(M > 0\), такое что \(\operatorname {Var}\left[X_i\right] \leq M\) для всех \(i\). Тогда \[ \frac{1}{n^\alpha}\left(S_n - \mathbb{E}\left[S_n\right]\right) \xrightarrow[n \to \infty]{d, \mathbb{P}} \mu. \] для произвольного \(\alpha > 0.5\).
Пусть \(Y_i = X_i - \mathbb {E}\left[X_i\right]\). Тогда \(\mathbb {E}\left[Y_i\right] = 0\), \(\operatorname {Var}\left[Y_i\right] = \operatorname {Var}\left[X_i\right]\), \[ S_n - \mathbb{E}\left[S_n\right] = \sum_{i=1}^n X_i - \mathbb{E}\left[\sum_{i=1}^n X_i \right] = \sum_{i=1}^n Y_i \] Далее, \[ \begin{align} \mathbb{P}\left(\left|\frac{1}{n}S_n - \mathbb{E}\left[S_n\right] \right| > \varepsilon\right) &= \mathbb{P}\left(\left|\frac{1}{n}\sum_{i=1}^n Y_i\right| > \varepsilon\right) \leq \frac{1}{n^{2\alpha}} \cdot \frac{\operatorname{Var}\left[\sum_{1}^n Y_i\right]}{\varepsilon^2} = \frac{1}{n^{2\alpha}} \cdot \frac{\sum_{1}^n\operatorname{Var}\left[ Y_i\right]}{\varepsilon^2} \leq \\ &\leq \frac{M}{n^{2\alpha - 1} \varepsilon^2} \to 0 \end{align} \]
5.3 Центральная предельная теорема
Теорема 5 Пусть \(X_1, X_2, \ldots\) – квадратично интегрируемые НОРСВ. Пусть \(\mu = \mathbb {E}\left[X_1\right]\), \(\sigma^2 = \operatorname {Var}\left[X_1\right]\). Тогда \[ \frac{S_n - n\mu}{\sqrt{n}\sigma} \xrightarrow[n \to \infty]{d} \mathscr{N}\left(0, 1\right) \]
Центрируем и нормируем \(X_i\): \(Y_i := \frac{X_i - \mu }{\sigma }\) (тогда \(\mathbb {E}\left[Y_i\right] = 0\), \(\operatorname {Var}\left[Y_i\right] = 1\)). Тогда для \(\tilde{S}_n = Y_1 + \ldots + Y_n\) ЦПТ будет выглядеть так:
\[ \frac{\tilde{S}_n}{\sqrt{n}} \xrightarrow[n \to \infty]{d} \mathscr{N}\left(0, 1\right) \]
Отличие ЦПТ от ЗБЧ в том, что в ЗБЧ сумма \(S_n\) скалируется на \(n\), а в ЦПТ на \(\sqrt{n}\).
Неформально: если нам дана последовательность НОРСВ \(X_1,X_2, \ldots\) с матожиданием \(\mu\) и дисперсией \(\sigma^2\), то
\[ \operatorname{Law}(S_n) = \mathbf{P}_{S_n} \approx \mathscr{N}\left(n\mu, n\sigma^2\right) \]
где \(\operatorname {Law}(S_n)\), \(\mathbf{P}_{S_n}\) – различные обозначения распределения \(S_n = X_1 + X_2 + \ldots + X_n\).
5.4 Закон редких событий
Теорема 6 (Предельная теорема Пуассона, закон редких событий) Пусть \(X_1, X_2, \ldots , X_n, \ldots\) – случайные величины , имеющие распределение \(\operatorname {Bin}(n, p_n)\), причем с ростом \(n\) вероятность успеха падает со скоростью \(\frac{1}{n}\): найдется такое \(\lambda > 0\), что \(p_n \sim \frac{\lambda }{n}\) при \(n \to \infty\). Эквивалентно: \(np_n \xrightarrow [n \to \infty ]{} \lambda\). Эквивалентно: \(\mathbb {E}\left[X_n\right] \xrightarrow [n \to \infty ]{} \lambda\). Тогда \[ \Phi(2) - \Phi(-2) =2\Phi(2) - 1. \]
Теорема Пуассона кратко:
\[ \mathbb{P}\left(S_{64} \leq N\right) \geq 0.95 \]
5.5 ЦПТ VS ЗРС
Рассмотрим распределение \(\operatorname {Bin}(n,p)\). В каких случаях использовать аппроксимацию из ЦПТ, а в каких из ЗРС? При сравнительно большом \(\lambda := np\) (обычно при \(\lambda > 9\)) для аппроксимации \(\operatorname {Bin}(n,p)\) используется нормальное распределение:
\[ \mathbb{E}\left[\xi_1\right] = 1, \quad \mathbb{E}\left[\xi_1^2\right] = \frac{3}{2}, \quad \operatorname{Var}\left[\xi_1\right] = \frac{1}{2} \]
При малых \(\lambda = np\) (\(\lambda < 9\)) для аппроксимации можно использовать пуассоновское распределение:
\[ \operatorname{Law}\left(\frac{S_n - n\mu}{\sqrt{n}\sigma}\right) = \operatorname{Law}\left(\frac{S_{64} - 64}{8/\sqrt{2}}\right) \approx \mathscr{N}\left(0, 1\right) \; \Rightarrow \; \operatorname{Law}\left(S_{64} \right) \approx \mathscr{N}\left(64, 32\right) \]