Распределения вероятностей. Случайные величины. Матожидание
1 Случайные величины
Многие эксперименты имеют исходы, которые удобно выражать числами. Например, результат броска игральной кости — это число очков на выпавшей грани из множества \(\{ 1, \ldots , 6\}\). При построении вероятностной модели этому числовому исходу ставится в соответствие элементарное событие.
Функция, которая сопоставляет каждому элементарному событию некоторое число, и для которой можно определять вероятности ее попадания в различные (борелевские) подмножества \(\mathbb {R}\), называется случайной величиной. Введение этого понятия служит важным инструментом в теории вероятностей, поскольку позволяет:
Значительно упростить вычисление вероятностей различных событий,
Сформулировать и доказать ключевые предельные теоремы.
Прежде чем дать строгое определение случайной величины, полезно вспомнить общее понятие измеримой функции.
Определение 1 Пусть \(\Omega\)- некоторое множество, \(\mathcal{F}\) – \(\sigma\)-алгебра на нем. Пусть, кроме того, \(\mathcal{E}\) – \(\sigma\)-алгебра на некотором множестве \(E\).
Множество вместе с некоторой своей сигма-алгеброй называется измеримым пространством. \(\left(\Omega , \mathcal{F}\right)\) и \(\left(E, \mathcal{E}\right)\) – это 2 измеримых пространства.
Отображение \(X: \Omega \rightarrow E\) из одного измеримого пространства в другое называется измеримым (более точно \(\mathcal{F} \mid \mathcal{E}\)-измеримым), если для любого множества \(B \in \mathcal{E}\) его прообраз лежит в \(\mathcal{F}\):
\[ \underbrace{X^{-1}(B) = \{\omega \in \Omega: X(\omega) \in B\} = \left\{X \in B\right\}}_{\text{различные обозначения прообраза}} \in \mathcal{F} \] Смысл: если на \(\left(\Omega , \mathcal{F}\right)\) задана вероятность (вероятностная мера) \(\mathbb {P}\), то свойство измеримости функции \(X:\Omega \to E\) позволяет измерять вероятность попасть \(X\) в произвольное множество из сигма-алгебры на области значений \(E\).
В теории вероятностей измеримое отображение называется случайным элементом. Т.е. если \((\Omega , \mathcal{F}, \mathbb {P})\) – вероятностное пространство, и \(X: \Omega \to E\) – измеримое отображение, то \(X\) называется случайным элементом (со значениями в \((E, \mathcal{E})\)).
Если \((E, \mathcal{E}) = \left(\mathbb {R}, \mathscr {B}\left(\mathbb {R}\right)\right)\), то случайный элемент \(X\) называют случайной величиной. Т.е. случайная величина – это измеримая функция (отображение в \(\left(\mathbb {R}, \mathscr {B}\left(\mathbb {R}\right)\right)\)).
Еще раз повторим, что измеримость позволяет вычислять вероятность того, что случайная величина, например, не превосходит \(7\): \(\mathbb {P}\left(X \leq 7\right)\). Действительно, \(\left\{ X \leq 7\right\} = \left\{ \omega : \; X(\omega ) \leq 7\right\} = X^{-1}\left((-\infty , 7]\right)\), множество \((-\infty , 7]\) является борелевским, следовательно \(\left\{ X \leq 7\right\} \in \mathcal{F}\) и это множество можно вставлять в вероятность.
Если отображение \(\xi : \Omega \rightarrow \mathbb {R}^{n}\) является \(\mathcal{F} \mid \mathscr {B}\left(\mathbb {R}^{n}\right)\)-измеримым, то оно называется случайным вектором.
Отображение \(f: \mathbb {R}^{n} \rightarrow \mathbb {R}^{k}\) называется борелевским (или измеримым по Борелю), если оно является \(\mathcal{B}\left(\mathbb {R}^{n}\right) \mid \mathcal{B}\left(\mathbb {R}^{k}\right)\)-измеримым.
Отображение \(f: \mathbb {R}^{n} \rightarrow \mathbb {R}^{k}\) называется измеримым по Лебегу, если оно является \(\mathcal{M}\left(\mathbb {R}^{n}\right) \mid \mathcal{B}\left(\mathbb {R}^{k}\right)\)-измеримым, где \(\mathcal{M}\left(\mathbb {R}^{n}\right)\) – сигма-алгебра измеримых по Лебегу подмножеств \(\mathbb {R}^{n}\).
В последних 2-х определениях разница в сигма-алгебрах на области определения \(\mathbb {R}^{n}\). В области значений \(\mathbb {R}^{k}\) мы всегда берем борелевскую сигма-алгебру.
Измеримость по Борелю сильнее измеримости по Лебегу: если функция измерима по Борелю, то она измерима и по Лебегу (это простое упражнение).
Нужно отметить, что условие измеримости носит скорее теоретический характер. В реальной практике очень сложно встретить неизмеримую функцию; подавляющее большинство функций будет обладать измеримостью, т.е. будет случайными элементами (величинами или векторами). Все известные вам стандартные функции из \(\mathbb {R}\) в \(\mathbb {R}\) являются измеримыми по Борелю. А в дискретном случае, например, вообще все функции \(\Omega \mapsto \mathbb {R}\) являются измеримыми, поскольку \(\mathcal{F} = 2^{\Omega }\), т.е. любой прообраз попадет в \(\mathcal{F}\).
Для упрощения записи вероятностей событий, связанных со случайными величинами, вводятся обозначения:
\[ \begin{align} \mathbb{P}\left(\left\{\omega: \xi(\omega) \in B\right\}\right) &=: \mathbb{P}\left(\xi \in B\right) \\ \mathbb{P}\left(\left\{\omega: \xi(\omega) < x\right\}\right) &=: \mathbb{P}\left(\xi < x\right) \\ \mathbb{P}\left(\left\{\omega: \xi(\omega) = x\right\}\right) &=: \mathbb{P}\left(\xi =x \right) \\ \mathcal{F}_{\xi} &:= \left\{\xi^{-1}(B) \mid B \in \mathscr{B}\left(\mathbb{R}^{n}\right)\right\} \\ \end{align} \]
Приведем простейшие примеры случайных величин.
Модель броска монетки с вероятностью орла \(p\): \(\Omega = \left\{ \omega_{\text{о}}, \omega_{\text{р}}\right\}\), \(\mathcal{F}=2^{\Omega }\), \(\mathbb {P}\left(\left\{ \omega_{\text{о}}\right\} \right) = p\). Пусть, кроме того,
\[ \xi: \Omega \rightarrow \left\{0,1\right\}, \qquad \xi\left(\omega_{\text{о}}\right)=1, \quad \xi\left(\omega_{\text{р}}\right)=0 \] Тогда имеем: \(\mathbb {P}\left(\xi = 1\right) = p\), \(\mathbb {P}\left(\xi = 0\right) = 1-p\).
Пусть \(\Omega\) – произвольное множество, \(\mathcal{F}\) – это \(\sigma\)-алгебра на нем и \(A \in \mathcal{F}\). Случайная величина \(I_{A}: \Omega \rightarrow \{ 0,1\}\), где \(I_{A}(\omega )=1\) в том и только том случае, когда \(\omega \in A\), называется индикатором события \(A\).
Заметим, что свойство измеримости при определении случайных величин (шире, случайных векторов и элементов) необходимо для подсчета вероятностей свойств, связанных со значениями случайных величин. Иными словами, нас интересуют вероятности \(\mathbb {P}\left(\xi \in B\right)\), \(B \in \mathcal{E}\). Легко доказать, что функция \(\mathbf{P}_{\xi }: \mathcal{B}\left(\mathbb {R}^{n}\right) \rightarrow [0,1]\), значения которой задаются равенством
\[ \mathbf{P}_{\xi}\left(B\right) := \mathbb{P}\left(\xi \in B\right) = \mathbb{P}\left(\left\{\omega \; : \; \xi(\omega) \in B\right\}\right), \]
является вероятностной мерой. В этой связи вводят следующие определения.
Определение 2 Вероятностная мера \(\mathbf{P}_{\xi }\) на \((\mathbb {R}, \mathscr {B}\left(\mathbb {R}\right))\) называется распределением случайной величины \(\xi\).
2 Распределение вероятностей
Термин распределение (или распределение вероятностей), без привязки к случайной величине, – это, вообщем, синоним вероятностной меры (вероятности). Отличие лишь в том, что вероятность может задаваться на произвольном измеримом пространстве \((\Omega , \mathcal{F})\), а распределение, как правило, задается на \((\mathbb {R}, \mathscr {B}\left(\mathbb {R}\right))\) (шире, на \((\mathbb {R}^{n}, \mathscr {B}\left(\mathbb {R}^{n}\right))\)).
Самые распространенные типы распределений - дискретное и абсолютно непрерывное распределения вероятностей. Мы рассмотрим дискретные.
Носитель распределения – это наименьшее замкнутое множество, мера которого \(1\). Обозначение: \(\operatorname {supp}\mathbf{P}\). Имеем
\[ \operatorname{supp}\mathbf{P} = \bigcap_{\substack{ B \subset \mathbb{R} \\ B \text{ -- замкн.} \\ \mathbf{P}\left(B\right) = 1}} B \]
Например, носитель меры Лебега на отрезке \([0,1]\) – это отрезок \([0,1]\). Носитель меры Дирака в точке \(c\) – это \(\left\{ c\right\}\) (см. ниже).
Распределение \(\mathbf{P}\) называется дискретным, если его носитель – это не более чем счетное множество. Такое распределение удобно задавать просто через массы отдельных точек носителя. Функция, сопоставляющая точкам носителя их массы, называется функцией масс (или функцией вероятности). Обозначение: \(\operatorname {PMF}\) (от англ. probability mass function). Имеем
\[ \operatorname{PMF}(x) := \mathbf{P}\left(\left\{x\right\}\right), \qquad x \in \operatorname{supp}\mathbf{P} \]
Приведем примеры дискретных распределений.
Мера Дирака в точке \(c \in \mathbb {R}\): \(\delta_c\). Имеем \(\operatorname {supp}\delta_{c} = \left\{ c\right\}\), \(\operatorname {PMF}(c) = 1\).
Дискретное равномерное распределение\(\operatorname {Unif}\left\{ 1,\ldots ,N\right\}\) на множестве \(\{ 1, \ldots , N\}\) определяется следующим образом:
\[ \operatorname{supp}\operatorname{Unif}\left\{1,\ldots,N\right\} = \left\{1, \ldots, N\right\}, \qquad \operatorname{PMF}(k) = \frac{1}{N}, \quad k \in \left\{1, \ldots, N\right\} \] Иначе говоря,
\[ \operatorname{Unif}\left\{1,\ldots,N\right\} = \frac{1}{N}\delta_1 + \frac{1}{N}\delta_2 + \ldots + \frac{1}{N}\delta_N \] Легко проверить, что это действительно распределение: все массы положительны, в сумме дают \(1\).
Распределение Бернулли с параметром \(p \in (0,1)\): \(\operatorname {Ber}(p)\).
\[ \operatorname{supp}\operatorname{Ber}(p) = \left\{0,1\right\}, \qquad \operatorname{PMF}(0) = 1-p, \quad \operatorname{PMF}(1) = p \] Иначе говоря,
\[ \operatorname{Ber}(p) = (1-p)\cdot \delta_0 + p\cdot \delta_{1} \] Физическая модель – бросок несимметричной монеты, где выпадению орла сопостовляется \(1\), а выпадению решки \(0\).
Биномиальное распределение\(\operatorname {Bin}(n,p)\) с параметрами \((n, p)\), \(n \in \mathbb {N}, p \in (0,1)\):
\[ \operatorname{PMF}(k) = C_{n}^{k}p^{k}(1-p)^{n-k}, \qquad k \in \left\{0, \ldots, n\right\} = \operatorname{supp}\operatorname{Bin}(n,p) \] Физическая модель - количество успехов в \(n\) независимых испытаниях в схеме Бернулли.
Пуассоновское распределение\(\operatorname {Pois}(\lambda )\) с параметром \(\lambda >0\):
\[ \operatorname{PMF}(k) = \frac{\lambda^{k}}{k!} e^{-\lambda}, \qquad k \in \mathbb{Z}_{+} = \left\{0,1,2, \ldots \right\} = \operatorname{supp}\operatorname{Pois}(\lambda) \] Физическая модель – количество успехов серии независимых испытаний в схеме Бернулли с параметром \(\lambda / n\), где \(n \gg \lambda )\).
Геометрическое распределение\(\operatorname {Geom}(p)\) с параметром \(p \in (0,1)\):
\[ \operatorname{PMF}(k) = (1-p)^{k-1}p, \qquad k \in \mathbb{N} = \operatorname{supp}\operatorname{Geom}(p) \] Физическая модель: количество бросков монетки до первого орла.
Случайные величины \(\xi , \eta\) называются независимыми, если независимы события \(\left\{ \xi \in B_1\right\}\), \(\left\{ \eta \in B_2\right\}\) для произвольных борелевских \(B_1, B_2 \in \mathscr {B}\left(\mathbb {R}\right)\). Т.е.
\[ \mathbb{P}\left(\xi \in B_1, \eta \in B_2\right) = \mathbb{P}\left(\xi \in B_1\right) \cdot \mathbb{P}\left(\eta \in B_2\right), \qquad \forall \; B_1, B_2 \in \mathscr{B}\left(\mathbb{R}\right) \]
В приведённом выше примере, как можно заметить, хотя речь шла о случайной величине, на самом деле объектом изучения было не само отображение \(\Omega \to \mathbb {R}\), а его распределение вероятностей. В теории вероятностей так часто происходит: случайную величину и ее распределение используют взаимозаменяемо. Важно при этом все таки отличать их. Распределение случайной величины – это лишь одна из ее характеристик. Две абсолютно разные случайные величины (как функции) могут иметь одинаковое распределение.
3 От распределения к случайной величине
Как мы выяснили, любая случайная величина имеет распределение, т.е. порождает вероятностную меру на \((\mathbb {R}, \mathcal{B}(\mathbb {R}))\). В реальных задачах, однако, зачастую вообще не упоминают исходное вероятностное пространство \((\Omega , \mathcal{F}, \mathbb {P})\), а просто говорят о некоторой случайной величине с заданным распределением \(\mathbf{P}\).
Возникает вопрос: а существует ли в принципе такая случайная величина? Можно ли построить \((\Omega , \mathcal{F}, \mathbb {P})\) и измеримое отображение \(X \colon \Omega \to \mathbb {R}\) так, чтобы \(\mathbf{P} = \mathbf{P}_{X}\)? Ответ на этот вопрос утвердительный. Вот стандартная конструкция:
\[ (\Omega, \mathcal{F}, \mathbb{P}) := (\mathbb{R}, \mathcal{B}(\mathbb{R}), \mathbf{P}), \qquad X(\omega) := \omega \qquad \text{(т.е. $X = \operatorname{Id}$)}. \]
Ее можно несколько упростить, если брать вместо \(\mathbb {R}\) только лишь носитель распределения \(\mathbf{P}\):
\[ \Omega := \operatorname{supp}\mathbf{P}, \qquad \mathcal{F} := \left\{B \cap \operatorname{supp}\mathbf{P}, \; B \in \mathscr{B}\left(\mathbb{R}\right)\right\}, \qquad \mathbb{P} := \mathbf{P}|_{\operatorname{supp}\mathbf{P}} \]
4 Функция распределения
Определение 3 Пусть \(\mathbf{P}\) – распределение на \((\mathbb {R}, \mathscr {B}\left(\mathbb {R}\right))\). Функция
\[ F_{\mathbf{P}}(x) := \mathbf{P}\left((-\infty, x]\right), \quad x \in \mathbb{R} \] называется функцией распределения вероятностной меры \(\mathbf{P}\).
Если \(\xi\) – это случайная величина, то функцией распределения \(\xi\) называется функция
\[ F_{\xi}(x) := F_{\mathbf{P}_{\xi}}(x) = \mathbb{P}\left(\xi \in (-\infty, x]\right) = \mathbb{P}\left(\xi \leq x\right), \quad x \in \mathbb{R} \]
Отметим свойства функции распределения.
\(F(x)\) – неубывающая функция;
\(\lim_{x \rightarrow -\infty } F(x)=0\), \(\lim_{x \rightarrow +\infty } F(x)=1\);
\(F(x)\) непрерывна справа и имеет пределы слева в каждой точке \(x \in \mathbb {R}\).
Оказывается, для задания распределения вероятностей достаточно задать вероятностную меру лишь на множествах \((-\infty , x]\) для всех действительных \(x\).
Теорема 1 Пусть \(F=F(x)\) – функция на числовой прямой \(\mathbb {R}\), удовлетворяющая свойствам 1 - 3. Тогда на \((\mathbb {R}, \mathscr {B}\left(\mathbb {R}\right))\) существует, и притом единственное, распределение вероятностей \(\mathbf{P}\) такое, что \(F\) – соответствующая этому распределению функция распределения.
Эта теорема оправдывает введение следующего понятия: всякая функция \(F\), удовлетворяющая условиям 1) - 3), называется функцией распределения на числовой прямой \(\mathbb {R}\).
Приведем простейшие примеры функций распределения.
Пусть
\[ F(x)= \begin{cases}0, & x<0 \\ x, & 0 \leq x \leq 1 \\ 1, & x>1\end{cases} \] В этом случае соответствующее распределение вероятностей \(\lambda\) называют мерой Лебега на отрезке \([0,1]\). Ясно, что для любых \(a<b \in [0,1]\) выполнено
\[ \lambda((a, b))=\lambda([a, b))=\lambda((a, b])=\lambda([a, b])=b-a \]
Пусть
\[ F(x)= \begin{cases}0, & x<c \\ 1, & x \geq c\end{cases} \] Соответствующее распределение вероятностей:
\[ \mathbf{P}\left(A\right) = \delta_c(A) = \begin{cases}0, & c \notin A \\ 1, & c \in A\end{cases} \] если \(A \in \mathscr {B}\left(\mathbb {R}\right)\). Т.е. это распределение соответствует единичной массе, сосредоточенной в точке \(c\). Такая вероятностная мера называется мерой Дирака (обозн.: \(\delta_c\)).
5 Различные задачи
6 Матожидание для дискретного распределения
Математическое ожидание - это, неформально, среднее значение, которое принимает случайная величина. Так, среднее значение, выпадающее на игральной кости, равно \(3.5\), и математическое ожидание случайной величины, равной значению, выпавшему на кости, также равно \(3.5\).
Если случайная величина имеет дискретное распределение, то определение математического ожидание вводится естественным образом как взвешенная сумма значений случайной величины.
Определение 4 Математическим ожиданием случайной величины \(\xi\), имеющей дискретное распределение, называется величина \(\mathbb {E}\left[\xi \right]\), равная \[ \mathbb{E}\left[\xi\right] := \sum_{k \in \operatorname{supp}\xi} k \cdot \mathbb{P}\left(\xi=k\right), \]
Если множество \(X\) бесконечное, то сумма в определении математического ожидания может быть бесконечной или вообще не существовать. В случае, когда сумма бесконечна, говорят, что математическое ожидание бесконечно. Если же сумма не существует, то и математического ожидания не существует.
Если \(\varphi : \mathbb {R} \rightarrow \mathbb {R}\) – произвольная борелевская функция, то по определению \(\mathbb {E}\left[\varphi (\xi )\right] = \sum_{k \in \varphi (X)} k \cdot \mathbb {P}\left(\varphi (\xi ) = k\right)\), где \(\varphi (X)\) – это область значений преобразованной случайной величины \(\varphi (\xi )\). На практике искать область значений \(\varphi (\xi )\) и распределение \(\varphi (\xi )\) часто достаточно сложно, вместо этого используется следующая формула:
\[ \mathbb{E}\left[\varphi(\xi)\right]=\sum_{x \in X} \varphi(x) \mathbb{P}\left(\xi=x\right) \]
где \(X\)- множество значений случайной величины \(\xi\).
Свойства:
Матожидание линейно:
\(\mathbb {E}\left[\alpha \cdot \xi \right] = \alpha \cdot \mathbb {E}\left[\xi \right]\), \(\alpha \in \mathbb {R}\), \(\xi\) – СВ.
\(\mathbb {E}\left[\xi + \eta \right] = \mathbb {E}\left[\xi \right] + \mathbb {E}\left[\eta \right]\) для любых случайных величин \(\xi\), \(\eta\) (при условии, что матожи существуют).
Если случайные величины независимы, то матожидание мультипликативно:
\[ \mathbb{E}\left[\xi \cdot \eta\right] = \mathbb{E}\left[\xi\right] \cdot \mathbb{E}\left[\eta\right] \] Однако в общем случае, как правило, матожидание не мультипликативно: \(\mathbb {E}\left[\xi \cdot \eta \right] \neq \mathbb {E}\left[\xi \right] \cdot \mathbb {E}\left[\eta \right]\). В частности, если \(\xi\) имеет какое-то нетривиальное распределение (не распределение Дирака), то, например, \(\mathbb {E}\left[\xi^2\right] \neq \left(\mathbb {E}\left[\xi \right]\right)^2\).
7 Дисперсия
Разумеется, по одному известному среднему значению случайной величины сложно судить о eе распределении. Дополнительную информацию дает среднее квадратическое отклонение от математического ожидания, которое называют дисперсией.
Определение 5 Дисперсией случайной величины \(\xi\) называется величина \[ \operatorname{Var}\left[\xi\right] = \mathbb{E}\left[(\xi - \mathbb{E}\left[\xi\right])^2\right] \]
В силу линейности матожидания для дисперсии есть удобная формула:
\[ \operatorname{Var}\left[\xi\right] = \mathbb{E}\left[\xi^2 - 2\xi \cdot \mathbb{E}\left[\xi\right] + \left(\mathbb{E}\left[\xi\right]\right)^2\right] = \mathbb{E}\left[\xi^2\right] - 2 \cdot \mathbb{E}\left[\xi\right] \cdot \mathbb{E}\left[\xi\right] + \left(\mathbb{E}\left[\xi\right]\right)^2 = \mathbb{E}\left[\xi^2\right] - \left(\mathbb{E}\left[\xi\right]\right)^2 \]
Сноски
Запись \(\operatorname {supp}(\xi + \eta )\) обозначает носитель распределения \(\xi + \eta\), т.е. \(\operatorname {supp}(\xi + \eta ) = \operatorname {supp}\mathbf{P}_{\xi + \eta }\).↩︎