目录 / Table of Contents
本文介绍了概率空间$ ( \Omega, \mathcal{F}, {P} )$ 中 $\Omega, \mathcal F, P$ ,尤其是 $\mathcal F$ 的含义——事件域 $\mathcal F$ 包含了一系列划分后的集合,which 可以被我们用来对样本空间 $\Omega$ 中的样本路径 $\omega$ 进行归类。这些分类,实际上表示我们对于当前样本路径的了解程度:我们在某一阶段 $T$ 所知道的信息越多,这一阶段的事件域 $\mathcal F _T$ 所包含的元素就越多,表示我们对于 $\omega$ 所能选取的划分也就越多。
1. 描述样本空间 $\Omega$ 及其子集
假设我们现在关心的是「连续投掷2次硬币」这一随机试验。将硬币的某一面记作正面,与其相反的一面记作反面。将「硬币投出了正面」记作 H (假设其可能性为 $p,p>0$),将「硬币投出了反面」记作 T (假设其可能性为 $q, q=1-p>0$)。这一随机试验中,以序列$w_1w_2$(其中$w_i的可能取值为H或T$)列出所有可能的结果。此时的样本空间 $\Omega$ 为: $$ \Omega = \lbrace \text{HH, HT, TH, TT}\rbrace. \ $$
样本空间 Ω 列出了随机试验所有可能发生的结果。在这些过程中,有一些结果可能是我们所关心的。我们可以根据所关心的 内容,对 Ω 中的元素进行划分1,并将划分中的元素称作事件。例如,我们可能想了解 第1次掷币的结果是否是正面 。此时,我们可对样本空间 $\Omega$ 进行如下的划分: $$ C_1=\lbrace第1次掷币的结果是正面\rbrace =\lbrace \text{HH, HT}\rbrace, \ C_2=\lbrace第1次掷币的结果是反面\rbrace =\lbrace\text{TH, TT}\rbrace . \ $$ 根据注释11中对划分的定义,不难验证, $ C_1\cap C_2=\varnothing$ 且 $C_1 \cup C_2 = \Omega$,所以 $\lbrace \text{HH, HT}\rbrace, \lbrace \text{TH, TT}\rbrace$ 是 $\Omega$ 的一个划分,而 第1次掷币的结果是否是正面 便是我们关心的事件。
我们也可在样本空间 $\Omega$ 上选择其他划分,比如 $\lbrace \text{HH}\rbrace,\lbrace \text{HT}\rbrace,\lbrace \text{TH}\rbrace,\lbrace \text{TT}\rbrace$ 就是一个更加精细的划分。我们可以对这些划分的每族集合的元素使用并交补等集合运算,以描述更多类型的集合。比如说,「第1次掷币的结果是正面」这一事件就是 $\lbrace \text{HH}\rbrace,\lbrace \text{HT}\rbrace$ 基本划分的并,也可以是 $\lbrace \text{TH}\rbrace,\lbrace \text{TT}\rbrace$ 两个基本划分并集的补。又比如说,「第1次掷币的结果既不是正面也不是反面」这一事件就是 $\lbrace \text{HH}\rbrace,\lbrace \text{HT}\rbrace,\lbrace \text{TH}\rbrace,\lbrace \text{TT}\rbrace$ 基本划分并集的补,即 $\varnothing$,因此称该事件为不可能事件2;而「第1次掷币的结果是正面或反面」这一事件就是 $\lbrace \text{HH}\rbrace,\lbrace \text{HT}\rbrace,\lbrace \text{TH}\rbrace,\lbrace \text{TT}\rbrace$ 基本划分的并集,即 $\Omega$,称其为确定事件。
2. 描述事件的集合——$ \mathcal{F}$
在上一节中,我们利用划分与集合的基本运算描述了事件的概念。如果对这些事件进一步施加一系列集合的基本运算,似乎就能将所有我们所关心的事件都表示成集合的形式。把我们所关心的事件全部列出来以后,我们好像就可以 对这些事件对应的集合定义它们的测度,进而衡量这些集合对应的事件发生的可能性了。未来似乎一片光明啊~
可是,事情并没有那么简单。如果重新审视上文下划线的表述,我们又会碰上 2 个问题:
- 我们关心的是某些事件发生的可能性,对应的是相应集合的测度。然而,不是每个事件都可被定义出测度;
- 在对集合进行交、并、差等运算时,如果运算出来的集合不在我们处理的能力范围内,那可咋整?
为了解决或者规避这 2 个问题,我们需要:
- 找出那些能被定义测度的集合,即所谓可测集,将它们作为研究对象;
- 找到这样的一个集合系,使得其中的集合在经过可数次运算后的结果不会超出这个集合系所能包含的范围。
那么,在集合论与测度论的工具箱里,是否有能够满足上述用下划线所标识的性质的工具呢?实际上,测度论中提到了这样的一个集合系,不仅可以保证其中的集合是可测集,而且这些集合对基本运算封闭。这个集合系,便是$\sigma-$代数,其定义如下:
对于$\mathcal{F}$ 的直观理解:每个阶段所知的信息
$\mathcal{F}$ 包含了某一时刻我们所知道的「所有已经发生的事件的所有可能组合」。
这些分类是怎样描述「所知道的信息」的?要知道,对于某个随机过程,我们会面临一条事前确定的样本路径 $\omega_i$ 。然而,尽管这条样本路径是已经被「固定」的,但我们并不知道 $\omega_i$ 是 $\Omega$ 中的哪一个 $\omega$ ——我们仅能知道,对于给定的 $\Omega$ 的某个子集,$\omega_i$ 是不是在这个子集里面。而前一句中 能够被判断是否包含 $\omega_i$ 的这些 $\Omega$ 的子集,就是我们在第一段中提到的,事件域 $\mathcal F$ 所包含的「分类」。如果对集合的划分越精细,「分类」就越多,表示我们知道的信息就更多。
举个例子,定义一个随机变量 $S$ ,用于表示股票价格:
$$ \begin{align} S_0(\omega) &= 4, \forall \omega \in \Omega \\ S_1(\omega) &= \begin{cases} 8, & 如果 \omega_1=H \\ 2, & 如果 \omega_1=T \ \end{cases} \\ S_2(\omega) &= \begin{cases} 16, & 如果 \omega_1=\omega_2=H \\ 4, & 如果 \omega_1\neq \omega_2 \\ 1, & 如果 \omega_1=\omega_2=T \end{cases} \end{align} $$
接下来,假设我们只能观察到 $S(\omega)$ ,而不能直接看到 $\omega$ 是什么。那么,我们便可以用 $\mathcal F$ 刻画该随机过程中的信息。下文中我们先不加定义地使用形如 $\mathcal F_t$ 的 sigma 代数表示「连续投掷2次硬币」每一阶段的已知信息。
(t=0) 首先是没扔硬币的时候。此时, $$ \mathcal{F}_0 =\sigma(S_0)= \lbrace \varnothing, \Omega \rbrace. $$ 这个不难理解。对于给出的一个 $S_0(\omega)$ 的取值,如果该取值不是 4,那说明我们现在不在掷硬币 2 次的这个路径。反之,我们可以推断,我们马上就要开始扔硬币了。此时,我们所知道的信息是:我们是否处于 $\omega$ 的某一可能路径上。
(t=1) 接着,是第 1 次扔硬币。此时, $S_1(\omega)$的合理取值是 2 或 8 ,对应的事件域是 $$ \mathcal{F}_1 = \sigma(S_1)=\sigma(\lbrace \text{HH,HT} \rbrace, \lbrace \text{TH,TT} \rbrace)=\lbrace \varnothing, \Omega, \lbrace \text{HH,HT} \rbrace, \lbrace \text{TH,TT} \rbrace \rbrace . $$ 这个事件域的含义是,对于观测到的 $S_1(\omega)$ 的取值,我们除了知道 $S(\omega)$ 对应的 $\omega$ 是否在 $\varnothing 或 \Omega$ 以外,还能知道 $\omega$ 是哪个值( 还是 $H 还是T?$ )开头的样本路径,即 $\omega$ 到底是属于 $\lbrace \text{HH,HT} \rbrace$ ,还是属于 $\lbrace \text{HH,HT} \rbrace$ 。
(t=2) 最后,是第 2 次扔硬币。此时,除了没扔硬币和第一次扔硬币的信息以外,我们可以从 $S_2(\omega)$ 获取了更多关于 $\omega$ 的信息,并对它们进行更精细的分类: $$ \begin{align} \mathcal{F}_2 = \sigma(S_2)&=\sigma(\lbrace \text{HH}\rbrace, \lbrace \text{TT}\rbrace,\lbrace \text{HT,TH}\rbrace) \\ & = \lbrace \varnothing, \Omega, \lbrace \text{HH}\rbrace, \lbrace \text{TT}\rbrace,\lbrace \text{HT,TH}\rbrace,\lbrace \text{HH,TT}\rbrace,\lbrace \text{HH,HT,TH}\rbrace,\lbrace \text{TT,HT,TH}\rbrace\rbrace \end{align} $$
观察上述的事件域 $\mathcal{F}_0, \mathcal{F}_1, \mathcal{F}_2$ ,不难看出,在每个事件域中,我们都可以找到对应的分类,并将所观察到的随机试验的结果及其背后根本的样本路径归入这个类别里。比如,当 $S_0=4$ 时,我们知道 $\omega \in \Omega$ ;当 $S_1=8$ 时,我们不仅知道 $\omega \in \Omega$ ,还能知道更准确的信息,即 $\omega \in \lbrace{HH,HT\rbrace} \subseteq \Omega$ ;当 $S_2=16$ 时,我们便能知道更准确的信息,即 $\omega \in \lbrace{HH\rbrace}\subseteq \lbrace{HH,HT\rbrace} \subseteq \Omega$ 。
不难看出,随着时间的推移(体现在脚标的数值不断增大), $\mathcal{F}_t$ 所包含的元素越来越多,其中的分类也越来越多,我们也越能确定 $\omega$ 究竟是什么什么样的。在此,我们正式给出 filtration 的定义,以刻画「随着时间不断增加的信息」:
(一个简单的小问题:基于上文的 $\mathcal F_0, \mathcal F_1,\mathcal F_2$ 所定义的 $\mathbb F = (\mathcal F_k)_{k=0,1,2}$ 是不是 filtration 呢?)
另外,有一点需要注意。回顾由样本空间的基本划分的所有元素及其交并补集所组成的 sigma 代数,我们有: $$ \begin{align} \mathcal{F} = \lbrace &\varnothing, \Omega, \\ &\lbrace \text{HH}\rbrace,\lbrace \text{HT}\rbrace,\lbrace \text{TH}\rbrace, \lbrace \text{TT}\rbrace, \\ &\lbrace \text{HH,HT}\rbrace, \lbrace \text{HH,TH}\rbrace, \lbrace \text{HH,TT}\rbrace, \\ &\lbrace \text{HT,TH}\rbrace,\lbrace \text{HT,TT}\rbrace,\lbrace \text{TH,TT}\rbrace, \\ &\lbrace \text{HH,HT,TH}\rbrace, \lbrace \text{HH,HT,TT}\rbrace, \\ &\lbrace \text{HT,TH,TT}\rbrace, \lbrace \text{HH,TH,TT}\rbrace \\ \rbrace \end{align} $$ 这里 $\mathcal{F}_2 \neq \mathcal{F}$。这是因为,如果我们只观测到了 $S_2=4$,而没有 $S_1$ 和 $S_0$ 的信息,那么我们仅凭 $\mathcal F_2$ 并不能判断目前的样本路径究竟是 $\text{HT}$ 还是 $\text{TH}$。
有了样本空间 $\Omega$ 和 $\sigma$-代数 $\mathcal{F}$ 以后,我们可将它们写成 $( \Omega, \mathcal{F} )$,称之为可测空间(measurable space),而 $\mathcal{F}$ 中的元素3称为可测集(measurable set)。至此,我们便初步界定了「随机试验」中所关心的「事件」。接下来需要定义的,就是这些「事件」发生的可能性,即概率了。
3. 描述可测空间上的概率测度——$P$
概率的定义应该从哪里入手呢?不妨试着从我们刚刚得到的可测空间 $( \Omega, \mathcal{F} )$ 入手。 $( \Omega, \mathcal{F} )$ 之所以叫做可测空间,是因为其具备一些优良的性质,使得 $\mathcal{F}$ 中的任意一个集合都可以定义其测度。如果我们在可测空间 $ ( \Omega, \mathcal{F} )$ 上定义一个测度 $\mu$,并进一步让这个测度 ${P}$ 满足某些我们所期望「概率」应该具备的性质,那么不就能对 $\mathcal{F}$ 中的任意一个集合(也就是事件)定义其「可能性的大小」了吗?因此,我们接下来要做的事情就是:1. 定义 $ ( \Omega, \mathcal{F} )$ 上的测s度 $\mu$ ;2. 在 $\mu$ 上增加某些性质,使之成为我们心目中的「概率」。
x先来做第 1 件事,即定义 $ ( \Omega, \mathcal{F} )$ 上的测度。不严谨地讲,测度实际上是可测空间 $ ( \Omega, \mathcal{F} )$ 上存在的一个从 $\mathcal{F} $ 到 $[0,\infty)$ 的映射,记作 $\mu:\mathcal{F} \rightarrow \text{R}^+$,其定义为:
- $\mu(\varnothing) = 0.$
- $\mu(A)\geq 0, \forall A \in \mathcal{F}.$
- 对于 $\mathcal{F}$ 中任意可数集合 $C_i,i=1,2,\cdots$,如果 $ C_i\cap C_j=\varnothing, \forall i \neq j $ ,有$\mu(\cup^\infty_{i=1} C_i) = \Sigma^\infty_{i=1}\mu(C_i)$.
这样定义的函数关系就是所谓测度(measure)。将测度加入测度空间,则三位一体的 $ ( \Omega, \mathcal{F}, \mathbb{P} )$ 便称为测度空间。
在第 4 节中测度定义中加上一个正则性要求,即 $\mathbb{P}(\Omega) = 1$,便可构造出 $\mathcal{F}$ 上的一个函数关系 $\mathbb{P}:\mathcal{F} \rightarrow [0,1]$,对于任意一个集合$A\in \mathcal{F}$都制定了$\left[0,1\right]$中的一个数 $\mathbb{P}(A)$。$\mathbb{P}$ 便是我们所要的概率测度,简称为概率,而 $ ( \Omega, \mathcal{F}, \mathbb{P} )$ 便称为概率空间。此时我们便完成了对概率的公理化定义。
附录:一道关于 sigma-代数及 filtration 的习题
这里附上一道关于 sigma-代数及 filtration 的习题,有兴趣可做~