补充内容⚓︎

典型集和典型序列⚓︎

AED，渐进均分性⚓︎

对于一系列的独立的同分布的随机变量\(X_i\)的取值\(x_i\)，则有

\[ H(X)-\varepsilon\leqslant -\dfrac{1}{n}\log p(x_1,x_2,\dots ,x_n)\leqslant H(X)+\varepsilon. \]

给出简单的证明：

\[ \begin{aligned} \lim_{n\to \infty}-\dfrac{1}{n}\log p(x_1,x_2,\dots ,x_n) &=\lim_{n\to \infty} -\dfrac{1}{n}\sum_{i}^{n}\log p(x_i)\\ &=-E[\log p(x)]=H(X). \end{aligned} \]

注意，上述推导过程使用到了大数定理，也就是说，对于上述\(n\)个取值，对于\(\forall i\leqslant n\)，都应该有\(\dfrac{N(x_i\mid \{x_n\})}{n}\approx p(x_i)\).其中，\(N(x_i\mid \{x_n\})\)表示序列中\(x_i\)出现的次数。

一个额外的推论是：

\[ 2^{-n(H(X)+\varepsilon)}\leqslant p(x_1,x_2,\dots,x_n)\leqslant 2^{-n(H(X)-\varepsilon)}. \]

典型序列和典型集⚓︎

根据上述所说的渐进均分性，我们可以用其来定义典型序列：如果序列\(\{x_1,x_2,\dots ,x_n\}\)满足：

\[ 2^{-n(H(X)+\varepsilon)}\leqslant p(x_1,x_2,\dots,x_n)\leqslant 2^{-n(H(X)-\varepsilon)}. \]

则称其为概率分布\(X\sim p(x)\)的一个典型序列。

这样的满足要求的序列的集合称为典型集，记作\(T(\varepsilon ,n)-p(x)\).

典型序列的性质⚓︎

性质一：如果\(\{x_n\}\)为典型序列，则\(p(\{x_n\})=2^{-nH(X)}\).

简短的证明如下：

\[ \begin{aligned} p(\{x_n\})&=\prod_{i=1}^{n}p(x_i)\\ &=\prod _{x\in X}p(x)^{N(x\mid x_n)}\\ &=2^{\log \prod_{x\in X}p(x)^{N(x\mid x_n)}}\\ &=2^{\sum_{x\in X}\log p(x)^{N(x\mid x_n)}}\\ &=2^{\sum_{x\in X}N(x\mid x_n)\log p(x)}\\ &=2^{\sum_{x\in X}np(x)\log p(x)}=2^{-nH(X)}. \end{aligned} \]

性质二：\(P(T(\varepsilon , n))\geqslant 1-\varepsilon\)，也就是说，任一随机序列属于典型集的概率无限趋近于\(1\)。

简短的证明如下：

由于定义，\(-\dfrac{1}{n}\log p(x_1,\dots ,x_n)\)依概率收敛于\(H(X)\)。于是有：

\[ \lim_{n\to \infty}\textrm{Pr}(\left |-\dfrac{1}{n}\log p(x_1,\dots ,x_n)-H(X)\right |< \varepsilon)\geqslant 1-\delta. \]

取\(\delta = \varepsilon\)即得证。

性质三：\(\left | T(\varepsilon , n)\right |\approx 2^{nH(X)}\).

由于性质一说明了典型序列的出现概率；性质二说明了任一随机序列属于典型集的概率。两者共同考虑，则可以不严格地推出典型集的元素个数为\(2^{nH(X)}\).

最后更新: March 31, 2023
创建日期: March 12, 2023

补充内容⚓︎

典型集和典型序列⚓︎

AED，渐进均分性⚓︎

典型序列和典型集⚓︎

典型序列的性质⚓︎

评论