通信系统

image.png

评价指标

  • 有效性就是用尽可能短的时间、频带、功率和成本传送一定数量的信息。
    • 例如,用信息传输速率描述时间有效性,用频带利用率描述频率有效性等,对于数字通信系统来说,信源编码是提高系统有效性的主要手段
  • 可靠性就是要使信源发出的消息经过信道传输后,尽可能准确、不失真地再现在接收端。
    • 在数字通信系统中通常用误码率来表示,误码率是接收到错误码元在传送总码元数中的比率,通常用信道编码方法来降低系统误码率。

      信息的概念

  • 信息是人们对事物了解的不确定性的消除或减少

    广义信息

  • 语法信息

    • (grammatical information)只在形式上表征事物状态和运动规律,只研究状态个数和状态之间的关系,不研究状态的含义。是信息的最基本形式,也是最简单的形式。香农定义的信息就是一种语法信息,即从概率统计的角度来研究事物运动状态及状态变化的关系。
  • 语义信息
    • (semantic information)可以表示出事物状态和运动规律的具体含义和影响,即研究信息的具体含义。语义信息比语法信息更为复杂,更为具体。就是语言中包含的信息,它不仅包括语言自身的信息,还包括知识提供的信息。语义信息是信息的复杂形式。具有一定主观性,具有不统一的度量标准,仍在发展中。
  • 语用信息

    • (pragmatic information)可以表示事物状态和运动规律及其含义对接收者的效用和价值,它研究事物状态和规律与使用者的关系,研究信息的主观价值。比语义信息有更强的主观性和相对性,更为复杂。主要用于语言学、脑科学等研究领域。

      狭义信息

  • 信号

    • 信息的物理表达层,是三个层次中最具体的层次。它是一个物理量,是载荷信息的实体,可测量、可描述、可显示,如电信号、光信号、声信号等
  • 消息
    • 或称为符号,是信息的数学表达层,它虽不是一个物理量,但是可以定量地加以描述,它是具体物理信号的进一步数学抽象,例如文字、数据、代码、图形等。
  • 信息

    • 信息是指各个事物运动的状态及状态变化的方式。人们从来自对周围世界的观察得到的数据中获得信息,信息是信号与消息的更高表达层次。
  • 香农信息论认为信息的多少等于无知度的大小,不确定性的大小,因此,香农信息也称为概率信息。信息是可以传递的,具有不确定性的消息(情报,数据,信号)中所包含的表示事物特性的部分。

概率论公式

【信息论】信息与信源 - 图2

【信息论】信息与信源 - 图3

【信息论】信息与信源 - 图4

基础公式

【信息论】信息与信源 - 图5
【信息论】信息与信源 - 图6

当X与Y相互独立时
【信息论】信息与信源 - 图7
【信息论】信息与信源 - 图8
【信息论】信息与信源 - 图9

【信息论】信息与信源 - 图10
【信息论】信息与信源 - 图11

【信息论】信息与信源 - 图12
【信息论】信息与信源 - 图13
解释:
【信息论】信息与信源 - 图14

全概率公式

【信息论】信息与信源 - 图15
【信息论】信息与信源 - 图16
【信息论】信息与信源 - 图17

贝叶斯公式

【信息论】信息与信源 - 图18

【信息论】信息与信源 - 图19
解释:
【信息论】信息与信源 - 图20

信息量

自信息量

  • 单符号离散信源的数学模型
  • 信源符号不确定性的度量,个值
  • 一个符号不确定度(随机变量单个样本)就是它的自信息量
  • 对于信源空间

image.png

  • 完备空间

image.png

  • 则任意一个信息符号x_i的不确定度为

【信息论】信息与信源 - 图23

  • 称为哈特莱公式
  • 自信息量即为K=1的哈特莱公式

【信息论】信息与信源 - 图24

互信息量

【信息论】信息与信源 - 图25

信息熵

平均自信息(信源熵)

  • 随机变量的平均不确定度
  • 熵函数是随机变量自信息量(不确定度)的数学期望
  • 离散无记忆信源的熵
  • 信源X在没有发出符号以前,接收者对信源的平均不确定度
  • 非负性,对称性,确定性,最大值
  • 离散信源最大熵

【信息论】信息与信源 - 图26

联合熵

  • 联合信源的信源空间

image.png

  • 二元联合信源的输出一个消息符号(xi,yj)所发出的平均信息量称为联合熵,其熵函数的表达式为

【信息论】信息与信源 - 图28

  • 对于三元联合熵,联合熵的链式规则来自于联合概率的链式规则

【信息论】信息与信源 - 图29

条件熵

  • 二元联合信源输出Y(或X)任一状态后, 再输出X(或Y)任一状态所发出的平均信息量称为条件熵
  • 其熵函数的表达式

【信息论】信息与信源 - 图30

平均互信息

【信息论】信息与信源 - 图31
注意:互信息可正可负,但平均互信息一定为正

熵之间的关系

image.png

  • 当XY相互独立,其联合熵等于两个随机变量独立熵之和,而条件熵等于独立熵
  • 这独立熵就是单符号离散无记忆信源的熵

    相对熵

  • 是两个随机分布之间的“熵距离”的度量

  • 相对熵D(p//q)可以用来表示:当真实分布为p,而估计分布为q时的估计无效性(差异)
  • 相对熵函数表示为

【信息论】信息与信源 - 图33

  • 相对熵为两个随机分布的对数似然比的数学期望
  • 也称为Kullback-Leibler距离(KL散度)
  • 相对熵大于等于零,当且仅当p=q时为零
  • 实际意义
  • 如果一个随机变量有两种不同分布

image.png

  • 则一定存在

image.png

  • iff pi=qi时等号成立。这个关系称为Gibbs不等式
  • 由此可知

image.png

  • 即相对熵大于等于零

    信息增益

  • 决策树(Decision Tree)中利用了信息熵的概念,定义了一种所谓的信息增益

  • 简单定义:
    • 特征A(参数)对训练数据集D(变量)的信息增益:定义为集合D的信息熵H(D)与参数A给定条件下D的条件熵H(D/A)之差,即

image.png

  • 信息增益的形式与互信息量I(X;Y)一样,等于一个随机变量的熵与其条件熵之差
  • 信息增益就是一个变量X对于另一个随机变量Y的影响,
  • 信息增益越大,说明X对Y的影响越大(关联性越强)
  • 信息增益越小,表示X对Y的影响越小
  • 决策树为机器学习中的一种分类算法,在计算机的数据挖掘领域被提出,也称为分类树、判断树

    信息是负熵

  • 在香农提出信息熵概念之后,很多学者描述信息是负熵。

    • 其基本含义是:系统状态(符号)的无序性使熵增加,越无序熵就越大
  • 而获得信息的过程是使熵减小的过程,我们定义的互信息量等于先验熵减去后验熵,也是使熵减小的过程

【信息论】信息与信源 - 图38

  • 信息量等于系统熵的减少量
  • 例题

image.png

数据处理定理

引入三元随机变量X,Y,Z

平均条件互信息

【信息论】信息与信源 - 图40

平均联合互信息

【信息论】信息与信源 - 图41

数据处理定理

X,Y,Z构成一个马尔可夫链
【信息论】信息与信源 - 图42
表明从Z得到信源A的信息量永远小于等于从Y得到信源A的信息量

解释:X → Y →Z
如果视Y到Z为对数据的处理过程,无论怎么处理都会损失损失一部分信息量,最多保持原有信息量,间接经验永远没有直接经验实在
即为 信息熵不增原理

信源

基本概念

信源熵表示

  • 从随机变量的熵到随机序列的熵
  • 单符号信源熵
    【信息论】信息与信源 - 图43
  • 多符号信源熵
    【信息论】信息与信源 - 图44

    平均符号熵

    【信息论】信息与信源 - 图45

    熵率

    【信息论】信息与信源 - 图46
    熵率也称极限熵

扩展信源

可以将多符号信源
【信息论】信息与信源 - 图47
中的n个符号视为1个符号,即将信源N次扩展
则随机变量数为【信息论】信息与信源 - 图48(q为每个符号的变量数,N个符号的排列组合)
N次扩展信源表示为
【信息论】信息与信源 - 图49

  • 如果一个N维扩展信源是由一个单符号离散信源扩展而成

image.png

  • 其中的单符号信源的空间为

image.png

  • 这时,N维扩展信源的空间为

image.png

  • 同时有

image.png

  • N维扩展信源熵

image.png

  • 如果N维扩展信源的符号间相互独立

image.png

  • 如果不独立

image.png

注意区分

  • 【信息论】信息与信源 - 图57
  • 【信息论】信息与信源 - 图58

离散平稳无记忆信源(DMS)

  • 各符号间相互独立

    DMS信源熵

    【信息论】信息与信源 - 图59

    DMS熵率

    【信息论】信息与信源 - 图60
    由此可知:离散平稳无记忆多符号信源的熵率,平均符号熵,均始终为单符号信源的信源熵
    离散平稳无记忆信源的N次扩展后的信源熵即为单符号信源的N倍

  • [x] 例题

image.png

离散平稳有记忆信源

各符号间存在统计依赖关系,属于相关信源

信源熵

【信息论】信息与信源 - 图62
可以根据联合熵和条件熵的关系理解(熵的链式法则)
注:其中【信息论】信息与信源 - 图63随着X的增加而逐渐减小
随着处理环节的增多,熵的不确定性越来越小
理解可以参考 [数据处理定理](#x8oX1) (信息熵不增定理)

熵率

【信息论】信息与信源 - 图64
极限必然存在
称为离散平稳有记忆信源的极限熵
存在大小关系:
【信息论】信息与信源 - 图65
等号仅在无记忆信源时成

  • 例题

image.pngimage.png
image.pngimage.png
image.pngimage.png

  • 扩展信源的熵实际上就是一个联合熵。根据熵函数的性质,条件熵小于等于独立熵,可以得到结论:有记忆扩展信源的熵小于等于两个独立信源熵之和

image.png

  • 对于N维扩展信源,有记忆N维扩展信源熵小于等于无记忆N维扩展信源的熵

image.png
image.png

马尔可夫信源

状态转移概率

将符号或符号的组合视为一个状态,下一个符号出现的概率只与当前的状态有关而与该状态之前的历史符号无关
将符号的条件概率问题变成状态转移概率
一阶马尔可夫信源的状态转移概率即为信源输出符号的条件概率

状态的转移可以从状态机的状态切换上理解,当以某种概率产生了一个新符号时,即以该概率实现了一次状态转移

如N阶马尔可夫链
【信息论】信息与信源 - 图75

由状态转移概率组成转移概率矩阵【信息论】信息与信源 - 图76
时刻【信息论】信息与信源 - 图77【信息论】信息与信源 - 图78的状态为【信息论】信息与信源 - 图79的条件下,经过【信息论】信息与信源 - 图80步转移到达状态【信息论】信息与信源 - 图81的概率
【信息论】信息与信源 - 图82
【信息论】信息与信源 - 图83步转移矩阵

齐次马尔可夫链

当状态转移概率只与状态【信息论】信息与信源 - 图84及时间间距有关,而与时间起点无关

【信息论】信息与信源 - 图85
时,称为时齐马尔可夫链或齐次马尔可夫链,也称为具有 平稳转移概率的马尔可夫链 。
注意,这里还 不能称为平稳过程
对于齐次马尔可夫链,一步转移完全决定了【信息论】信息与信源 - 图86步转移概率
【信息论】信息与信源 - 图87
因此在求某时刻的状态概率分布【信息论】信息与信源 - 图88
【信息论】信息与信源 - 图89表示初始概率

【信息论】信息与信源 - 图90

稳定马尔可夫链

绝对概率

【信息论】信息与信源 - 图91极限存在,且与初始初始状态无关,则将【信息论】信息与信源 - 图92称为平稳分布的【信息论】信息与信源 - 图93
此时满足
【信息论】信息与信源 - 图94
此时马尔可夫链达到了稳定的分布,稳定分布只与转移概率有关,而与初始分布无关。

遍历性(各态历经性)

满足
【信息论】信息与信源 - 图95
此时分布【信息论】信息与信源 - 图96称为极限分布或平稳分布
这时信源才是一个离散平稳信源

稳态分布的判断和求解

马尔可夫链稳态分布存在的充要条件是,存在一个正整数【信息论】信息与信源 - 图97,使矩阵【信息论】信息与信源 - 图98中的所有元素均大于零
求解时满足
【信息论】信息与信源 - 图99
【信息论】信息与信源 - 图100作为未知数带入方程求解

平稳概率分布

【信息论】信息与信源 - 图101

符号的平稳概率分布【信息论】信息与信源 - 图102与状态的平稳概率分布【信息论】信息与信源 - 图103区分
不考虑符号的相关性,则由符号的平稳概率分布可得信源熵【信息论】信息与信源 - 图104
考虑符号的相关性,信源的熵率【信息论】信息与信源 - 图105如下

马尔可夫信源熵

【信息论】信息与信源 - 图106

推导顺序

  • 已知 符号条件概率 【信息论】信息与信源 - 图107
    • 即知道在各种状态下产生下一个符号的概率
  • 可枚举推出 状态转移概率 【信息论】信息与信源 - 图108
    • 即知道由一个状态切换到另一个状态的概率
  • 可通过【信息论】信息与信源 - 图109得知 稳态分布概率 【信息论】信息与信源 - 图110
    • 即达到稳定分布后各个状态的概率
  • 再用【信息论】信息与信源 - 图111得知 稳态符号概率 【信息论】信息与信源 - 图112
    • 即达到稳定分布后各个符号的概率
  • 如果不考虑符号相关性,由【信息论】信息与信源 - 图113即可得知符号熵
    • 【信息论】信息与信源 - 图114
  • 如果考虑符号的相关性,即求信源的熵率【信息论】信息与信源 - 图115
    • 【信息论】信息与信源 - 图116
    • 即为信源的稳态分布概率乘上条件熵
    • 【信息论】信息与信源 - 图117
  • 例题

image.pngimage.pngimage.pngimage.png

信源的相关度和相对度

  • 香农信息论讨论信源熵只是真实信源的一种模型化和简化
  • 实际信源往往是非平稳的有记忆随机序列信源,其极限熵的计算太复杂,解决的方法是假设其为离散平稳随机序列信源,极限熵求解也比较难
  • 进一步假设其为m阶马尔柯夫信源,用其极限熵Hm+1近似
  • 或者假设为N维扩展信源,其熵为

【信息论】信息与信源 - 图122

  • 最简化的信源是离散无记忆信源,其熵为

【信息论】信息与信源 - 图123

  • 最后,先验等概的离散无记忆信源,其熵所谓最大熵为

【信息论】信息与信源 - 图124

  • 存在大小关系

【信息论】信息与信源 - 图125

  • 符号间相关性越大,熵越小。离散有记忆信源的记忆长度越长,信源熵越小,而独立且等概的信源具有最大熵

【信息论】信息与信源 - 图126

熵的相对率

【信息论】信息与信源 - 图127

信源的剩余度

【信息论】信息与信源 - 图128

冗余度

表示信源在实在发出信息时所包含的多于信息

  • 信源符号间的相关性
    • 相关程度越大,信源的实际熵越小
  • 信源符号分布的不均匀性
    • 等概率分布时信源熵最大

掌握【信息论】信息与信源 - 图129即掌握了信源的全部规律,但不现实,掌握有限【信息论】信息与信源 - 图130,与理论极限值相差,即可得知信源的冗余度

连续信源

  • 信源的 消息符号在时间上和状态取值上都是连续的
  • 时间离散状态连续的信源熵可以用连续信源熵表示,相当 于一个连续随机变量
  • 而时间连续的信源,为一个随机过程,只要信号频谱有限 ,则可以根据采样定理,将其变为时间离散信源
  • 如果一个信道的输入输出都是连续随机变量或随机过程, 则称这个信道为连续信道
  • 从随机变量的角度看,连续熵就是连续随机变量的熵,也称 为微分熵(differential entropy)

  • 连续信源的样本个数是无限个,样本概率用概率密度来表示。如果连续随 机变量X,如果样本取值为实数域R,其概率密度函数为p(x),则有

【信息论】信息与信源 - 图131

  • 如果样本取值为一个有限实数域[a, b],则有

【信息论】信息与信源 - 图132

  • 这时,连续随机变量X在某一状态x1的概率分布函数为:

【信息论】信息与信源 - 图133

  • 这个连续信源的数学模型可以表示为

image.png

  • 连续变量可以看作离散变量的极限情况,因此,可以利用离散信源熵的概 念来定义连续信源熵,首先,看一个在[a, b]区间取值的连续随机变量X

image.png

  • 根据离散随机变量熵的定义,可得这个等效离散随机变量Xn的熵

image.png

  • 当n趋于无穷时,就得到连续随机变量的熵:

image.png

对比

  • 离散信源熵

【信息论】信息与信源 - 图138

  • 连续信源熵(绝对熵)

【信息论】信息与信源 - 图139

  • 第一项为定值,第二项为无穷大量,连续信源的熵实际上是无穷大量,连续信源可能取值是无限多的,不确定性也是无限大的
  • 严格地讲,连续随机信号熵不等于一个消息状态的平均信息量,其熵 是有限的,而信息量是无限的
  • 连续信号熵不具有非负性,熵可以为负值

image.png

  • 例题

image.pngimage.png

微分熵

连续信源绝对熵的第一项即为微分熵,也称为差熵
【信息论】信息与信源 - 图143
具有非负性

  • 联合熵

【信息论】信息与信源 - 图144

  • 条件熵

【信息论】信息与信源 - 图145

【信息论】信息与信源 - 图146
与离散变量一样的相互关系
【信息论】信息与信源 - 图147
注:连续信源的熵为无穷大,但是微分熵是有限值
正态分布的连续信源的微分熵与数学期望无关,只与方差有关

几种连续信源的熵

  • 均匀分布的连续信源熵(Uniform distribution)
  • 设一维连续随机变量X 的取值区间是[a, b],X 在[a, b]中的概率密度函数是

image.png

  • 这种连续信源称为均匀分布的连续信源,其熵为

image.png

  • 这时可以看到,当(b-a)<1时,H(X)<0,即连续信源熵H(X)不具有熵函数的非负性,因为H(X)是相对熵 ,相对熵可以为负值,但绝对熵仍然为正值。

  • 高斯分布的连续信源熵(Normal distribution)

  • 设一维随机变量X的取值范围是整个实数R,概率密度函数为

image.png

  • 其均值和方差为

image.png

  • 这时,可以得到0均值的高斯分布的连续信源(m=0)的熵为:

image.png

  • 当均值为0时,高斯分布的信源熵为

image.png

  • 指数分布的连续信源熵
  • 设一随机变量X 的取值取间为[0,∞],其概率密度函数为

image.png

  • 则称为指数分布的连续信源。其中常数a 为随机变量X 的均值。即

image.png

  • 指数分布的连续信源的熵为

image.png

  • 其中利用积分关系

image.png

连续信源的最大熵

  • 利用数学方法(拉格朗日乘数法)可以求出连续信源的最大熵问题
  • 即针 对一定约束条件,确定信源为如何分布能使连续信源获得最大熵
  • 连续信源的熵为

image.png

  • 其基本约束条件为

image.png

  • 其它约束条件

image.png

  • 建立辅助函数

image.png

  • 求这个辅助函数关于信源概率密度函数的微分,根据极值的条件有:

image.png

  • 如果考虑m个约束方程,能够求得概率密度函数的解,
  • 就可以确定这个连 续信源的最大熵和所对应的信源概率密度分布p(x)

  • 得出结论

    • 幅度受约束的连续随机信号均匀分布熵最大
      • 概率分布为

image.png

  1. - 熵为

image.png

  • 功率受约束的连续随机信号高斯分布熵最大
    • 平均功率【信息论】信息与信源 - 图165
    • 概率分布为

【信息论】信息与信源 - 图166

  1. - 熵为

【信息论】信息与信源 - 图167

  • 为什么高斯分布熵最大

    • 连续随机变量的最大熵与不同的约束条件相 关联,不同的约束条件有不同的最大熵
    • 从实际应用角度讲,平均功率受限更具有广泛的意义, 更具有一般性和可比较性
    • 因此说,高斯分布(正态分布)的连续随机变量是最典 型的最大熵连续信号

      N维连续随机变量的情况

  • 讨论点对点连续有噪声信道,在这个点对 点的信道模型中,有三个连续随机变量x(t),n(t),y(t)

  • 如果N维连续随机变量(连续随机向量)X=(X1 ,X2 ,…XN )的每一维都是高斯 分布的,则称为N维连续随机变量(N维高斯信源)
  • 每个分量可以表示为:

image.png

  • 根据概率论,各分量的协方差(联合二阶矩)为:

image.png

  • 协方差矩阵

image.png

  • 协方差矩阵的行列式为

image.png

  • 当i=j时,也就是对角线上为随机变量Xi的方差
  • 每个元素的代数余因式为: 【信息论】信息与信源 - 图172
  • 则,N维连续随机变量的概率密度函数为:

image.png

  • N维连续随机变量的熵为:

image.png

  • 如果N维高斯分布的连续随机变量的是独立同分布的,即

image.png

  • 并且有

image.png

  • 这时,称其为N维无记忆高斯信源,其熵为

image.png

  • 可以看到,对于N维高斯随机序列信源可以得到与N维离散序列信源相类似的结果,即无记 忆随机序列信源的熵等于各随机变量熵之和

连续信源的熵功率

  • 研究均值为0,平均功率受限的连续信源
  • 均值为零,平均功率限定为P的连续信源当服从高斯分布时达到最大熵
  • 即有

【信息论】信息与信源 - 图178
【信息论】信息与信源 - 图179

【信息论】信息与信源 - 图180

  • 若平均功率一样,高斯信源的信源熵最大
  • 若信源熵一样,高斯信源的平均功率最小

  • 定义熵功率为:一连续信源,将它视作高斯信源时的平均功率为它的熵功率【信息论】信息与信源 - 图181,而它的实际功率为【信息论】信息与信源 - 图182【信息论】信息与信源 - 图183

  • 满足【信息论】信息与信源 - 图184
  • 即把该信源假设为高斯信源后的功率为该信源的熵功率,一定小于它的实际功率
  • 熵功率则用来描述连续信源熵的剩余度,即一个连续信源可以改善的等度

两者的差值即为连续信源的剩余度( 从功率角度理解剩余度 )