一、为什么要估计概率密度函数

  1. 由前两章学到的贝叶斯决策,其决策函数用到先验概率pwi)和类条件概率密度px|wi),先验概率根据大量样本就能统计得到,类条件概率密度可以通过训练样本进行估计。<br />在监督学习中,训练样本类别已知,我们可以在一类样本中估计该类样本的类条件概率密度。当着眼于一个样本wi的时候,px|wi)->px)。<br />估计方法:参数估计和非参数估计

二、参数估计

概率密度函数的形式已知,例如高斯型、均匀分布型等,但是里面具体的参数是不知道的,我们利用该类别里的样本对参数进行估计。样本通过什么样的计算方法可以得到这些参数呢?最大似然估计和贝叶斯估计
参数估计的常用名词(基本概念词):
(1)、统计量:对样本集通过某种函数进行信息提取,例如提出样本的身高、体重…,这些提取出来的信息就是统计量
(2)、参数空间:位置参数θ的集合
(3)、点估计与区间估计:对θ估计出具体的估计值^θ。区间估计就是区间(d1,d2)作为θ可能取值范围,称为置信区间,通常配合置信概率进行定义
最大似然估计和贝叶斯估计都是求出未知参数的具体值,所以是点估计。
估计好坏的评价标准:
(1)、无偏性:样本的数学期望与参数的数学期望相同,或者当样本数量无限时相同;
(2)、有效性:方差更小的估计
(3)、每一次估计都依概率接近与真实值

三、非参数估计

概率密度函数的形式未知。例如,统计学里的典型分布不满足样本分布、多峰分布、事先没法判断数据分布情况
常用方法:直方图法、KN近邻法、Parzen窗法