[吃瓜笔记]第7章

第7章 贝叶斯分类器

这一章主要讲了如何从概率论的视角去理解机器学习,以及贝叶斯分类器的原理。

贝叶斯决策论

需要了解的几个定义:


(资料图片仅供参考)

后验概率:在已经发生某些事件或条件下,另一个事件发生的概率。

条件风险:其实就是期望损失。

贝叶斯分类器的判定准则:最小化总体风险,也就是最大化后验概率。

这个就为解读之前学过的线性回归和对数几率回归提供了一个新的视角,它们的损失其实也是在最小化总体风险,逼近真实函数。

朴素贝叶斯分类器

虽然想法很好,但是在实际问题中,类条件概率很难求解呀,因为属性和样本数多了就容易出现计算爆炸的问题。

所以就有了朴素贝叶斯分类器。朴素的意思是:假设所有的属性都是独立的,不互相依赖的。

那这样,类条件概率就好求了。对离散属性,统计样本中某一属性的在某一类别中的占比作为类条件概率。对于连续属性,考虑概率密度函数,可以假设属性服从概率分布。(遇事不决,正态分布,来自/video/BV1Mh411e7VU?p=11)

为避免出现某个属性的条件概率为零而把所有的属性抹去的情况,可以用拉普拉斯修正来进行平滑。简单来说,就是把分子分母都加上一个合理的数,让这个属性的条件概率不为零。

半朴素贝叶斯分类器

朴素贝叶斯分类器的条件太苛刻了,自然条件下很难实现。于是,就出现了它的进化版。既然完全独立不好,那我加一些互相依赖的属性~常见的半朴素贝叶斯分类器策略有“独依赖估计”(只有一个依赖属性)、“超父依赖估计”(选一个属性作为其他所有属性的依赖属性,super-parent)、“平均依赖估计”(选几个超父依赖估计的分类器作为集成学习的单位分类器)等。

到14章再学~

标签:

x 广告
x 广告

Copyright ©  2015-2022 海峡城市网版权所有  备案号:皖ICP备2022009963号-10   联系邮箱:396 029 142 @qq.com