点击上方,选择星标或置顶,每天给你送干货!
阅读大概需要10分钟
跟随小博主,每天进步一丢丢
转载自:AI小白入门
本文介绍了朴素贝叶斯模型,朴素贝叶斯(几乎所有的概率模型)的核心假设:特征之间的条件概率相互独立。以垃圾邮件分类问题为例,分析了朴素贝叶斯模型的两种应用场景:1)先验分布和条件概率分布都为一元伯努利分布,2)先验分布为一元伯努利分布,条件概率分布为多元伯努利分布。分别对应词袋子表示中两种常用的方法: one-hot表示,编号表示(词频表示)。
作者 | 文杰
编辑 | yuquanle
朴素贝叶斯
A、朴素贝叶斯
朴素贝叶斯模型也是一个典型的生成模型,一般用来处理离散值数据(伯努利分布导致)。其核心假设是特征之间的条件概率是相互独立的。同样由贝叶斯公式有:
下面以垃圾邮件分类介绍两类问题的朴素贝叶斯模型:
垃圾邮件分类任务是一个基本文本分类任务,涉及到NLP的初步知识-文本的One-hot表示。由于机器学习模型通常是一个数学模型,而非数值型属性是不能直接处理,所以一般对邮件的特征进行编码。首先将所有的邮件中出现的词统计出来作为一个词典,并对每一个词进行编码向量化(即词序)。一封邮件对应的One-hot表示如下:
其中 表示第 封邮件, , 表示词典中的第 个词,如果第 个词在第 封邮件中出现则 ,反之为 。可以看出这种表示忽略了文本的大量信息,上下文信息,词出现的次数等。
由上面的公式有,一封邮件是垃圾邮件的概率可以表示为下式:
其中似然函数 为在垃圾邮件下产生 的条件概率, 为垃圾邮件的先验概率, 对于所有样本都是一致,近似忽略。
由朴素贝叶斯的条件概率独立性假设有条件概率如下:
其中 表示第 个特征。所以,对于一封邮件属于哪一类的概率为都有:
邮件之间独立,所以目标函数最大化所有邮件属于各自类的概率为:
从上式可以看出朴素贝叶斯的参数是 ,即所有邮件类别的先验,以及在某一类下出现某个词的概率。由极大似然估计参数值即为其期望。
其中 表示类别,对应垃圾邮件分类取值为 表示第 个特征, 表示特征的取值。由于垃圾邮件中采用one-hot编码,所以 的取值为 , 表示出现。当以上参数确定之后,对于一封新的邮件,根据估计的参数和贝叶斯公式求得样本属于哪一类的概率。最后一封邮件属于哪一类的概率参数表示如下:
one-hot编码比较特殊: