关于贝叶斯二择一形式公式的几点说明:
1.普通的贝叶斯公式:
2.二择一形式:
其中A^C为A的补集,也可以这样理解成(1-A),结合以上1,2两个式子,我们可以得到下面这个式子3
3. 二分类中的式子:
但是上面这个式子明显是在两个条件的一个贝叶斯概率计算情况,但是在一般情况下,都不是两个,这个可以扩展到N个条件下,预测贝叶斯概率事件,推倒一般公式,我们可以先从三个条件的开始.:
4 推倒过程:
P(C|AB)=P(AB|C)*P(C)/P(AB) (4.1)
P(AB|C) = P(A|C)*P(B|C) (4.2)
P(AB) = P(A)*P(B) (4.3)
从上面4.1,4.2,4.3三个式子中,我们就可以将一个三个条件的降为多个两个条件的贝叶斯概率事件了.
P(C|AB) = {P(C)P(A|C)*P(B|C)}/{P(A)P(B)}
,我们在将其写成一般式子
P(C|EAi) = {P(C)P(EAi|C)}/{P(EAi)},然后我们将这个式子代入到我们的计算中,就可以用来简单的预测短信是否是垃圾信息啦~
5. 关于数据集合,从这个地址地方下载的http://archive.ics.uci.edu/ml/
6. 结果展示:
Rofl. Its true to its name>>>>>>|| result( prob spam ): --> 0.15844183241
Free Msg: Ringtone!From: http://tms. widelive.com/index. wml?id=1b6a5ecef91ff937819&first=true18:0430-JUL-05>>>>>>|| result( prob spam ): --> 1.0
龚细军>>>>>>|| result( prob spam ): --> 0.5
speak haha>>>>>>|| result( prob spam ): --> 0.00302526687657
helo,there is a ads>>>>>>|| result( prob spam ): --> 0.997563452806
-
Notifications
You must be signed in to change notification settings - Fork 7
gongxijun/smsTrash
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
About
通过机器学习,贝叶斯二之一形式,对短信进行垃圾消息过滤.
Resources
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published