贝叶斯和朴素贝叶斯
英国数学家。1702年生于伦敦,贝叶斯主要研究数学中的概率论,在统计决策函数、统计推断和统计估计方面做出了贡献。他的统计概率理论被称为贝叶斯托马斯·贝叶斯。在贝叶斯写这篇文章之前,人们已经可以计算出“正概率”,比如“假设袋子里有N个白球和M个黑球,如果你把手伸进去摸,找到黑球的概率是M/(M+N)”。而一个很自然的问题则反过来:“如果我们事先不知道袋子里黑白球的比例,而是闭着眼睛摸出一个(或几个)球,观察这些球的颜色,那么我们就可以对袋子里黑白球的比例做出一些猜测。”这个问题就是所谓的逆概率问题。贝叶斯就是为了解决这种逆概率而生的。
P(An|B) = p(An) p(B|An)/p(B)
公式应用:
已知* * *有100封邮件,其中正常邮件70封,垃圾邮件30封。‘兼职’这个词在普通邮件中出现10次,在垃圾邮件中出现20次。
需要解决:包含‘兼职’字样的邮件是垃圾邮件的概率有多大?
p(垃圾|兼职)=p(垃圾)p(兼职|垃圾)/p(兼职)
p(垃圾邮件)= 30/(70+30)=0.3
p(兼职)= (10+20)/100=0.3
p(兼职|垃圾邮件)= 20/30
p(垃圾|兼职)=0.3*0.67/0.3=0.67
朴素贝叶斯是一种简单但极其强大的预测建模算法,所以称之为朴素贝叶斯是因为他假设的每一个特征都是独立的。
比如:
简化为: