在异空间接收到神秘消息(2/2)
(2)波长
(3)比特数
那么接下来就要从已知真假的数据中对含有这些特征的数据进行一些统计分析,分析的基础是贝叶斯公式,就是一个概率公式(该公式是对条件概率的一个)。简单说已知一个事件a,和另一个事件b,那想知道事件a发生的条件下事件b发生的概率——记为p(b|a)——就等于(p(b)*p(a|b))/p(a):
换成我们现在面临的信息问题就是,要求在知道一堆信息特征(上文提到的波长、频段、比特数)的条件下信息为真或者为假的概率,这个贝叶斯公式就变成了p(信息为真|特征<波长、频段、比特数>) = p(特征<波长、频段、比特数>|信息为真)p(信息为真) / p(特征<波长、频段、比特数>):
那接下来就需要知道这几个概率的值:
<1> p(特征<波长、频段、比特数>|信息为真)
<2> p(信息为真)
<3> p(特征<波长、频段、比特数>)
其实这几个值比较好计算,就是从我们已知的样本中统计一下做一个估算,比如上述<1> 就是信息为真的情况下某组特征组合的个数、<2>就是所有信息为真的信息样本个数、<3>就是所有具有该特征组合(比如波长=2、频段=3、比特数=19)的个数。
就这样成功判断出来:脱离尾舱是垃圾信息,因为信息会神奇的通过k30的实际执行情况决定下一步的信息,因为“脱离尾舱”未被执行,所以又一次发送了上次的信息,这次信息是在辐射波谷发射而来的,信息是“关闭尾舱涡轮,启动内旋模式”这就说得通了...
02—掉书袋
【1】 上述情节是对朴素贝叶斯分类算法的一个通俗演义。
【2】 贝叶斯分类是以贝叶斯定理(概率计算公式)为基础,该定理容易理解但是非常实用,而且代码实现时占用空间小。
【3】 贝叶斯公式成立的前提条件是各个特征之间相互独立(相互不影响,不会相互牵扯),这也是朴素贝叶斯名字的由来。
【4】理论上,朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为朴素贝叶斯模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果不好
【5】实践过程中, 朴素贝叶斯分类也常用对垃圾邮件、游戏账号等进行分类。
03—参考文献
1. 关键字:《统计学习方法》、李航
2. 关键字:《机器学习》、西瓜书、周志华
3. 关键字:coursera、朴素贝叶斯