◇◇新语丝(www.xys.org)(xys2.dxiong.com)(www.xysforum.org)(xys-reader.org)◇◇ 雨天带伞问题解释 晓舟 约客在《有关“预报的准确率”的问题》中,正确地指出了《你的预测有多 准?》一文中对于准确率定义出现了混淆之处,但是随后,他又给出了“第一种 准确率”、“第二种准确率”的概念,其实,学者们在讨论一个预测方法的性能 时,已经给出了很多正式的这率、那率的定义,啥率就是啥率,下面尝试给大家 解释一下。 就以天气预报为例吧,让一个预报方法预报第二天是否有雨,然后看第二天 是否有雨,让该预报方法进行N次预报,得到下面的统计表: 实际有雨 实际没雨 预报有雨 A B 预报没雨 C D 下面是一些率的定义: 1、召回率: Recall=A/(A+C)*100% 2、正确率: Precision=A/(A+B)*100% 3、精确率: Accuracy=(A+D)/N*100% 4、虚报率: Fallout=B/(B+D)*100% 5、错误率: Error=(B+C)/N*100%, Error=1-Accuracy 6、漏报率: Miss=C/(A+C), Miss=1-Recall 可能由于翻译原因,对于某些率有不同的翻译。 “在确实下雨的情况下,给定预报的准确率为80%,则预报有雨的次数为8 次”,约客称之为“第二种准确率”,其实就是A/(A+C),召回率(Recall)。 “共有26次预报有雨,可实际上只有8次是准确预报的,准确率仅为30%”, 约客称之为“第一种准确率”,其实就是A/(A+B),正确率(Precision)。 在Robert Matthews的原文中,其实是想说明这样一个问题,天气预报的召 回率为80%,虚报率为1-80%,结合实际下雨的概率,则正确率可能为30%。但原 文中并没有给出这率那率的严格定义,使用上出现了混淆,因此使人看得一头雾 水。 山人在“雨天带伞问题:那位懂概率论的高人帮忙给解释一下?”(是哪位 而非那位:)),对yimin翻译的文章“你的预测有多准?”(下称“预测”文) 提出了自己的疑惑。文章开始他指出: “这个问题的基础条件是:英国小时降雨的基础概率是0.1,日降雨的基础 概率是0.4,预报的准确率在80%左右。” 首先这个基础条件就出现了错误,小时降雨的概率是0.1,则小时不降雨的 概率是0.9,从而连续24小时也就一天不降雨的概率为0.9的24次方,约等于0.08, 因此一天降雨的概率为0.92,而不是0.4。这个在“预测”文中,也出现了前后 不一致的地方。 但是,即便将修改后的数据代入,计算出来的结果还是不对,文章这样指出: “根据预报准确率,10个预报下雨的日子里,实际有8天下雨。8天中小时有 雨基础概率为0.25。 所以在预报有雨的日子里,外出购物一小时遇雨的概率为0.8×0.25=0.20。 但是文章作者的结果是30%即0.30。” 这个计算的问题在于,前面提到的预报的准确率为80%,要么是指小时预测 的准确率,要么是指日预报准确率,两者的基础事件不同,并非同一概念,不能 混淆使用。在“预测”文中对于此也是出现了混淆。 (XYS20080727) ◇◇新语丝(www.xys.org)(xys2.dxiong.com)(www.xysforum.org)(xys-reader.org)◇◇