◇◇新语丝(www.xys.org)(xys2.dxiong.com)(www.xysforum.org)(xys-reader.org)◇◇

  雨天带伞问题解释

  晓舟

  约客在《有关“预报的准确率”的问题》中,正确地指出了《你的预测有多
准?》一文中对于准确率定义出现了混淆之处,但是随后,他又给出了“第一种
准确率”、“第二种准确率”的概念,其实,学者们在讨论一个预测方法的性能
时,已经给出了很多正式的这率、那率的定义,啥率就是啥率,下面尝试给大家
解释一下。

  就以天气预报为例吧,让一个预报方法预报第二天是否有雨,然后看第二天
是否有雨,让该预报方法进行N次预报,得到下面的统计表:

  实际有雨   实际没雨
  预报有雨        A         B
  预报没雨        C         D
  下面是一些率的定义:
  1、召回率: Recall=A/(A+C)*100%
  2、正确率: Precision=A/(A+B)*100%
  3、精确率: Accuracy=(A+D)/N*100%
  4、虚报率: Fallout=B/(B+D)*100%
  5、错误率: Error=(B+C)/N*100%, Error=1-Accuracy
  6、漏报率: Miss=C/(A+C), Miss=1-Recall

  可能由于翻译原因,对于某些率有不同的翻译。

  “在确实下雨的情况下,给定预报的准确率为80%,则预报有雨的次数为8
次”,约客称之为“第二种准确率”,其实就是A/(A+C),召回率(Recall)。

  “共有26次预报有雨,可实际上只有8次是准确预报的,准确率仅为30%”,
约客称之为“第一种准确率”,其实就是A/(A+B),正确率(Precision)。 

  在Robert Matthews的原文中,其实是想说明这样一个问题,天气预报的召
回率为80%,虚报率为1-80%,结合实际下雨的概率,则正确率可能为30%。但原
文中并没有给出这率那率的严格定义,使用上出现了混淆,因此使人看得一头雾
水。

  山人在“雨天带伞问题:那位懂概率论的高人帮忙给解释一下?”(是哪位
而非那位:)),对yimin翻译的文章“你的预测有多准?”(下称“预测”文)
提出了自己的疑惑。文章开始他指出:

  “这个问题的基础条件是:英国小时降雨的基础概率是0.1,日降雨的基础
概率是0.4,预报的准确率在80%左右。”

  首先这个基础条件就出现了错误,小时降雨的概率是0.1,则小时不降雨的
概率是0.9,从而连续24小时也就一天不降雨的概率为0.9的24次方,约等于0.08,
因此一天降雨的概率为0.92,而不是0.4。这个在“预测”文中,也出现了前后
不一致的地方。

  但是,即便将修改后的数据代入,计算出来的结果还是不对,文章这样指出:

  “根据预报准确率,10个预报下雨的日子里,实际有8天下雨。8天中小时有
雨基础概率为0.25。
  所以在预报有雨的日子里,外出购物一小时遇雨的概率为0.8×0.25=0.20。
但是文章作者的结果是30%即0.30。”

  这个计算的问题在于,前面提到的预报的准确率为80%,要么是指小时预测
的准确率,要么是指日预报准确率,两者的基础事件不同,并非同一概念,不能
混淆使用。在“预测”文中对于此也是出现了混淆。

(XYS20080727)

◇◇新语丝(www.xys.org)(xys2.dxiong.com)(www.xysforum.org)(xys-reader.org)◇◇