贝叶斯概率






贝叶斯概率英语:Bayesian probability)是由贝叶斯理论所提供的一种对概率的解释,它采用将概率定义为某人对一个命题信任的程度的概念。贝叶斯理论同时也建议贝叶斯定理可以用作根据新的信息导出或者更新现有的置信度的规则。




目录





  • 1 贝叶斯概率的历史


  • 2 贝叶斯概率的变种


  • 3 贝叶斯概率和频率概率


  • 4 贝叶斯概率的应用


  • 5 概率之概率


  • 6 争议


  • 7 参看


  • 8 外部連結及參考




贝叶斯概率的历史


贝叶斯理论和贝叶斯概率以托马斯·贝叶斯(1702-1761)命名,他证明了现在称为贝叶斯定理的一个特例。术语贝叶斯却是在1950年左右开始使用,很难说贝叶斯本人是否会支持这个以他命名的概率非常广义的解释。拉普拉斯证明了贝叶斯定理的一个更普遍的版本,并将之用于解决天体力学、医学统计中的问题,在有些情况下,甚至用于法理学。但是拉普拉斯并不认为该定理对于概率论很重要。他还是坚持使用了概率的经典解释。


弗兰克·普伦普顿·拉姆齐在《数学基础》(1931年)中首次建议将主观置信度作为概率的一种解释。Ramsey视这种解释为概率的频率解释的一个补充,而频率解释在当时更为广泛接受。统计学家Bruno de Finetti于1937年采纳了Ramsey的观点,将之作为概率的频率解释的一种可能的代替。L. J. Savage在《统计学基础》(1954年)中拓展了这个思想。


有人试图将“置信度”的直观概念进行形式化的定义和应用。最普通的应用是基于打赌:置信度反映在行为主体愿意在命题上下注的意愿上。


当信任有程度的时候,概率计算的定理测量信任的理性程度,就像一阶逻辑的定理测量信任的理性程度一样。很多人将置信度视为经典的真值(真或假)的一种扩展。


Harold Jeffreys, Richard T. Cox, Edwin Jaynes和I. J. Good研探了贝叶斯理论。其他著名贝叶斯理论的支持者包括John Maynard Keynes和B.O. Koopman。



贝叶斯概率的变种


术语主观概率, 个人概率, 认知概率逻辑概率描述了通常成为贝叶斯学派的思想中的一些。这些概念互相重叠,但有不同的侧重。这里提到的一些人物不会自称是贝叶斯学派的。


贝叶斯概率应该测量某一个体对于一个不确定命题的置信程度,因此在这个意义下是主观的。有些自称贝叶斯学派的人并不接受这种主观性。客观主义学派的主要代表是Edwin Thompson Jaynes和Harold Jeffreys。也许现在还在世的主要客观贝叶斯学派人物是杜克大学的James Berger。Jose Bernardo和其他一些人接受一定程度的主观性,但相信在很多实际情况中有使用"先验参照(reference priors)"的需要。


逻辑(或者说,客观认知)概率的推崇者,例如Harold Jeffreys, Rudolf Carnap, Richard Threlkeld Cox和Edwin Jaynes, 希望将能够在两个有相同关于某个不确定命题的真实性相关的信息的人计算出同样的概率的技术规律化。这种概率不和个人相关,而只和认知情况相关,因此位于主观和客观之间。但是,他们推荐的方法有争议。批评者对这个声称发起挑战,在关于相关事实的信息缺乏的时候,更偏好某一个置信度是有现实依据的。另一个问题是迄今为止的技术对于处理实际问题还是不够的。



贝叶斯概率和频率概率


贝叶斯概率和统计概率相对,它从确定的分布中观测到的频率或者在样本空间中的比例来导出概率。


頻率学派和貝葉斯学派對於“在應用中,某個隨機事件的概率該如何被賦值?”這個問題有著不同的看法:頻率主義者根據隨機事件發生的頻率,或者總體樣本裡面的發生的個數來賦值概率;貝葉斯主義者則根據未知的命題來賦值概率。這樣的理念導致貝葉斯主義者有更多的機會使用貝葉斯定理。


采用统计概率的统计和概率的理论由R.A. Fisher, Egon Pearson和Jerzy Neyman在20世纪上半叶发展起来。A. N. Kolmogorov也采用频率概率来通过勒贝格积分为测度论中的概率奠定数学基础(《概率论基础》(1933年))。Savage, Koopman, Abraham Wald和其他一些学者自1950年以来发展了贝叶斯概率。


贝叶斯学派和频率学派在概率解释上的分歧在统计学实践上有重要的结果。例如,在用同样的数据比较两个假设的时候,假设测试理论基于概率的频率解释,它允许基于错误推出数据更支持另外那个模型/假设的概率来否定或接受一个模型/假设(零假设)。出现这种错误的概率称为一类误差,它要求考虑从同样的数据源导出的假想的数据集合要比实际观测到的数据更为极端。这个方法允许论断'或者两个假设不同或者观测到的数据是误导性的集合'。相对应的是,贝叶斯方法基于实际观测到的数据,因此能够对于任何数量的假设直接赋予后验概率。对于代表每个假设的模型的参数必须赋予概率的要求是这种直接方法的代价。



贝叶斯概率的应用


自1950年代以来,贝叶斯理论和贝叶斯概率通过考克斯定理, Jaynes的最大熵原理以及荷兰书论证得到了广泛的应用。在很多应用中,贝叶斯方法更为普适,也似乎较频率概率能得出更好的结果。贝叶斯因子也和奥卡姆剃刀一起使用。数学应用请参看贝叶斯推论和贝叶斯定理。


有些人将贝叶斯推论视为科学方法的一种应用,因为通过贝叶斯推论来更新概率要求从对于不同假设的初始信任度出发,采集新的信息(例如通过做试验),然后根据新的信息调整原有的信念。调整原有的信念可以意味着(更加接近)接受或者推翻初始的假设。


贝叶斯技术最近被应用于垃圾邮件的过滤上。贝叶斯垃圾邮件过滤器采用电子邮件的一个参考集合来定义什么最初被认为是垃圾邮件。定义了参考之后,过滤器使用参考中的特点来将新的邮件判定为垃圾邮件或有效邮件。新电子邮件作为新的信息出现,并且如果用户在垃圾邮件和有效邮件的判定中发现错误,这个新的信息会更新初始参考集合中的信息,以期将来的判定可以更为精确。参看贝叶斯推断和贝叶斯过滤。



概率之概率


对于贝叶斯概率解释曾有过的一个批评是一个单独的概率赋值不能给出信念的真实性——也即,它有多少科学实证。考虑如下的这些情况:


  1. 你有一个装了白球和黑球的盒子,但是不知道它们的数量

  2. 你有一个盒子,你从中取了n个球,一半黑,一半白

  3. 你有一个盒子,你知道有同样数量的黑球和白球

下一个取出的球是黑球的贝叶斯概率对于所有三种情况都是0.5。Keynes称这为“证据的权重”问题。一个反映这些证据支持的区别的方法是对于这些概率本身赋予概率(所谓的“元概率”)如下:


1. 你有装了白球和黑球的盒子,但是不知道数量情况
θ=pdisplaystyle theta =ptheta =p代表下一球为黑的概率为pdisplaystyle pp这一命题,一个贝叶斯概率论者会赋予一个Β先验分布:

∀θ∈[0,1]displaystyle forall theta in [0,1]forall theta in [0,1]

P(θ)=B(αB=1,αW=1)=Γ(αB+αW)Γ(αB)Γ(αW)θαB−1(1−θ)αW−1=Γ(2)Γ(1)Γ(1)θ0(1−θ)0=1displaystyle P(theta )=mathrm B (alpha _B=1,alpha _W=1)=frac Gamma (alpha _B+alpha _W)Gamma (alpha _B)Gamma (alpha _W)theta ^alpha _B-1(1-theta )^alpha _W-1=frac Gamma (2)Gamma (1)Gamma (1)theta ^0(1-theta )^0=1P(theta )=mathrm B (alpha _B=1,alpha _W=1)=frac Gamma (alpha _B+alpha _W)Gamma (alpha _B)Gamma (alpha _W)theta ^alpha _B-1(1-theta )^alpha _W-1=frac Gamma (2)Gamma (1)Gamma (1)theta ^0(1-theta )^0=1

假设取出的球用二项式分布建模,则后验分布P(θ|m,n)m,n)P(theta |m,n),在取出m个黑球和n个白球之后依然是一个Β分布,其参数αB=1+mdisplaystyle alpha _B=1+malpha _B=1+m, αW=1+ndisplaystyle alpha _W=1+nalpha _W=1+n。Β分布的参数的一个直观的解释是两个事件的设想记数。细节参看Β分布。
2. 你有一个盒子,你已经从中取了N个球,黑白各半
θ=pdisplaystyle theta =ptheta =p 代表下一球为黑的概率为pdisplaystyle pp这一命题,一个贝叶斯概率论者会赋予一个Β先验分布,B(N/2+1,N/2+1)displaystyle mathrm B (N/2+1,N/2+1)mathrm B (N/2+1,N/2+1)θdisplaystyle theta theta 的最大后验概率是θMAP=N/2+1N+2displaystyle theta _MAP=frac N/2+1N+2theta _MAP=frac N/2+1N+2,恰好就是拉普拉斯逐次法则。
3. 你有一个盒子,并且你知道黑球和白球的数量相等
这个情况下,贝叶斯概率论者会定义先验概率为P(θ)=δ(θ−12)displaystyle Pleft(theta right)=delta left(theta -frac 12right)Pleft(theta right)=delta left(theta -frac 12right)

其它贝叶斯概率论者辩解说概率不一定要是精确的数字。


因为频率解释中没有元概率的容身之地,频率论者必须用其它方式表达证据支持。Cedric Smith和Arthur Dempster分别发展了上下极限。Glenn Shafer进一步发展了Dempster的理论,现在它被称为Dempster-Shafer理论。



争议


频率概率论者对属于可能有很多不同的解释。在这些解释中,什么是可能的不依赖于观察者的喜好,而是将事件作为可以应用统计分析的工具的某个聚合的成员。


虽然没有理由不在不同的上下文中使用一个词的不同解释(意义)



参看


  • 概率解释

  • 频率概率

  • 不确定性

  • 推理

  • 贝叶斯推理

  • 贝叶斯定理


  • 末日论证,贝叶斯推理的有争议的一个应用


  • 最大熵热力学 - 贝叶斯观点的热力学

  • 睡美人问题

  • 数学哲学


外部連結及參考



  • On-line textbook: Information Theory, Inference, and Learning Algorithms, by David MacKay, has many chapters on Bayesian methods, including introductory examples; arguments in favour of Bayesian methods (in the style of Edwin Jaynes); state-of-the-art Monte Carlo methods, message-passing methods, and variational methods; and examples illustrating the intimate connections between Bayesian inference and data compression.


  • A nice on-line introductory tutorial to Bayesian probability from Queen Mary University of London

  • Jaynes, E.T. (1998) Probability Theory : The Logic of Science.

  • Bretthorst, G. Larry, 1988, Bayesian Spectrum Analysis and Parameter Estimation in Lecture Notes in Statistics, 48, Springer-Verlag, New York, New York;

  • http://www-groups.dcs.st-andrews.ac.uk/history/Mathematicians/Ramsey.html

  • David Howie: Interpreting Probability, Controversies and Developments in the Early Twentieth Century, Cambridge University Press, 2002, ISBN 0-521-81251-8

  • Colin Howson and Peter Urbach: Scientific Reasoning: The Bayesian Approach, Open Court Publishing, 2nd edition, 1993, ISBN 0-8126-9235-7, focuses on the philosophical underpinnings of Bayesian and frequentist statistics. Argues for the subjective interpretation of probability.

  • Wing-Ho Shum, Kwong-Sak Leung, and Man-Leung Wong. Learning functional dependency networks based on genetic programming. In ICDM05, Proceedings of IEEE International Conference on Data Mining, pages 232-230, 2005.

  • Luc Bovens and Stephan Hartmann: Bayesian Epistemology. Oxford: Oxford University Press 2003. Extends the Bayesian program to more complex decision scenarios (e.g. dependent and partially reliable witnesses and measurement instruments) using Bayesian Network models. The book also proofs an impossibility theorem for coherence orderings over information sets and offers a measure that induces a partial coherence ordering.

  • Jeff Miller "Earliest Known Uses of Some of the Words of Mathematics (B)"

  • James Franklin The Science of Conjecture: Evidence and Probability Before Pascal, history from a Bayesian point of view.

  • Paul Graham "Bayesian spam filtering"

  • novomind AG "Outlook categorizing tool based on Bayesian filtering"

  • Howard Raiffa Decision Analysis: Introductory Lectures on Choices under Uncertainty. McGraw Hill, College Custom Series. (1997) ISBN 0-07-052579-X

  • Devender Sivia, Data Analysis: A Bayesian Tutorial. Oxford: Clarendon Press (1996), pp. 7-8. ISBN 0-19-851889-7

  • Henk Tijms: Understanding Probability, Cambridge University Press, 2004

  • Is the portrait of Thomas Bayes authentic? Who Is this gentleman? When and where was he born? The IMS Bulletin, Vol. 17 (1988), No. 3, pp. 276-278

  • Bayesian Spam Filter for Microsoft Outlook


Popular posts from this blog

Top Tejano songwriter Luis Silva dead of heart attack at 64

政党

天津地下鉄3号線