0.1.1 抛硬币:伯努利随机变量

最简单的概率模型就是抛硬币,假设掷到正面的概率是0.1 概率 - 图1,则掷反面的概率就是0.1 概率 - 图2,从概率的角度来说,抛硬币就是“伯努利随机变量”,表示为0.1 概率 - 图3#card=math&code=Bernoulli%28p%29&id=BiyDE)。
假设正面概率为0.7,反面概率为0.3,这样的分配称为“概率质量函数”。
在很多情况下,有些支出与随机的不同收入相关。例如每次抛出正面给5元,反面赔2元,那平均支出0.1 概率 - 图4就是
0.1 概率 - 图5
对这个结果的正确解释是,如果抛硬币0.1 概率 - 图6次,其中0.1 概率 - 图7是一个非常大的数字,那将赚取0.1 概率 - 图8元。

在随机事件的大量重复出现中,往往呈现几乎必然的规律,这个规律就是大数定律。 通俗地说,这个定理就是,在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率。偶然中包含着某种必然。

以下模拟之:

  1. # https://github.com/sijichun/MathStatsCode/blob/master/notebook_python/LLN_CLT.ipynb
  2. import numpy as np
  3. from numpy import random as nprd
  4. True_P=0.5
  5. def sampling(N):
  6. ## 产生Bernouli样本
  7. x=nprd.rand(N)<True_P
  8. return x
  9. M=10000 #模拟次数
  10. xbar=np.zeros(M)
  11. N=np.array([i+1 for i in range(M)])
  12. x=sampling(M)
  13. for i in range(M):
  14. if i==0:
  15. xbar[i]=x[i]
  16. else:
  17. xbar[i]=(x[i]+xbar[i-1]*i)/(i+1)
  18. ## 导入matplotlib
  19. import matplotlib.pyplot as plt
  20. ## 使图形直接插入到jupyter中
  21. %matplotlib inline
  22. # 设定图像大小
  23. plt.rcParams['figure.figsize'] = (10.0, 8.0)
  24. plt.plot(N,xbar,label=r'$\bar{x}$',color='pink') ## xbar
  25. xtrue=np.ones(M)*True_P
  26. plt.plot(N,xtrue,label=r'$0.5$',color='black') ## true xbar
  27. plt.xlabel('N')
  28. plt.ylabel(r'$\bar{x}$')
  29. plt.legend(loc='upper right', frameon=True)
  30. plt.show() ## 画图

4.png
简单来说,大数定律讲的是,样本容量极大时,样本的均值必然趋近于总体的期望。

0.1.2 掷飞镖:均匀随机变量

伯努利随机变量是离散型随机变量的最简单类型。与此相反的随机变量被称为“连续型”随机变量,可在数值范围内取任意值。
最简单的连续型随机变量是均匀随机变量,有时称为0.1 概率 - 图100.1 概率 - 图11始终在数字0.1 概率 - 图120.1 概率 - 图13之间,也同样可能为取值范围内的任意位置。
对于离散随机变量,概率质量函数为每个可能的结果分配一个有限的概率。对于连续随机变量,其输出具体值的概率几乎为0,但其输出在特定区间的概率则大得多。

0.1.3 均匀分布和伪随机数

0.1 概率 - 图14%3C%2Ftitle%3E%0A%3Cdefs%20aria-hidden%3D%22true%22%3E%0A%3Cpath%20stroke-width%3D%221%22%20id%3D%22E1-MJMATHI-55%22%20d%3D%22M107%20637Q73%20637%2071%20641Q70%20643%2070%20649Q70%20673%2081%20682Q83%20683%2098%20683Q139%20681%20234%20681Q268%20681%20297%20681T342%20682T362%20682Q378%20682%20378%20672Q378%20670%20376%20658Q371%20641%20366%20638H364Q362%20638%20359%20638T352%20638T343%20637T334%20637Q295%20636%20284%20634T266%20623Q265%20621%20238%20518T184%20302T154%20169Q152%20155%20152%20140Q152%2086%20183%2055T269%2024Q336%2024%20403%2069T501%20205L552%20406Q599%20598%20599%20606Q599%20633%20535%20637Q511%20637%20511%20648Q511%20650%20513%20660Q517%20676%20519%20679T529%20683Q532%20683%20561%20682T645%20680Q696%20680%20723%20681T752%20682Q767%20682%20767%20672Q767%20650%20759%20642Q756%20637%20737%20637Q666%20633%20648%20597Q646%20592%20598%20404Q557%20235%20548%20205Q515%20105%20433%2042T263%20-22Q171%20-22%20116%2034T60%20167V183Q60%20201%20115%20421Q164%20622%20164%20628Q164%20635%20107%20637Z%22%3E%3C%2Fpath%3E%0A%3Cpath%20stroke-width%3D%221%22%20id%3D%22E1-MJMATHI-6E%22%20d%3D%22M21%20287Q22%20293%2024%20303T36%20341T56%20388T89%20425T135%20442Q171%20442%20195%20424T225%20390T231%20369Q231%20367%20232%20367L243%20378Q304%20442%20382%20442Q436%20442%20469%20415T503%20336T465%20179T427%2052Q427%2026%20444%2026Q450%2026%20453%2027Q482%2032%20505%2065T540%20145Q542%20153%20560%20153Q580%20153%20580%20145Q580%20144%20576%20130Q568%20101%20554%2073T508%2017T439%20-10Q392%20-10%20371%2017T350%2073Q350%2092%20386%20193T423%20345Q423%20404%20379%20404H374Q288%20404%20229%20303L222%20291L189%20157Q156%2026%20151%2016Q138%20-11%20108%20-11Q95%20-11%2087%20-5T76%207T74%2017Q74%2030%20112%20180T152%20343Q153%20348%20153%20366Q153%20405%20129%20405Q91%20405%2066%20305Q60%20285%2060%20284Q58%20278%2041%20278H27Q21%20284%2021%20287Z%22%3E%3C%2Fpath%3E%0A%3Cpath%20stroke-width%3D%221%22%20id%3D%22E1-MJMATHI-69%22%20d%3D%22M184%20600Q184%20624%20203%20642T247%20661Q265%20661%20277%20649T290%20619Q290%20596%20270%20577T226%20557Q211%20557%20198%20567T184%20600ZM21%20287Q21%20295%2030%20318T54%20369T98%20420T158%20442Q197%20442%20223%20419T250%20357Q250%20340%20236%20301T196%20196T154%2083Q149%2061%20149%2051Q149%2026%20166%2026Q175%2026%20185%2029T208%2043T235%2078T260%20137Q263%20149%20265%20151T282%20153Q302%20153%20302%20143Q302%20135%20293%20112T268%2061T223%2011T161%20-11Q129%20-11%20102%2010T74%2074Q74%2091%2079%20106T122%20220Q160%20321%20166%20341T173%20380Q173%20404%20156%20404H154Q124%20404%2099%20371T61%20287Q60%20286%2059%20284T58%20281T56%20279T53%20278T49%20278T41%20278H27Q21%20284%2021%20287Z%22%3E%3C%2Fpath%3E%0A%3Cpath%20stroke-width%3D%221%22%20id%3D%22E1-MJMATHI-66%22%20d%3D%22M118%20-162Q120%20-162%20124%20-164T135%20-167T147%20-168Q160%20-168%20171%20-155T187%20-126Q197%20-99%20221%2027T267%20267T289%20382V385H242Q195%20385%20192%20387Q188%20390%20188%20397L195%20425Q197%20430%20203%20430T250%20431Q298%20431%20298%20432Q298%20434%20307%20482T319%20540Q356%20705%20465%20705Q502%20703%20526%20683T550%20630Q550%20594%20529%20578T487%20561Q443%20561%20443%20603Q443%20622%20454%20636T478%20657L487%20662Q471%20668%20457%20668Q445%20668%20434%20658T419%20630Q412%20601%20403%20552T387%20469T380%20433Q380%20431%20435%20431Q480%20431%20487%20430T498%20424Q499%20420%20496%20407T491%20391Q489%20386%20482%20386T428%20385H372L349%20263Q301%2015%20282%20-47Q255%20-132%20212%20-173Q175%20-205%20139%20-205Q107%20-205%2081%20-186T55%20-132Q55%20-95%2076%20-78T118%20-61Q162%20-61%20162%20-103Q162%20-122%20151%20-136T127%20-157L118%20-162Z%22%3E%3C%2Fpath%3E%0A%3Cpath%20stroke-width%3D%221%22%20id%3D%22E1-MJMATHI-6F%22%20d%3D%22M201%20-11Q126%20-11%2080%2038T34%20156Q34%20221%2064%20279T146%20380Q222%20441%20301%20441Q333%20441%20341%20440Q354%20437%20367%20433T402%20417T438%20387T464%20338T476%20268Q476%20161%20390%2075T201%20-11ZM121%20120Q121%2070%20147%2048T206%2026Q250%2026%20289%2058T351%20142Q360%20163%20374%20216T388%20308Q388%20352%20370%20375Q346%20405%20306%20405Q243%20405%20195%20347Q158%20303%20140%20230T121%20120Z%22%3E%3C%2Fpath%3E%0A%3Cpath%20stroke-width%3D%221%22%20id%3D%22E1-MJMATHI-72%22%20d%3D%22M21%20287Q22%20290%2023%20295T28%20317T38%20348T53%20381T73%20411T99%20433T132%20442Q161%20442%20183%20430T214%20408T225%20388Q227%20382%20228%20382T236%20389Q284%20441%20347%20441H350Q398%20441%20422%20400Q430%20381%20430%20363Q430%20333%20417%20315T391%20292T366%20288Q346%20288%20334%20299T322%20328Q322%20376%20378%20392Q356%20405%20342%20405Q286%20405%20239%20331Q229%20315%20224%20298T190%20165Q156%2025%20151%2016Q138%20-11%20108%20-11Q95%20-11%2087%20-5T76%207T74%2017Q74%2030%20114%20189T154%20366Q154%20405%20128%20405Q107%20405%2092%20377T68%20316T57%20280Q55%20278%2041%20278H27Q21%20284%2021%20287Z%22%3E%3C%2Fpath%3E%0A%3Cpath%20stroke-width%3D%221%22%20id%3D%22E1-MJMATHI-6D%22%20d%3D%22M21%20287Q22%20293%2024%20303T36%20341T56%20388T88%20425T132%20442T175%20435T205%20417T221%20395T229%20376L231%20369Q231%20367%20232%20367L243%20378Q303%20442%20384%20442Q401%20442%20415%20440T441%20433T460%20423T475%20411T485%20398T493%20385T497%20373T500%20364T502%20357L510%20367Q573%20442%20659%20442Q713%20442%20746%20415T780%20336Q780%20285%20742%20178T704%2050Q705%2036%20709%2031T724%2026Q752%2026%20776%2056T815%20138Q818%20149%20821%20151T837%20153Q857%20153%20857%20145Q857%20144%20853%20130Q845%20101%20831%2073T785%2017T716%20-10Q669%20-10%20648%2017T627%2073Q627%2092%20663%20193T700%20345Q700%20404%20656%20404H651Q565%20404%20506%20303L499%20291L466%20157Q433%2026%20428%2016Q415%20-11%20385%20-11Q372%20-11%20364%20-4T353%208T350%2018Q350%2029%20384%20161L420%20307Q423%20322%20423%20345Q423%20404%20379%20404H374Q288%20404%20229%20303L222%20291L189%20157Q156%2026%20151%2016Q138%20-11%20108%20-11Q95%20-11%2087%20-5T76%207T74%2017Q74%2030%20112%20181Q151%20335%20151%20342Q154%20357%20154%20369Q154%20405%20129%20405Q107%20405%2092%20377T69%20316T57%20280Q55%20278%2041%20278H27Q21%20284%2021%20287Z%22%3E%3C%2Fpath%3E%0A%3Cpath%20stroke-width%3D%221%22%20id%3D%22E1-MJMAIN-28%22%20d%3D%22M94%20250Q94%20319%20104%20381T127%20488T164%20576T202%20643T244%20695T277%20729T302%20750H315H319Q333%20750%20333%20741Q333%20738%20316%20720T275%20667T226%20581T184%20443T167%20250T184%2058T225%20-81T274%20-167T316%20-220T333%20-241Q333%20-250%20318%20-250H315H302L274%20-226Q180%20-141%20137%20-14T94%20250Z%22%3E%3C%2Fpath%3E%0A%3Cpath%20stroke-width%3D%221%22%20id%3D%22E1-MJMAIN-30%22%20d%3D%22M96%20585Q152%20666%20249%20666Q297%20666%20345%20640T423%20548Q460%20465%20460%20320Q460%20165%20417%2083Q397%2041%20362%2016T301%20-15T250%20-22Q224%20-22%20198%20-16T137%2016T82%2083Q39%20165%2039%20320Q39%20494%2096%20585ZM321%20597Q291%20629%20250%20629Q208%20629%20178%20597Q153%20571%20145%20525T137%20333Q137%20175%20145%20125T181%2046Q209%2016%20250%2016Q290%2016%20318%2046Q347%2076%20354%20130T362%20333Q362%20478%20354%20524T321%20597Z%22%3E%3C%2Fpath%3E%0A%3Cpath%20stroke-width%3D%221%22%20id%3D%22E1-MJMAIN-2C%22%20d%3D%22M78%2035T78%2060T94%20103T137%20121Q165%20121%20187%2096T210%208Q210%20-27%20201%20-60T180%20-117T154%20-158T130%20-185T117%20-194Q113%20-194%20104%20-185T95%20-172Q95%20-168%20106%20-156T131%20-126T157%20-76T173%20-3V9L172%208Q170%207%20167%206T161%203T152%201T140%200Q113%200%2096%2017Z%22%3E%3C%2Fpath%3E%0A%3Cpath%20stroke-width%3D%221%22%20id%3D%22E1-MJMAIN-31%22%20d%3D%22M213%20578L200%20573Q186%20568%20160%20563T102%20556H83V602H102Q149%20604%20189%20617T245%20641T273%20663Q275%20666%20285%20666Q294%20666%20302%20660V361L303%2061Q310%2054%20315%2052T339%2048T401%2046H427V0H416Q395%203%20257%203Q121%203%20100%200H88V46H114Q136%2046%20152%2046T177%2047T193%2050T201%2052T207%2057T213%2061V578Z%22%3E%3C%2Fpath%3E%0A%3Cpath%20stroke-width%3D%221%22%20id%3D%22E1-MJMAIN-29%22%20d%3D%22M60%20749L64%20750Q69%20750%2074%20750H86L114%20726Q208%20641%20251%20514T294%20250Q294%20182%20284%20119T261%2012T224%20-76T186%20-143T145%20-194T113%20-227T90%20-246Q87%20-249%2086%20-250H74Q66%20-250%2063%20-250T58%20-247T55%20-238Q56%20-237%2066%20-225Q221%20-64%20221%20250T66%20725Q56%20737%2055%20738Q55%20746%2060%20749Z%22%3E%3C%2Fpath%3E%0A%3C%2Fdefs%3E%0A%3Cg%20stroke%3D%22currentColor%22%20fill%3D%22currentColor%22%20stroke-width%3D%220%22%20transform%3D%22matrix(1%200%200%20-1%200%200)%22%20aria-hidden%3D%22true%22%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-55%22%20x%3D%220%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-6E%22%20x%3D%22767%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-69%22%20x%3D%221368%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-66%22%20x%3D%221713%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-6F%22%20x%3D%222264%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-72%22%20x%3D%222749%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMATHI-6D%22%20x%3D%223201%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMAIN-28%22%20x%3D%224079%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMAIN-30%22%20x%3D%224469%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMAIN-2C%22%20x%3D%224969%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMAIN-31%22%20x%3D%225414%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%20%3Cuse%20xlink%3Ahref%3D%22%23E1-MJMAIN-29%22%20x%3D%225915%22%20y%3D%220%22%3E%3C%2Fuse%3E%0A%3C%2Fg%3E%0A%3C%2Fsvg%3E#card=math&code=Uniform%280%2C1%29&id=tePS9)分布是最基本的概率分布。它是最简单的一个,但也是在数学理论和计算实践中构建更复杂概率分布的基础。例如:

  • 如果要模拟0.1 概率 - 图15#card=math&code=Bernoulli%28p%29&id=OsWPq)随机变量0.1 概率 - 图16,可以通过模拟0.1 概率 - 图17#card=math&code=Uniform%280%2C1%29&id=ly7FP)分布中的随机值0.1 概率 - 图18来实现。如果0.1 概率 - 图19,则设置0.1 概率 - 图20=正面,否则设置0.1 概率 - 图21=反面。
  • 如果要模拟加权掷骰子,将[0.0, 1.0]取值范围分成6个区域,其中第0.1 概率 - 图22个区域的大小与骰子投出第0.1 概率 - 图23面的概率相同。然后再次从0.1 概率 - 图24#card=math&code=Uniform%280%2C1%29&id=YHokK)分布中绘制0.1 概率 - 图25值。掷出的骰子即会落入0.1 概率 - 图26的 [0.0, 1.0]区间。
  • 如果要模拟指数随机变量,从0.1 概率 - 图27#card=math&code=Uniform%280%2C1%29&id=VBh86)中绘制0.1 概率 - 图28,然后取0.1 概率 - 图29#card=math&code=%5Clog%28u%29&id=QPAD2)的倒数。

但是,技术上讲,用计算机程序模拟随机数是不可行的。它们是确定性的机器,只能遵循预定的规则——没有用于翻转硬币的子程序。一般会用“伪随机数”即某种固定生成算法来实现,比如早期的线性同余法。
当然伪随机数也有优点,可以在一开始就手动设置好部分参数,也被称为“种子/seed”。这样做可以使程序变得更加完全确定,并且可以在下次运行中精确地重现相同的结果。

如:

  1. >>> import random
  2. >>> random.random()
  3. 0.7006269308810754
  4. >>> random.random()
  5. 0.4896124288257575
  6. >>> random.seed(10086)
  7. >>> random.random()
  8. 0.043562757723543566
  9. >>> random.random()
  10. 0.7994528936212764
  11. >>> random.seed(10086)
  12. >>> random.random()
  13. 0.043562757723543566

同一种子10086时,输出随机数相同。

0.1.4 非离散型、非连续型随机变量

从数学角度而言,随机变量既不离散也不连续。例如以种植树木的高度为例,在给定的时间点中,其中不发芽的一部分高度为0,这是在该高度下的有限概率质量。而那些发芽树木的高度则为在一定范围内的任意值。

  1. import numpy as np
  2. import pandas as pd
  3. import matplotlib.pyplot as plt
  4. z = np.zeros(1000)
  5. x = np.random.exponential(size=1000)
  6. D = pd.Series(data)
  7. X = pd.Series(x)
  8. (D>0).value_counts().rename({True: ">0", False: "<0"}).plot(kind="pie")
  9. X.hist(bins=100)

1.png
2.png

0.1.5 期望和标准偏差

通常使用大写字母0.1 概率 - 图32表示随机变量,小写字母0.1 概率 - 图33表示变量的特定值。
如果写作0.1 概率 - 图34是指随机变量0.1 概率 - 图35的平均值。这里的0.1 概率 - 图36是指期望值,是均值的另一种形式。

  • 不连续随机变量的预期值定义为:

0.1 概率 - 图37

  • 连续随机变量的预期值定义为:

0.1 概率 - 图38%20dx%0A#card=math&code=E%5BX%5D%20%3D%20%5Cint%20xf_x%28x%29%20dx%0A&id=Hkl6C)
通常由0.1 概率 - 图39表示随机变量0.1 概率 - 图40的期望值,根据期望值定义某个事物的关键例子是方差和标准偏差。
0.1 概率 - 图41的方差定义为:
0.1 概率 - 图42
标准差是方差的二次方根:
0.1 概率 - 图43
标准差可以用来粗略衡量X与0.1 概率 - 图44的距离。

0.1.6 独立概率、边际概率和条件概率

通常需要同时考虑两个随机变量0.1 概率 - 图450.1 概率 - 图46。如果已知一个变量,能以此了解另一个变量吗?
具体来说,假设变量是离散随机变量,令0.1 概率 - 图47表示0.1 概率 - 图480.1 概率 - 图49的概率。
0.1 概率 - 图50边际概率为
0.1 概率 - 图51
如果重视一个随机变量而忽略另一个,那么就是概率分布。
另一方面,由已知的0.1 概率 - 图52值推断0.1 概率 - 图53的情况,那么就可以在给定的0.1 概率 - 图54时,得到每个0.1 概率 - 图55的条件概率:
0.1 概率 - 图56
条件概率在贝叶斯统计中起着重要的作用。
给定0.1 概率 - 图57,通常想知道0.1 概率 - 图58的期望值,表达如下:
0.1 概率 - 图59
这些关于0.1 概率 - 图60的统计值与0.1 概率 - 图61的取值条件相关,0.1 概率 - 图620.1 概率 - 图63的相关性定义为:
0.1 概率 - 图64(Y-%5Cmuy)%5D%7D%7B%5Csigma_x%5Csigma_y%7D%0A#card=math&code=Corr%5BX%2CY%5D%20%3D%20%5Cfrac%7BE%5B%28X-%5Cmu_x%29%28Y-%5Cmu_y%29%5D%7D%7B%5Csigma_x%5Csigma_y%7D%0A&id=XNgnj)
这是随机变量之间的线性关系的度量,其形式为0.1 概率 - 图65
如果已知随机变量0.1 概率 - 图660.1 概率 - 图67中的任一个,并不能获取另一个随机变量的相关信息,则0.1 概率 - 图680.1 概率 - 图69是独立随机变量。在数学上意味着:
![](https://g.yuque.com/gr/latex?p
%7Bxy%7D%20%3D%20pxp_y%0A#card=math&code=p%7Bxy%7D%20%3D%20p_xp_y%0A&id=T3uyy)

值得注意的是,独立性是一个非常强大的标准,这比仅仅说相关性为0要强得多。

0.1.7 重尾分布

关于概率分布最重要的理解之一就是“重尾”。直观地说,这是指最大值出现的概率。身高就是非重尾的一个很好的例子,因为没有人身高能超过10米。然而净资产是重尾分布,因为偶尔会出现比尔·盖茨。
了解重尾分布很重要,这是因为当事情为重尾分布时,通常用概率分布做的事情都不起作用。
举例,重尾分布的平均值很难估计,如果房间里有100个人,那么这些人的平均净资产可能会有很大的差异,像一个千万富翁就可能极大提高平均净资产。
以下通过帕累托分布中抽取重尾序列,模拟0.1 概率 - 图70次,可见平均值趋涨:

  1. import numpy as np
  2. import matplotlib.pyplot as plt
  3. np.random.seed(10)
  4. N = 1000
  5. sums, means = 0, []
  6. for i in range(1, N):
  7. sums += np.random.pareto(1)
  8. means.append(sums/i)
  9. plt.plot(means)

3.png

0.1.8 二项分布

二项式(0.1 概率 - 图720.1 概率 - 图73) 的分布是抛硬币0.1 概率 - 图74次得到正面的次数,其中每次抛掷正面的独立概率为0.1 概率 - 图75
0.1 概率 - 图76次抛掷硬币得到0.1 概率 - 图77次正面的特定序列概率为0.1 概率 - 图78%5En-k#card=math&code=p%5Ek%281-p%29%5En-k&id=J7TUH)。
如何在0.1 概率 - 图79次投掷硬币中抛出0.1 概率 - 图80次正面是一个组合问题,确切公式表示为0.1 概率 - 图81,即从0.1 概率 - 图82个元素中选择0.1 概率 - 图83个元素
0.1 概率 - 图84!%7D%0A#card=math&code=%5Clgroup%5En_k%5Crgroup%20%3D%20%5Cfrac%7Bn%21%7D%7Bk%21%28n-k%29%21%7D%0A&id=ChW4v)
以下模拟之:

  1. import numpy as np
  2. import pandas as pd
  3. sample = np.random.binomial(200, 0.3)
  4. print(sample)
  5. N = 100
  6. sample = []
  7. for _ in range(N):
  8. sample.append(np.random.binomial(1, 0.3))
  9. pd.value_counts(sample)
  10. """
  11. 55
  12. 0 73
  13. 1 27
  14. dtype: int64
  15. """

0.1.9 泊松分布

泊松分布用于模拟可能发生许多事件的系统,并且所有事件都相互独立,但平均而言,只有少数时间会发生。一个很好的例子就是会有多少人在某一天访问一个网站,世界上有数十亿人可以访问这个网址,但平均而言,也许只有几百人会访问这个网站。
日常生活中,大量事件是有固定频率的,如:

  • 某医院平均每小时出生3个婴儿
  • 某公司平均每10分钟接到1个电话
  • 某超市平均每天销售4包xx牌奶粉
  • 某网站平均每分钟有2次访问

它们的特点就是,我们可以预估这些事件的总数,但是没法知道具体的发生时间。已知平均每小时出生3个婴儿,请问下一个小时,会出生几个?有可能一下子出生6个,也有可能一个都不出生。这是我们没法知道的。
泊松分布就是描述某段时间内,事件具体的发生概率。

假设采用二项式(0.1 概率 - 图850.1 概率 - 图86)分布。将0.1 概率 - 图87设置得非常大,将0.1 概率 - 图88设置得足够小,则
0.1 概率 - 图89
式中,0.1 概率 - 图90是固定常数。
在使得0.1 概率 - 图91大而0.1 概率 - 图92小同时0.1 概率 - 图93不变的约束下,二项分布将收敛于泊松分布。概率质量函数由下式给出:
0.1 概率 - 图94
加入时间维度0.1 概率 - 图95
0.1 概率 - 图96%3Dn)%3De%5E%7B-%5Clambda%20t%7D%5Cfrac%7B(%5Clambda%20t)%5Ek%7D%7Bk!%7D%0A#card=math&code=P%28N%28t%29%3Dn%29%3De%5E%7B-%5Clambda%20t%7D%5Cfrac%7B%28%5Clambda%20t%29%5Ek%7D%7Bk%21%7D%0A&id=xZX8V)
已知1小时内出生3个婴儿的概率,就表示为0.1 概率 - 图97%3D3)#card=math&code=P%28N%281%29%3D3%29&id=zokah),那么接下来两个小时,一个婴儿都不出生的概率是0.25%,基本不可能发生。因为:
0.1 概率 - 图98%3D0)%3D%5Cfrac%7B(3%5Ctimes2)%5E0e%5E%7B-3%5Ctimes2%7D%7D%7B0!%7D%20%5Capprox%200.0025%0A#card=math&code=P%28N%282%29%3D0%29%3D%5Cfrac%7B%283%5Ctimes2%29%5E0e%5E%7B-3%5Ctimes2%7D%7D%7B0%21%7D%20%5Capprox%200.0025%0A&id=MfcCT)
接下来一个小时,至少出生两个婴儿的概率是80%:
0.1 概率 - 图99%5Cge2)%20%26%3D%201-P(N(1)%3D1)-P(N(1)%3D0)%20%5C%5C%0A%26%3D%201%20-%20%5Cfrac%7B(3%5Ctimes1)%5E1e%5E%7B-3%5Ctimes1%7D%7D%7B1!%7D%20-%20%5Cfrac%7B(3%5Ctimes1)%5E0e%5E%7B-3%5Ctimes1%7D%7D%7B0!%7D%5C%5C%0A%26%3D%201%20-%203e%5E%7B-3%7D%20-%20e%5E%7B-3%7D%20%5C%5C%0A%26%3D%201%20-%204e%5E%7B-3%7D%20%5C%5C%0A%26%5Capprox%200.8009%0A%5Cend%7Balign%7D%0A#card=math&code=%5Cbegin%7Balign%7D%0AP%28N%281%29%5Cge2%29%20%26%3D%201-P%28N%281%29%3D1%29-P%28N%281%29%3D0%29%20%5C%5C%0A%26%3D%201%20-%20%5Cfrac%7B%283%5Ctimes1%29%5E1e%5E%7B-3%5Ctimes1%7D%7D%7B1%21%7D%20-%20%5Cfrac%7B%283%5Ctimes1%29%5E0e%5E%7B-3%5Ctimes1%7D%7D%7B0%21%7D%5C%5C%0A%26%3D%201%20-%203e%5E%7B-3%7D%20-%20e%5E%7B-3%7D%20%5C%5C%0A%26%3D%201%20-%204e%5E%7B-3%7D%20%5C%5C%0A%26%5Capprox%200.8009%0A%5Cend%7Balign%7D%0A&id=M5sjf)
以下模拟之:

  1. import numpy as np
  2. import pandas as pd
  3. sample = np.random.poisson(lam=5, size=5)
  4. print(sample)
  5. N = 100
  6. sample = []
  7. for _ in range(N):
  8. sample.append(np.random.poisson(5))
  9. pd.value_counts(sample)
  10. """
  11. [9 4 5 5 4]
  12. 4 22
  13. 3 15
  14. 6 14
  15. 5 14
  16. 7 9
  17. 2 9
  18. 10 6
  19. 8 6
  20. 9 2
  21. 1 2
  22. 0 1
  23. dtype: int64
  24. """

0.1.A 正态分布

正态分布是非常重要的一种概率分布,也称为高斯分布。它是典型的钟形曲线,其概率密度函数:
0.1 概率 - 图100%20%3D%20%5Cfrac%7B1%7D%7B%5Csqrt%7B2%5Cpi%5Csigma%5E2%7D%7De%5E%7B-(x-%5Cmu)%2F2%5Csigma%5E2%7D%0A#card=math&code=f%28x%29%20%3D%20%5Cfrac%7B1%7D%7B%5Csqrt%7B2%5Cpi%5Csigma%5E2%7D%7De%5E%7B-%28x-%5Cmu%29%2F2%5Csigma%5E2%7D%0A&id=vnb7j)
式中,0.1 概率 - 图101是其平均值,0.1 概率 - 图102是标准偏差。
这种正态分布通常称为0.1 概率 - 图103#card=math&code=N%28%5Cmu%2C%5Csigma%5E2%29&id=oTGTU)。
正态分布最重要的性质是其概率密度紧密聚集在均值附近,尾巴较小,并且不大可能会出现大量异常值。出于这个原因,简单的用正态分布来拟合数据可能会产生严重问题。通常在进行曲线拟合之前,识别并移除主要异常值是常用方法。
bg2017073006.jpg
从理论上,正态分布被作为最有名的概率分布,是因为如果有足够多的时间采样并对结果进行平均,许多分布将收敛于正态分布。这适用于二项分布、泊松分布以及任何可能遇到的其他分布。从技术上讲,任何一个分布的平均值和标准偏差都是有限的。
这被归结于“中心极限定理”中:

中心极限定理,设0.1 概率 - 图105是具有有限的均值0.1 概率 - 图106和标准差0.1 概率 - 图107的随机变量。令0.1 概率 - 图1080.1 概率 - 图109,…,0.1 概率 - 图1100.1 概率 - 图111的独立样本序列。然后当0.1 概率 - 图112趋向于无穷大时: 0.1 概率 - 图113%0A#card=math&code=%5Csqrt%7Bn%7D%5Clgroup%5Cfrac%7B1%7D%7Bn%7D%5Csum%20X_i%20-%20%5Cmu%20%5Crgroup%5Cto%20N%280%2C%5Csigma%5E2%29%0A&id=OIODr)

它是概率论中最重要的一类定理,有广泛的实际应用背景。在自然界与生产中,一些现象受到许多相互独立的随机因素的影响,如果每个因素所产生的影响都很微小时,总的影响可以看作是服从正态分布的。中心极限定理就是从数学上证明了这一现象。最早的中心极限定理是讨论重点,伯努利试验中,事件A出现的次数渐近于正态分布的问题。
以下模拟之:

  1. # https://github.com/sijichun/MathStatsCode/blob/master/notebook_python/LLN_CLT.ipynb
  2. from numpy import random as nprd
  3. def sampling(N):
  4. ## 产生一组样本,以0.5的概率为z+3,0.5的概率为z-3,其中z~N(0,1)
  5. d = nprd.rand(N)<0.5
  6. z = nprd.randn(N)
  7. x = np.array([z[i]+3 if d[i] else z[i]-3 for i in range(N)])
  8. return x
  9. N = [2,3,4,10,100,1000] # sample size
  10. M = 2000
  11. MEANS = []
  12. for n in N:
  13. mean_x = np.zeros(M)
  14. for i in range(M):
  15. x = sampling(n)
  16. mean_x[i] = np.mean(x)/np.sqrt(10/n) ## 标准化,因为var(x)=10
  17. MEANS.append(mean_x)
  18. ## 导入matplotlib
  19. import matplotlib.pyplot as plt
  20. import matplotlib.mlab as mlab
  21. ## 使图形直接插入到jupyter中
  22. %matplotlib inline
  23. # 设定图像大小
  24. plt.rcParams['figure.figsize'] = (10.0, 8.0)
  25. x = sampling(1000)
  26. plt.xlabel('x')
  27. plt.ylabel('Density')
  28. plt.title('Histogram of Mixed Normal')
  29. plt.hist(x, bins=30, normed=1) ## histgram
  30. plt.show() ## 画图
  31. ## 均值
  32. ax1 = plt.subplot(2,3,1)
  33. ax2 = plt.subplot(2,3,2)
  34. ax3 = plt.subplot(2,3,3)
  35. ax4 = plt.subplot(2,3,4)
  36. ax5 = plt.subplot(2,3,5)
  37. ax6 = plt.subplot(2,3,6)
  38. ## normal density
  39. x = np.linspace(-3,3,100)
  40. d = [1.0/np.sqrt(2*np.pi)*np.exp(-i**2/2) for i in x]
  41. def plot_density(ax,data,N):
  42. ax.hist(data, bins=30, normed=1) ## histgram
  43. ax.plot(x, d)
  44. ax.set_title(r'Histogram of $\bar{x}$:N=%d' % N)
  45. plot_density(ax1,MEANS[0],N[0])
  46. plot_density(ax2,MEANS[1],N[1])
  47. plot_density(ax3,MEANS[2],N[2])
  48. plot_density(ax4,MEANS[3],N[3])
  49. plot_density(ax5,MEANS[4],N[4])
  50. plot_density(ax6,MEANS[5],N[5])
  51. plt.show() ## 画图

5.png
简单来说,**中心极限定理讲的是,样本容量极大时,样本均值的抽样分布趋近于正态分布。这和样本所属的总体的分布的类型无关,样本所属总体的分布可以是正态分布,也可以不是。

**

0.1.B 多元正态分布

如果我们以显著的方式推广上述分布变量到更高维度,如正态分布,正态分布可以定义任意维度0.1 概率 - 图115。密度函数类似于一个山丘,它在分布的平均值处达到峰值,并且总体呈现为椭圆形。
v2-e2690ca9a9c7ee17203aa1842aee844b_1440w.jpg
应该注意到,椭圆体可以向任意方向伸展,不必沿着某一个轴伸展。

0.1.C 指数分布

指数分布在其模拟某些事件发生的时间或事件之间的时间长度时最有用。比方说,对于进入商店的人,每个时刻人们走进商店的概率是一个较小的固定值,并且每个时刻都是相互独立的。在这种情况下,事件之间的时间量将呈指数分布。
指数分布是事件的时间间隔的概率。

  • 婴儿出生的时间间隔
  • 来电的时间间隔
  • 奶粉销售的时间间隔
  • 网站访问的时间间隔

指数分布由其平均值0.1 概率 - 图117(事件之间的平均时间)进行参数化。有时会使用0.1 概率 - 图118(事件发生的平均速率)对其进行参数化,其概率密度函数:
0.1 概率 - 图119%3D%5Cleft%5C%7B%0A%5Cbegin%7Barray%7D%7Brcl%7D%0A%5Cfrac%7B1%7D%7B%5Ctheta%7De%5E%7B-x%2F%5Ctheta%7D%20%26%20%26%20%7Bx%5Cge0%7D%5C%5C%0A0%20%26%20%26%20%7Bother%7D%5C%5C%0A%5Cend%7Barray%7D%20%5Cright.%0A#card=math&code=f%28x%29%3D%5Cleft%5C%7B%0A%5Cbegin%7Barray%7D%7Brcl%7D%0A%5Cfrac%7B1%7D%7B%5Ctheta%7De%5E%7B-x%2F%5Ctheta%7D%20%26%20%26%20%7Bx%5Cge0%7D%5C%5C%0A0%20%26%20%26%20%7Bother%7D%5C%5C%0A%5Cend%7Barray%7D%20%5Cright.%0A&id=xgulJ)
指数分布的公式可以从泊松分布推断出来,引用上例,
如果下一个婴儿要间隔时间 t ,就等同于 t 之内没有任何婴儿出生。
0.1 概率 - 图120%20%26%3D%20P(N(t)%3D0)%20%3D%20%5Cfrac%7B(%5Clambda%20t)%5E0e%5E%7B-%5Clambda%20t%7D%7D%7B0!%7D%5C%5C%0A%26%3D%20e%5E%7B-%5Clambda%20t%7D%0A%5Cend%7Balign%7D%0A#card=math&code=%5Cbegin%7Balign%7D%0AP%28X%20%3E%20t%29%20%26%3D%20P%28N%28t%29%3D0%29%20%3D%20%5Cfrac%7B%28%5Clambda%20t%29%5E0e%5E%7B-%5Clambda%20t%7D%7D%7B0%21%7D%5C%5C%0A%26%3D%20e%5E%7B-%5Clambda%20t%7D%0A%5Cend%7Balign%7D%0A&id=uTiMe)
反过来,事件在时间 t 之内发生的概率,就是1减去上面的值。
0.1 概率 - 图121%20%3D%201%20-%20P(X%20%5Cgt%20t)%20%3D%201%20-%20e%5E%7B-%5Clambda%20t%7D%0A#card=math&code=P%28X%20%5Cle%20t%29%20%3D%201%20-%20P%28X%20%5Cgt%20t%29%20%3D%201%20-%20e%5E%7B-%5Clambda%20t%7D%0A&id=RXGvb)
接下来15分钟,会有婴儿出生的概率是52.76%
0.1 概率 - 图122%20%26%3D%201%20-%20e%5E%7B-3%5Ctimes0.25%7D%5C%5C%0A%26%5Capprox%200.5276%0A%5Cend%7Balign%7D%0A#card=math&code=%5Cbegin%7Balign%7D%0AP%28X%20%5Cle%200.25%20%29%20%26%3D%201%20-%20e%5E%7B-3%5Ctimes0.25%7D%5C%5C%0A%26%5Capprox%200.5276%0A%5Cend%7Balign%7D%0A&id=lmKQ5)
接下来的15分钟到30分钟,会有婴儿出生的概率是24.92%
0.1 概率 - 图123%20%26%3D%20P(X%20%5Cle%200.5)%20-%20P(X%20%5Cle%200.25)%5C%5C%0A%26%3D%20(1-e%5E%7B-3%5Ctimes0.5%7D)-(1-e%5E%7B-3%5Ctimes0.25%7D)%20%5C%5C%0A%26%3D%20e%5E%7B-0.75%7D%20-%20e%5E%7B-1.5%7D%20%5C%5C%0A%26%5Capprox%200.2492%0A%5Cend%7Balign%7D%0A#card=math&code=%5Cbegin%7Balign%7D%0AP%280.25%20%5Cle%20X%20%5Cle%200.5%29%20%26%3D%20P%28X%20%5Cle%200.5%29%20-%20P%28X%20%5Cle%200.25%29%5C%5C%0A%26%3D%20%281-e%5E%7B-3%5Ctimes0.5%7D%29-%281-e%5E%7B-3%5Ctimes0.25%7D%29%20%5C%5C%0A%26%3D%20e%5E%7B-0.75%7D%20-%20e%5E%7B-1.5%7D%20%5C%5C%0A%26%5Capprox%200.2492%0A%5Cend%7Balign%7D%0A&id=zUinB)
以下模拟之:

  1. import numpy as np
  2. import pandas as pd
  3. sample = np.random.exponential(10)
  4. print(sample)
  5. N = 10
  6. sample = []
  7. for _ in range(N):
  8. sample.append(np.random.exponential(1))
  9. pd.value_counts(sample)
  10. """
  11. 34.293011008718764
  12. 1.426454 1
  13. 0.205591 1
  14. 0.119978 1
  15. 0.404349 1
  16. 0.220207 1
  17. 0.463974 1
  18. 0.495403 1
  19. 0.301081 1
  20. 2.966221 1
  21. 0.009234 1
  22. dtype: int64
  23. """

在很多应用中,指数分布的关键属性是“无记忆”。无论等待事件发生的时间有多久,剩余的等待时间仍然遵循相同的指数分布。一个事件在下一个时刻是否发生,与之前已发生的其他时间无关。
指数分布的无记忆特性通常被认为是重尾分布与非重尾分布的分界线。如果已经等待了一个事件发生的时间为0.1 概率 - 图124,那么期望等待的时间比刚开始的时间长还是短呢?指数随机变量不会有任何结果。相比之下,20岁的人可能倾向于再等20多年,但90岁的人可能不会。因此年龄并不是重尾的。街上随机的一个人不太可能是百万富翁,但是如果碰巧挑选到的人都至少有80万元,那么百万富翁的可能性就大很多。因此,净资产是重尾的。

0.1.D 对数正态分布

重尾分布是对数正态分布,对其理解和模拟很简单。同时,对数正态分布的平均值和标准差都是有限的。对于所有现实世界的现象都是如此。
该分布中有一个明显的峰值,且峰值大于0,峰值的左侧迅速下降,在0.1 概率 - 图125时变为0.0,在右边逐渐变窄,会使其有规律地出现大的异常值。对数正态分布最好这样考虑,从正态(0.1 概率 - 图1260.1 概率 - 图127)中抽取一个0.1 概率 - 图128值,则0.1 概率 - 图129是对数正态分布的。
以下模拟之:

  1. import numpy as np
  2. import pandas as pd
  3. sample = np.random.lognormal(1, 2)
  4. print(sample)
  5. N = 10
  6. sample = []
  7. for _ in range(N):
  8. sample.append(np.random.lognormal(1, 2))
  9. pd.value_counts(sample)
  10. """
  11. 18.761595456554964
  12. 0.232312 1
  13. 9.743775 1
  14. 18.472365 1
  15. 21.047856 1
  16. 61.887021 1
  17. 13.400393 1
  18. 37.689687 1
  19. 5.035124 1
  20. 0.026245 1
  21. 0.156932 1
  22. dtype: int64
  23. """

这就是说,财富的对数值满足正态分布。如果平均财富是10,000元,那么1000元~10,000元之间的穷人(比平均值低一个数量级,宽度为9000)与10,000元~100,000元之间的富人(比平均值高一个数量级,宽度为90,000)人数一样多。因此,财富曲线左侧的范围比较窄,右侧出现重尾。

0.1.E 熵

熵是一种衡量随机变量“随机性”的方法,概念来自信息论领域。直观地说,公平硬币的随机性要高于99%出现正面的硬币。同样,如果一个正态分布的标准差很小,那么它的概率质量将紧紧地围绕它的平均值分布,且它比更大标准差的分布随机性更差。
如果随机变量0.1 概率 - 图130是离散的,熵即
0.1 概率 - 图131%0A#card=math&code=H%5BX%5D%20%3D%20E%5BSurpise%5BX%5D%5D%20%3D%20-%5Csum_xp_x%5Cln%28p_x%29%0A&id=y7tYQ)
如果随机变量0.1 概率 - 图132是连续的,熵即
0.1 概率 - 图133%20%5Cln(f(x))%20dx%0A#card=math&code=H%5BX%5D%20%3D%20-%5Cint%20f%28x%29%20%5Cln%28f%28x%29%29%20dx%0A&id=citQg)
我们很少直接计算熵,但概念无处不在。