第四十七章网络的统计观念_学医路漫漫

以网络的概念理解现实世界，我们可以得知一切理论的有效性和作为层次的收敛衰减。网络不能够像时钟一样，可以有时间反演和比较确定，因为网络是多维度的耦合，当迭代的次数超过一定阈值会衰减收敛，这是混沌。同时也是误差。因此我们最后使用统计模型来理解网络，进而理解现实。

数据统计性质是基于大规模的随机数据的

单一变量的作用探究几乎是不可能的，因为网络的作用是耦合的

向平均回归是另一维度的动态平衡的达成，而平均值就是一种本征，而这维持了整体的稳态，避免了两极分化

我们通过对一种一组分布的数据的本征求解来代入公式：观测值总是随机的，但整体的观测值显现的规律是高维结构的

现象是观测的结果，而本质是其背后的分布函数（概率分布）：泊松分布

拟合优度检验：确定一组给定的观测值是否适合于某一特定的数学分布函数

蒙特卡罗技术：一再模拟的数学模型，以确定相关数据的概率分布（一种遍历的手段，各种偏导得出的比例符合一定的分布函数）

高维数据：样本足够大，以至于确定参数可以没有误差-----小样本随机误差的处理：平均值和标准差估计值的比例K?皮尔逊的四个参数相关（平均数和标准差，偏度（symmetry）和峰度(kurtosis)），并与K?皮尔逊的偏斜分布系列中的某一分布相配。前两个参数估计值的比率有一个可以制表的概率分布，计算这两个样本估计值的比率，得到一个已知的分布。

基本的假设，即原始测量值服从正态分布。

复杂的迭代公式（iterativeformulas）被转换成多维的几何空间形式

各种参数的统计分布是高维结构，如分布参数的连续改变是进化的真正本质

假设这些表形是基因之间交互作用的结果，而这些基因的交互作用又具有不同的概率

网络的多变量影响，通过一定的限制条件划分模块，我们通过随机调整来使得一定路径的关系显现出来，建立大量相互关联原因的相关效应

分解各种不同处理的效应：费歇尔的方差分析，对交互作用的分析

自由度调和由不同作者观测到的有差异和表现异常的结果

极值的分布决定层次的收敛范围，知道极值分布与正常值的分布之间的关系，就可以预测极端情况的出现：极值统计学

分布是概率性的，且其与现实的误差也是概率性的

极大似然估计量总是一致的，如果人们认可几个被认为是“正则性条件”（regularityconditions）的假定，那么MLE是所有统计量中最有效的。此外，费歇尔还证明了，即便MLE是有偏的，也可以计算出其偏差的大小，然后将其从MLE的估计值中减掉，从而得到一个一致、有效且无偏的修正统计量（序列匹配相似度）

迭代算法，不断的接近本征。贝叶斯公式是对概率的处理，是符合网络的层次结构的。通过重复使用贝叶斯定理，我们就能决定这些参数的分布，然后再决定这些超参数的分布。从原则上来说，我们可以用超－超－超参数求出超－超参数的分布，进而把这种层次分析引向深入，依次类推。这是会收敛的，如同泰勒级数分解的高阶导对模拟的作用不大

把昆虫分成几组，养在广口玻璃瓶里，然后用不同成分和不同剂量的杀虫剂来实验。在他做这些实验的过程中，发现了一个值得关注的现象：无论他配制的杀虫剂尝试有多高，在用药之后总会有一两只昆虫还活着；此外，无论他怎么稀释杀虫剂，即便只是用了装过杀虫剂的容器，试验结果也总会有几只昆虫死掉。(概率网络的表达，稳定性)

概率单位分析：建立了“杀虫剂的剂量”与“使用该剂量时一只虫子会死掉的概率”这两者间的关系。只能使用半衰期的类似概念：半数致死剂量”（50percentlethaldoes），通常用“LD-50”来表示，是指杀虫剂能以50%的概率杀死虫子的剂量。同时：对一只特定的用做实验标本的虫子，要确定杀死它所需要的剂量是不可能的。（这是网络的性质，只能从整体的统计寻找比较确定的关系）

随机过程定理，是序列水平的运算

概率是网络这个高维结构的不同层次之间的偏导即相对比例

中心极限定理：一切皆有分布。正态变量的各种类型的和与差也都服从正态分布。因此，由正态随机变量（variate）推演得出的许多统计量，其自身也服从正态分布。

运筹学，资源的最优化分配，这是层次的竞争达成均衡（本征）的离散状态，用正态分布去处理问题。

看上去是纯随机的测量值，实际上是由某个确定性的方程组生成的，即网络的选择性表达。问题是多重微分方程的耦合使得无法准确求解，我们最后还是需要通过统计来理解

构造出一种能对拟合优度进行检验的统计量，会服从一种概率分布，K?皮尔逊证明了无论用哪一种类型的数据，χ2拟合优度检验都服从相同的分布

假设检验（或者说显著性检验）是一种正规的统计方法，是在“待检验的假设为真”的假设前提下，用来计算以往观测到的结果发生的概率

使用显著性检验是为了得出三种可能的结论之一：

如果P值很小（通常小于0。01），他断言某种结果已经显现出来；若P值很大（通常大于0。2），他宣称即便真的存在一个结果，也会因为该结果发生的可能性太小，所以不可能有任何显示出这个结果的大规模的实验；如果P值介于前两者之间，他讨论了应该如何设计下一个实验，才能得到一个更好的结果。

区间估计值，确信总体参数的真值会落在所估计的区间里的概率，即置信区间

网络的幂律分布使得极端值出现的概率比较大，从而显著地影响了结果，导致“学生”t检验统计量的数值比正常情形下的数值更小（一般而言，大的t检验统计量对应着小的P值）。

需要将观测数据的散点图与纯随机分布所预期的情形进行比较--一种非参数检验，消除噪音

本征，收集到一个具有充分代表性的小样本，可以用来估计总体的特征

网络作为一个整体，可以分为几个相对独立的部分（这些层次之间还有一定的相似性，即是耦合关系的），其进一步的划分可能会有一定的重复。从数学原理上看，投入产出分析要求描述网络活动的矩阵必须存在唯一的逆矩阵，这意味着一旦获得了该矩阵，必须作为一个数学上“求逆矩阵”的去处。分类越细化，存在唯一的逆矩阵的概率越高，因为对现实的模拟程度不断加强

单一变量的影响是不牢靠的，只有在网络层次才能构建比较确定的相关性。网络的语言是概率，一定的路径需要序列的概率积累，这就在根本上否认了因果关系。多变量的影响，即贝叶斯公式运算的概率只有在宏观尺度才能被观测即频率。网络的众多参数永远不能确切地观测到，但它们彼此作用、互相影响

所有我们可以看到与接触到的东西，事实上只是真实世界的影子，而这个宇宙里真正能找到的真实事物，只能透过纯粹的理性来获得。概率网络的选择性表达是现实事物

在这个5000维的空间里，这些真实的数据并非分散分布，实际上趋向较低的维度空间。假设这些分散在三维空间的点，全都落在同一个平面甚至同一条线上（黎曼猜想？），这正是真实数据呈现的状态。每个临床研究病人的5000个观测值，不会毫无关联的呈分散状态，因为其中很多的测量值是彼此相关的。

医学研究上，数据的真正“维度”通常不会超过5。（网络的六度分隔，平均距离）

幂律分布和隐马尔科夫模型的相关性：通过寻找估计这个分布的中心趋势的方法确定独立层次（稳健性）：20世纪50年代耶鲁大学所做的一次试验，估计该校的毕业生10年后的收入情况。如果他们用平均值，那么收入是非常高的，因为有几个当时是千万富翁，但是，事实上，80%以上的毕业生平均收入均低于这个平均数

网络的辩证治疗，疾病的系统表达（充血性心脏衰竭不是一种普通的疾病。其病因不是一种简单的传染源，也不能通过阻断某种生化酶的通路而缓解。人体中荷尔蒙精巧地控制着心脏，调节其跳动的速度和收缩能力，以适应身体变化着的需求，但充血性心脏衰竭患者的心脏对这种调节的反应能力越来越差，患者的主要症状表现为心肌逐渐衰弱，心脏的肌肉变得越来越肥大、松弛。患者会因此而出现肺部和脚踝的水肿，轻微的运动都会导致他们呼吸困难。患者还会因进餐时胃部供血而造成的脑部供血不足而感到困倦和意识混乱。为保持体内平衡，病从的身体会自动调节以适应心脏能量输出的减少。对许多患者，调节心肌和其它肌肉变化的荷尔蒙会在某种稳定状态达到平衡。虽然就一般人来说，这样的荷尔蒙水平是不正常的。如果医生在治疗过程中使用了β肾上腺素收缩剂或钙离子隔断剂，结果可能使患者的情况变得更为复杂。肺部水肿是充血性心脏衰竭病人死亡人一个重要原因。现代医学依靠利尿剂这种药物可以使水肿得到缓解。然而，患者在使用了利尿剂后，为调节肾功能和心脏功能所导致的荷尔蒙的变化，又会因相互影响而造成新的难题）

当设计一项研究时，首先遇到的问题是要测量什么。在这个试验中的测量是多层次的，因此，其分布函数——这些函数的参数必须是可估计的，其构成也必须是多维的。

利维对中心极限定理的证明建立了一组更具有普遍意义的必要条件，这两个条件相当于有一组随机产生的一个接一个的数列：1。变异是有界的，因此个别值不可能是无穷大的，也不可能是无穷小的。2．下一个数字的最佳估计值必是它的前一个数值。利维称这样的数列为鞅，是隐马尔科夫模型的一个收敛，同时也是能量最低化的一个体现

病人的反应方式就是一个鞅。两个鞅之差仍然是鞅—线性系统

亚伯拉罕?棣莫弗将微积分引入概率计算

格利文科－坎泰利引理：可以通过增大观测值的数量，来使不那么美的经验分布函数（empiricaldistributionfunction）越来越接近真实的分布函数（傅里叶级数）

更加精确的测量反倒使模型预测值和实际观测值之间的差异变得更大，如同量子物理的不确定原理

概率分布是网络结构的低维投影

第四十七章网络的统计观念（1 / 1）