文档库 最新最全的文档下载
当前位置:文档库 › 对大数据视域下相关关系与因果关系的进一步探寻

对大数据视域下相关关系与因果关系的进一步探寻

对大数据视域下相关关系与因果关系的进一步探寻
对大数据视域下相关关系与因果关系的进一步探寻

对大数据视域下相关关系与因果关系的进一步探寻摘要:大数据的发展将如何看待相关关系与因果关系的问题摆上迫切位置,国内外多位学者对此进行深入思考,相互争鸣。大数据视域下的相关关系与因果关系更应被视为同级概念,统计概率因果关系为二者建立了一道桥梁。大数据研究不应止步于相关关系,对因果关系的追问应该不断延续下去,成为实现效益最大化的工具和科学进步的不竭动力。

关键词:大数据;相关关系;因果关系;统计概率因果

近年来大数据方法论研究领域中,相关关系与因果关系的关系与地位是一个讨论热点。其中,华南理工大学齐磊磊博士和江西财经大学黄欣荣教授的观点之争尤为引人注目。两位学者对于“大数据时代是否需要追问因果关系”等问题的思想交锋使得其后的研究者大受裨益,也引发了更多思考。此文尝试在此基础上对大数据视域下的相关关系与因果关系做进一步探讨。

一、两位学者的论述中关于相关关系与因果关系的部分

2015年,齐磊磊发表《大数据经验主义——如何看待理论、因果与规律》一文i,概括出大数据经验主义的3个特点,其中包括“大数据时代,因果性不存在了,由相关性来代替”,并进行了反驳。

此后,黄欣荣于2016年撰文《大数据主义者如何看待理论、因果与规律——兼与齐磊磊博士商榷》ii,认为大数据主义并不否定事物之间的因果性,只是不再一味坚持对因果性的追求。他列举牛津大学的访谈结果,表示对商业应用来说相关性就够了,但社科理论研究则仍需找到因果性。

齐磊磊又于2017年发表文章《由大数据引起的对因果与相关的讨论》iii,将相关细分为决定性因果、统计概率因果和非因果相关3种类型,认为统计概率因果是因果与相关之间的纽带,可以使传统科学哲学的方法论与大数据方法论相协调起来。

2018年,齐磊磊再次发表文章《大数据主义与大数据经验主义——兼答黄欣荣教授》,其中提到“不以寻找因果关系为目的的大数据研究是不彻底的。”iv

二、如何理解我们通常所讨论的“相关关系”内涵?

齐认为相关关系可分为6种:“(1)事件A直接引起事件B;(2)事件B直接引起事件A;(3)事件A引起事件B随后事件B引起事件A;(4)事件A引起事件C,而C又引起了事件B;(5)事件A以一定概率引起事件B和事件C;(6)非因果相关,例如数据收集。”其中,情况(1)至情况(4)反映的是决定论的因果关系,情况(5)是统计概率性因果。由此推出相关关系囊括了因果关系与非因果关系,只有在使用(5)(6)的概念时,对因果关系与相关关系的争论才是有意义的。其中(5)统计概率性因果的概念尤为重要,它属于因果关系,又不再纠结于拉普拉斯式的决定论因果。此时传统哲学与大数据主义者的争论便达成了统一。

虽然将因果关系划入相关关系范畴内可以避免争论,但采取这种分类方法意义不大。大数据热兴起后,学者们之所以开始重新审视因果关系,是因为在实践过程中发现很多时候只使用相关关系便可产生一些结论和效益,尤其在商业领域,因此宣称可以放弃探寻因果关系。从这一“取相关而舍因果”的背景可知,此时的相关关系指的应该是非因果相关(或至少未发现因果关系,可暂时视其为非因果相关),因果关系与相关关系是并列概念而非包含与被包含关系,否则就如同“白马非马”v一样流于诡辩论了。因此在大数据领域如何看待因果关系与相关关系这一命题中,相关关系指的并非广义上任何具有相互联系的对象或有序对,而是特指非因果相关关系。

三、统计概率因果与非因果相关如何界定?

齐认为统计概率因果有两种解释:“一种解释是它有多少概率成为原因,另一个是概率本身是一个结果或者原因”。它不属于拉普拉斯所

说的决定论因果,而是作为交集介于相关关系与因果关系之间。笔者赞同这种提法,但对这些范畴之间的关系进行进一步澄清(图1)。

图1突出统计概率因果的因果与相关关系图

从图中可以看出如果一个变量有很大可能性是导致另一个变量的原因(即齐所说的前一种概率因○1),那么把它视为因果关系的一种;如果二者仅仅是在概率上相关,只具有统计学意义而无引起与被引起关系(即后一种概率因○2),那么可视为相关关系。二者合起来被认识为统计概率因果。

进行这种切分是因为关于“作用力”的一个本质区别。考虑到对于因果关系与相关关系的争议主要集中于是否需要探究引起变量的原因,本文将两个变量间是否为“引起”与“被引起”关系作为划分标准。上个世纪中后期,罗素等人将因果关系视为作用力或守恒量的传递与转移。因为受到了来自传递者的作用力或守恒量(即原因),被传递者发生变化(即结果)。在统计因果相关中,前一种(○1)蕴含着“引起”与“被引起”的关系,因此可以被划入因果关系范畴;后一种(○2)其实是统计学上的共同出现机会,因此应划入相关关系范畴。

当对○1的概念进一步分析时,根据齐文“有多少概率成为原因”,有两种理解:a.该原因不一定导致该结果;b.导致该结果的不一定是该原因。

a.既然不一定会带来真实的因果效应,当现实中因果效应未发生,是否还要将其划入因果关系范畴?答案是肯定的。从内部机理来说,其中的传递者(原因)确实蕴含着能导致被传递者发生变化的原理,但由于现实中受其它因素影响而未发生变化,是多种因素相互抵消的结果,并不代表单一因素未发生作用(图2)。以力学为例:假如在平面上向某方向推一个物体,如受到平面摩擦力或反向推力的影响,该物体可能不

会位移甚至反向位移,但并不能否定该推力从本质上来讲是能导致物体向该方向位移的原因。

图2 多重作用力影响结果图

决定论的纯粹因果关系只是理想状态,现实中大部分事物都是由多种复杂因素相互纠缠、共同决定着的,从结果看未必符合某单一因素的作用原理,则因果效应的发生就成为一种概率性的结果。赖欣巴哈认为,不存在绝对因果律,一切逻辑真值均介于0 和1 之间,所有知识都带有概率性质。vi由于“概率”一词看上去随机性较强,似乎无因可溯,容易造成概念上的迷惑,可以使用“条件因”来指代第一种“概率因”。即该因果关系的发生不是随机的,而是取决于外部条件。如果条件不造成抵消影响,则该因果关系一定会发生。当设臵一个控制其它因素的对照组,该因素一定能够导致结果上的变化。

b.如果一个人患有高血压,原因可能是饮食重油盐、缺乏运动,也可能是性格暴躁,缺乏任一因素都未必影响此人患病的结果。这时,每个因素只是在一定概率上会成为患病原因。但就事物发展内部机理来说,单个因素仍存在致病的生物学依据及统计上的显著性。“统计学对因果关系表述为:在相等条件下,如果A发生,则B发生的概率提高,或者X变化导致Y平均值的变化。因果关系的必然性不表述为个体事件,而表述为群体概率或平均值和随机组试验的可重复性。”vii因此,这种关系也应划入因果关系范畴。

四、因果性与相关性孰轻孰重?

黄欣荣认为大数据时代要强调相关性,弱化因果性。理由如下:1.因果性属于相关性的一种。2.大数据不否定因果,只是不强调而已。3.海量数据使得寻找因果关系难度巨大。4.日常生活和商业领域中相关关系已足够。笔者对以上几点均持反对意见。

1.概念问题。前文已有论述。

2.因果关系的重要性问题。黄列举休谟和康德等人并未证明因果性存在的例子,以证明因果性是飘忽不定、不可捉摸的。但在大数据研究领域,人们对于相关性和因果性的探寻归根结底是为了指导实践,而并非仅限于哲学层面的论道。举例来说,假如以罗蒂viii的“绝对真理是不存在的”为理论依据来劝导各个领域在实践中不要探寻一些确定性、方向性的结论,将导致整个社会陷入一种悲观的虚无主义论调。

3.海量数据导致探寻难度问题。黄认为在海量数据中想要找到与某数据具有因果关系的另一个数据,难度之大令人咂舌,因此只能挖掘数据之间的宏观行为或相关关系。但这是将因果关系放到微观层面、相关关系放到宏观层面进行比较。因果关系所要研究的同样是基于对海量数据进行数据挖掘的结果,是宏观层面的分析推论;是要在相关关系的基础上进行进一步追问,那些跟踪收集数据的工作应该是在分析阶段之前完成的。因此这一点不具说服力。

4.日常和商业领域的关系研究问题。黄举例:每到大学开学季银行卡销量都会大增,于是有些商家提前将卡寄给新生,由此可看出商家只需把握好相关关系即可,因果关系要留给学者去探讨。笔者认为,商家能抢占竞争先机恰是因为发现了新生入学与用卡需求间不可臵疑的因果关系。这种关系如此外显以至于不需思考便可确定其真实性。但假如是不具备这样外显因果内涵的相关关系呢?比如某个开学季空调销量增加,销售方案里应该更多考虑开学季还是当年气温因素?在找出因果链条之前恐怕很少有商家贸然将相关关系作为后期销售指南。

“追求相关性必须是非常审慎的,因为统计学意义上的相关有很多种,比如伪相关或虚假相关、偶然相关等。”“其实这也恰恰证明了因果性存在的价值以及研究因果关系的必要性。”ix单纯的相关关系研究难以被广泛应用,更不具有科学说明意义。相关性统计得到的结论是否可靠、是否能够推广还需进行因果分析来论证。在追求利益最大化的商业领域尚且如此,对事关全人类福祉的科学领域来说更莫不如是。关于“为什么”的好奇和探寻是接近事物本质、获得最大利益的根本方法,是支撑过去数千年来人类科学文明发展进步的不竭动力,有理由相信它在未来也依然不会泯灭。

i齐磊磊.大数据经验主义——如何看待理论、因果与规律[J].哲学动态,2015(7):89-95.

ii黄欣荣,大数据主义者如何看待理论、因果与规律——与齐磊磊博士商榷[J].理论探索

,2016(6):33-39.

iii齐磊磊,由大数据引起的对因果与相关的讨论[J].自然辩证法研究,2017(5):92-96.

iv齐磊磊,大数据主义与大数据经验主义——兼答黄欣荣教授[J].山东科技大学学报(社会科

学版),2018(2):16-21.

v“白马非马”是中国古代著名逻辑问题,出自《公孙龙子〃白马论》,过分夸大“个别”

和“一般”之间的区别。

vi H.赖欣巴哈.科学哲学的兴起[M].伯尼,译.北京:商务印书馆,2009.

vii彭玉生,社会科学中的因果分析[J].社会学研究,2011(3):9.

viii美国哲学家,新实用主义哲学的主要代表人物之一。

ix董春雨、薛永红,从经验归纳到数据归纳:特征、机制与意义[J].自然辩证法研究

,2016(5):14.

相关关系和因果关系精编

相关关系和因果关系精 编 Document number:WTT-LKK-GBB-08921-EIGG-22986

相关关系和因果关系 今天在一本杂志上面看到一个小短篇《左撇子更能赚钱》,想要说明的是一些科学家进行了一些研究,然后发现左撇子赚的钱平均值比习惯用右手的人高10%,并且举出了克林顿和洛克菲勒作为例子。 我想这篇文章的作者是混淆了两个因素之间的相关关系和因果关系。所为因果关系,是指某个因素的存在一定会导致某个特定结果的产生。而相关性是统计学上的一个概念,是指某个因素的变化会导致另外一个因素的变化,但是这个因素的变化是不是另外一个因素变化的原因,是不能被确定的。打个也许不是很恰当的比方,天气冷和下雪。下雪的时候通常会伴随着气温的下降,但是究竟是气温下降导致了下下雪呢,还是下雪导致了气温下降,这是需要进一步研究的。 那再回到这个列子来看一下:“因为是左撇子,所以更能赚钱”这个论点能够成立吗显示从目前的数据来看,还是不成立的。要不然,岂不是所有的CEO们在读MBA之前,先把自己培养成左撇子不就可以了

--------------------------------- 相关性:我们在观察某个研究对象时,如果发现,它的变化总是与另一个对象的变化同步,那我们就说这两者是相关的。教科书中对相关性含义的解释是,变量A的变化总是伴随变量B的变化,则说A和B是相关的。 需要注意的是:教科书的解释中,用的是伴随。如果说变量A的变化,总是引起变量B的变化,则它们不仅有相关性,而且这种相关性是由于它们之间存在一种因果关系。 “伴随”和“引起”有什么区别呢请看下面的例子。 夏天,太阳镜的销售量和雪糕的销售量是存在相关性的,但是,这不是说因为太阳镜卖多了,雪糕就会卖的多。它们呈相关关系,仅仅是因为它们受同一因素——日光辐射强度——的影响。它们都是日光辐射强度的共同的果。 不存在因果关系,但存在相关性,还可能是因为偶然原因,或者因为各种条件下限制,掌握的信息不全所致。

因果关系与蕴含

因果连结与蕴含 在数学和逻辑学中,我们使用符号“∵,∴”或者应用语句连接词“因为…,所以…”时所表达的含义实际上与蕴含相一致,“因为P,所以Q”可以直接看作“如果P,那么Q”或者“P→Q”,相应地,以必要条件、充分条件、充分必要条件、大前提、小前提完全取代了因果这对哲学范畴。在逻辑学和数学中没有因果连结。 特意将哲学同逻辑学作出区分并非独创,而且这种区别在因果转化为蕴含这一过程中表现得尤为明显。因果范畴这对古老的哲学范畴没有被吸收在逻辑学中或者说被轻率的以蕴含代替理应引起人们的足够警觉和疑问,这种“取消”和代替是合理的吗? 由于逻辑学和哲学承当着回答问题的任务,所以在回答问题时使用了逻辑论证,那么这段逻辑论证对答案的合理性应当负有责任。我们相信一个答案是合理的,因为我们使用了正确的逻辑演绎推理,问题在于:逻辑本身的合理性由什么得到保证?比如人们怀疑这么一句话:如果诗是为姑娘写的,那么2+2=4。它是合理的吗?根据蕴含析取等值律:(P→Q)←→(¬PⅤQ)也即蕴含语句的正确性可以转嫁给前件和后件各自的正确性,而不包含前件与后件的联系。我们可以看到只要后件为真,P→Q就永远成立,而不管其前件究竟为何,它是否可能存在,是否可能正确,是否与Q有关均不能影响整个推断的给出。当然,在任何前件给出之前,已经得知后件的正确性意味着后件是一个无条件成立的真理,(否则我们何以知道它的正确性?)例如“2+2=4,¬(P→Q)←→P&¬Q”等等。幸好我们利用逻辑乃是为了得知一个某条件下才能确立的真理,所以在一段逻辑论证中,前件与后件缺少关联的这种古怪证明从未出现过。例如要求某个学生证明一个无条件成立的数学定理实际上以他所学过的数学公理全部正确为前提,虽然这个定理是无条件的,但该学生在证明之前却不能这样认为,他必须从以往所学的数学知识出发得到这个定理,然后说因为他所用的都是无条件成立的数学公理并且在证明过程中没有引入其它限制条件,所以这个定理也是无条件的。与蕴含在逻辑学中的地位相似,因果连结在哲学中也具有着举足轻重的地位,询问事物(现象)出现的原因,可以有本质原因、内因、外因等等,可以说对事物原因的寻求导致了哲学、自然科学及其附属学科的出现。 米利都学派最先开始探索什么是世界的本原,到了亚里士多德那里,他对在他以前的古希腊哲学中关于本原的思想进行了一次较为全面的总结,在此基础上提出了四因说,形成了他对本原问题的看法,所谓四因,就是:1)“事物所由产生的,并在事物内始终存在的东西”;2)“形式或原型,亦即表述出本质的定义,以及它们的…类?”;3)“变化或静止的最初源泉”;4)“终结、目的”。简言之,即质料因、形式因、动力因和目的因。在此后漫长的岁月中,人们肆无忌惮地或者说麻痹大意地将因果连结用于逻辑推理之中,并将逻辑推理认作不可置疑的以至于人们不能确认地球的质量是否是地球产生磁场的原因,却能够确认某段逻辑证明或数学证明是无懈可击的。这样我们希望,可以从原因(地球的质量)开始运用逻辑推理得到结果(地球产生磁场)那么,我们就可以不花代价地得到关于客观世界的确定无疑的知识。例如用逻辑推理推知上帝的存在与否等等。这一门学问在黑格尔辨证法出现以前被称作“形而上学”而与形而下的学问区分开来的原因就在于此。强调思辩和理性而忽视人的认识过程。康德说:“这个体系(科学的形而上学体系)不根据任何材料,同时也不依靠任何事实,而只根据理性本身,力求从理性原始萌芽中开展出知识来。”①康德说这番话乃是受了休谟的刺激,因为休谟带给这门学问致命的打击,他对这种无庸置疑的“因为…,所以…”或者“如果…,那么…”的推断提出疑问,即:是什么保证了这种无庸置疑的因果连结(蕴含或推断)呢?——尤其是在我们对真实事物、现象的原因并不确知的情况下? 休谟的疑问因其答案难以让人接受而使疑问本身被程度不等的误解,并受到诸多指责。当历史进行到形而上学必须向形而下学臣服的时代,出现休谟的疑问理应受到极大重视和得到正面回答。自然科学、社会学、经济学以及心理学、人类学的研究先后从哲学中脱离出来并各自获得长足的进步。如果说康德在他那个时代感到牛顿力学的巨大压力而不得不寻求形而上学自身的合理性,那么整个二十世纪,尤其是二十世纪的

最新相关关系和因果关系资料

相关关系和因果关系 今天在一本杂志上面看到一个小短篇《左撇子更能赚钱》,想要说明的是一些科学家进行了一些研究,然后发现左撇子赚的钱平均值比习惯用右手的人高10%,并且举出了克林顿和洛克菲勒作为例子。 我想这篇文章的作者是混淆了两个因素之间的相关关系和因果关系。所为因果关系,是指某个因素的存在一定会导致某个特定结果的产生。而相关性是统计学上的一个概念,是指某个因素的变化会导致另外一个因素的变化,但是这个因素的变化是不是另外一个因素变化的原因,是不能被确定的。打个也许不是很恰当的比方,天气冷和下雪。下雪的时候通常会伴随着气温的下降,但是究竟是气温下降导致了下下雪呢,还是下雪导致了气温下降,这是需要进一步研究的。 那再回到这个列子来看一下:“因为是左撇子,所以更能赚钱”这个论点能够成立吗?显示从目前的数据来看,还是不成立的。要不然,岂不是所有的CEO们在读MBA之前,先把自己培养成左撇子不就可以了? ---------------------------------

相关性:我们在观察某个研究对象时,如果发现,它的变化总是与另一个对象的变化同步,那我们就说这两者是相关的。教科书中对相关性含义的解释是,变量A的变化总是伴随变量B的变化,则说A 和B是相关的。 需要注意的是:教科书的解释中,用的是伴随。如果说变量A的变化,总是引起变量B的变化,则它们不仅有相关性,而且这种相关性是由于它们之间存在一种因果关系。 “伴随”和“引起”有什么区别呢?请看下面的例子。 夏天,太阳镜的销售量和雪糕的销售量是存在相关性的,但是,这不是说因为太阳镜卖多了,雪糕就会卖的多。它们呈相关关系,仅仅是因为它们受同一因素——日光辐射强度——的影响。它们都是日光辐射强度的共同的果。 不存在因果关系,但存在相关性,还可能是因为偶然原因,或者因为各种条件下限制,掌握的信息不全所致。例如,今年流行一个说法,说汶川大地震、海地大地震和智利大地震的日期,横排、竖排都是那三个日期。 这其实就是一种巧合。如果我们收集近几年发生的地震的日期,

莫把数据的相关性当成因果关系

龙源期刊网 https://www.wendangku.net/doc/a76031683.html, 莫把数据的相关性当成因果关系 作者:董晓静 来源:《支点》2016年第04期 核心提示:不要将相关性当作因果关系去指导决策,这一区别的重要性在大数据时代显得更为突出。 大数据时代,很多商学院都会讲到这个经典案例:沃尔玛发现啤酒和尿布的销售量是相关的,但究竟是因为啤酒销量增高导致尿布销量增高,还是反过来?沃尔玛不需要做太深入的研究,有了相关性的分析结果,就足以把啤酒和尿布放在一起卖,从而提高销量。 这个成果非常有意思,但没有理论根据。换句话讲,相关性可以不需要理论支持,只需要用统计学的方法描述数据。这样的结果,在很多时候非常有用,但如果把相关性当成因果关系来指导决策,可能就会有害。 不妨再看看下面几个例子。 在日常生活中,我们经常听到有的妈妈说,“我一定要把孩子送到那个补习班,那个补习班的孩子很多都考上好大学了。”这句话背后隐含着一个观察分析结果:去这个补习班的孩子,比不去的考上好大学的多得多。 这个结论就源自简单的相关性分析,但这位家长可能犯下一个错误:把相关性分析当作因果关系,进而据此决策。其实,上这个补习班只是那些孩子考上好大学的其中一个原因(相关数据),两者之间是否构成因果关系,需要更复杂的分析,仅一个相关系数远远不够。 再举一个例子。去年在美国的很多新闻媒体报道过一篇论文,论文作者分析了14万篇学术论文后,通过相关性分析发现题目比较短的论文更容易被引用。作者认为他们用了大数据,对此,我提出两点。 第一,大数据在这里是帮助他们找出结论,还是“害”了他们呢?在统计学中,衡量统计结果是不是比较确定,需要计算这个统计结果的方差。方差的大小跟数据量大小有关,当所有其他条件一样时,数据量越大,方差值越小,统计结果的确定性越大,包括错误的结果。也就是说,作者利用大数据得到了比较确定的相关系数的结果,但可能还有很多变量之间的相关系数比较高。除了标题长短,是不是文章长短、图表应用等因素都相关呢? 第二,这个结果完全靠相关系数得到,同前面补习班的例子一样,不能当作因果关系来指导决策。如果一篇文章的标题短被引用得多,另一篇文章标题长被引用得少,没有任何意义,两篇文章本就不同。

因果关系与逻辑推理

因果关系与逻辑推理 摘要:哲学上把因果关系定义为“引起”和“被引起”的关系,现实中能够用“因为……所以……”表述的关系并不都是因果关系。逻辑推理中的“条件和结论”与现实中的“原因和结果”必须给予严格区分,复杂因果关系是“基本因果关系”的复合,电源、开关、灯泡三个“元件”串联而成的电路可以作为基本“因果关系模型”。原因与结果都是动态的,开关的“开”与灯泡的“亮”之间具有因果关系,而不是开关与灯泡具有因果关系。寻找可能的原因(现象)是逻辑推理,可能的原因现象有“并联”和“串联”两类,并联现象中只要有一个发生结果就会发生,串联现象必须全部发生结果才会发生。“时间”参数的有无是因果关系与逻辑推理的根本区别。并联现象中最先“成就”的那一个是结果发生的“原因”,而串联现象中最后“成就”的那一个是结果发生的“原因”。原因和条件的区别全在于出现的时间不同。在此基础上,内部原因和外部原因、主要原因和次要原因、根本原因和一般原因、直接原因和间接原因、偶然原因和必然原因等,都可以作出合理解释。 关键词:因果关系原因和条件内外因关系逻辑方法 破坏分子发现炸药仓库的守护卫兵在后半夜两次交接班时警惕性较差,遂利用这一疏漏,接近仓库点燃引爆物引发仓库爆炸,使国家财产遭受重大损失。 破坏分子“点燃”引爆物的行为无疑是仓库“爆炸”的原因。有人认为,保卫工作的“疏漏”也是“爆炸”事件发生的重要原因。还有人

根据内外因原理认为,“炸药能够爆炸”(具有爆炸的性能)是内因,破坏分子“点燃”引爆物是外因。内因是根本的、决定性的原因。如果仓库内存放的只是一堆石子而没有炸药,就不会出现爆炸的结果。这一说法看似可笑,但与毛泽东所说的“温度不能使石头变成小鸡”的例子是颇为类似的。 人们普遍认识到,现实中的因果关系是复杂的,存在“一因一果、一因多果、多因一果、多因多果”等情况。人们还从不同的角度把原因分为“直接—间接、主要—次要、重要—一般、偶然—必然”等等。但由于这些划分标准没有给予严格界定,这就引起许多不必要的争议。本文试图通过对概念进行严格定义,建立起“基本因果关系模型”,并以此为基础对复杂因果关系作出解释。 一、基本因果关系模型 哲学上把现象和现象之间那种“引起和被引起”的关系,叫做因果关系,其中引起某种现象产生的现象叫做原因,被某种现象引起的现象叫做结果。但在现实生活中,人们对“引起”和“被引起”却有大不相同的看法,结果出现了许多复杂的因果关系表述形式。但是表述越是复杂,越容易出现模糊和混乱,给科学地认识因果关系造成困难。所以对因果关系,学界至今还没有建构起比较完整的理论框架。 笔者以为,要想在因果关系研究上有所突破,应当借用数理逻辑的思想,从基本假设和定义出发,建构起“基本因果关系模型”(理论),以此为基础对复杂因果关系给予解释。 作为建构模型基础的基本假设和定义,都必须从现实世界中归纳出来。

疑读《大数据时代》 6 -- 相关关系与因果关系的辩证

相关关系与因果关系的辩证 --疑读《大数据时代》6 By唐人 《大数据时代》给出的大数据时代的第三个特征,是“不是因果关系,而是相关关系”。无论是因果关系还是相关关系,在书中都是指两个变量之间的关系,是数据中最简单的关系。 因果关系与相关关系有什么关系?为什么“不是因果关系而是相关关系”?所谓“不是因果关系而是相关关系”有什么问题吗? 相关关系之重要性 首先谈谈为什么是相关关系,谈谈大数据时代相关关系的重要性。 迈尔大叔用亚马逊的图书推荐系统,引出了相关关系的重要性,因为这个相关关系,成为线上商城在向浏览网页的网友推荐有关商品的基本算法。我们通常把这种根据相关关系推荐的商品称为关联商品。 地球人基本上都知道这种相关关系:如果购买商品A的消费者中有相当部分也购买了商品B,那就可以认为商品A和B是相关联的,所以当再有消费者购买商品A时,就向他推荐商品B。 迈尔大叔对相关关系的评价是:“关联物,预测的关键”。他说:“知道‘是什么’就够了,没必要知道‘为什么’。在大数据时代,我们不必非得知道现象背后的原因,而是要让数据自己‘发声’。” 随之又列举了沃尔玛将蛋挞与飓风用品放在一起销售的案列。在这个例子里,蛋挞与飓风用品一起购买的关联行为就是“是什么”,迈尔大叔认为没有必要探究为什么飓风来了美国人民喜欢吃蛋挞。

你认为有必要知道“为什么”吗?我认为,至少没有必要说“没有必要知道为什么”。 另外,在预测分析中更多应用的不是简单的两个变量之间的相关关系,而是一组变量与某个变量之间的相关关系。关于这一点,迈尔大叔基本上没有解释,只是在某些案列里用十分惊讶的语气进行了感叹,如在例举美国个人消费信用评估公司“遵从医嘱评分”时介绍说:它分析一系列的变量来确定这个人是否会按时吃药,包括一些看起来有点怪异的变量。比方说,一个人在某地居住了多久,这个人结婚了没有,他多久换一个工作以及他是否有私家车。 事实上,美国个人消费信用评估公司使用了多个在迈尔大叔看起来非常奇怪的变量来预测一个人是否会按照医嘱吃药。接下来连续介绍的益佰利的个人收入评分、Aviva的健康预测模型、还有塔吉特的怀孕预测等,都不是简单的相关关系分析。而是更加复杂的多元回归分析。其中最可能使用的分析方法应该是一种被称为Logistic Regression的分析方法。 从迈尔大叔对这些案例以及其他相关案例的描述来看,他很可能并不太了解这样的分析方法。 为何不是因果关系? 因果关系就是对相关关系问个为什么。我们来看看为什么迈尔大叔说是“不是因果关系”。 首先是没有必要知道:大数据却显示,还有另外一个在某些方面更有用的方法。亚马逊的推荐系统梳理出了有趣的相关关系,但不知道背后的原因。知道是什么就够了,没必要知道为什么。 这句话说白了,就是机器分析发现了两个变量之间的相关性,那就足够做关联商品推荐了,你用不着去分析为什么它们是关联的。 另一个“不是因果关系”的原因,则有点难以理解。迈尔大叔说: 专家们还会使用一些建立在理论基础上的假想来指导自己选择适当的关联物。这些理论就是一些抽象的观点,关于事物是怎样运作的。然后收集与关联物相关的数据来进行相关关系分析,以证明这个关联物是否真的合适。如果不合适,

相关关系和因果关系

相关关系和因果关系 实战型能落地大数据营销/管理专家-黄俭老师简介: 滨江双创联盟荣誉理事长;上海蓝草企业管理咨询有限公司首席讲师;多家知名企业特聘高级管理顾问。 黄老师多年在企业管理、公司战略规划、市场营销、品牌建设、员工管理、绩效考核、上市公司等等方面有着丰富的实践经验;深刻理解了东西方管理精髓。进入培训教育行业,作为资深培训讲师,在企业内训课、公开课、CEO总裁班等百余家企业和大学课堂讲授战略管理、营销管理、品牌管理等领域专业课程,结合自身的企业实践和理论研究,开发的具有知识产权的一系列新营销课程收到企业和广大学员的欢迎和热烈反馈。听黄老师上课,可以聆听他的职场经历,分享他的成绩,干货多多!课程突出实用性、故事性、新鲜性和幽默性。宽广的知识体系、丰富的管理实践、积极向上、幽默风趣构成了独特的教学培训风格,深受听众欢迎。通过一系列销售案例剖析点评,使销售管理人员掌握一些管理先进理念,分析技巧、提高解决问题的能力。黄老师近期培训的东风汽车-商用车公司,华东医药公司的销售团队在培训后,销售业绩有了20%提升。 擅长领域:战略管理/领导力系列/ 经典营销/新营销/大数据营销 授课风格:采用情景式教学法,运用相关的角色模拟和案例分析诠释授课内容,理论与实战并举,侧重实战,结合视听教材,帮助学员在理论基础与实践应用方面全面提升。广大的学员认为授课风格为:幽默风趣、条理清晰、实战、理论联系实际。 主讲课程:

《电话营销技巧》《杰出的房地产销售》《如何做好一流的客户服务》 《电子商务与网络营销》、《销售流程与技巧》、《大客户营销》、《顾问式销售》、《如何成为成功的房产销售员》、《总经理视角下的营销管理》、《非营销人员的营销管理》、《如何塑造成功的电子商务品牌》,《精准数据营销实战》、《卓越营销的营销策划》、《打造双赢关系营销》、《卓越客户服务及实战》、《海外市场客服及实务》 一、什么是相关性 “万物皆有联”,是大数据一个最重要的核心思维。 所谓联,这里指的就是事物之间的相互影响、相互制约、相互印证的关系,这种关系就叫做相关关系,就是我们常说的相关性。 简单地说,如果有两个事物,当一个事物发生变化时,另一个事物也随着发生规律变化,我们就说这两个事物存在相关性。 世界上的所有事物,都会受到其它事物的影响。 比如,产品的销量是受到各种因素的影响的,比如产品价格、品牌、质量、售后服务等等,这些因素都会对产品销量有着直接的影响。 又比如,产品的价格是受到供求状况的影响和制约的。供给增加,价格就相对下降;供给减少,价格就相对上升。 再比如,在生活中,我们经常会遇到下面的情况: HR经常会问:影响员工离职的原因是什么? 销售人员会问:哪些要素会促使客户选择某产品? 营销人员会问:影响客户流失的关键因素有哪些? 销售主管会问:影响产品销量下降的原因有哪些? …… 所有上述类似的这些业务问题,转化为数据问题,都可以是相关性的问题。

对大数据视域下相关关系与因果关系的进一步探寻

对大数据视域下相关关系与因果关系的进一步探寻摘要:大数据的发展将如何看待相关关系与因果关系的问题摆上迫切位置,国内外多位学者对此进行深入思考,相互争鸣。大数据视域下的相关关系与因果关系更应被视为同级概念,统计概率因果关系为二者建立了一道桥梁。大数据研究不应止步于相关关系,对因果关系的追问应该不断延续下去,成为实现效益最大化的工具和科学进步的不竭动力。 关键词:大数据;相关关系;因果关系;统计概率因果 近年来大数据方法论研究领域中,相关关系与因果关系的关系与地位是一个讨论热点。其中,华南理工大学齐磊磊博士和江西财经大学黄欣荣教授的观点之争尤为引人注目。两位学者对于“大数据时代是否需要追问因果关系”等问题的思想交锋使得其后的研究者大受裨益,也引发了更多思考。此文尝试在此基础上对大数据视域下的相关关系与因果关系做进一步探讨。 一、两位学者的论述中关于相关关系与因果关系的部分 2015年,齐磊磊发表《大数据经验主义——如何看待理论、因果与规律》一文i,概括出大数据经验主义的3个特点,其中包括“大数据时代,因果性不存在了,由相关性来代替”,并进行了反驳。 此后,黄欣荣于2016年撰文《大数据主义者如何看待理论、因果与规律——兼与齐磊磊博士商榷》ii,认为大数据主义并不否定事物之间的因果性,只是不再一味坚持对因果性的追求。他列举牛津大学的访谈结果,表示对商业应用来说相关性就够了,但社科理论研究则仍需找到因果性。 齐磊磊又于2017年发表文章《由大数据引起的对因果与相关的讨论》iii,将相关细分为决定性因果、统计概率因果和非因果相关3种类型,认为统计概率因果是因果与相关之间的纽带,可以使传统科学哲学的方法论与大数据方法论相协调起来。

因果关系成立的三大条件

因果关系成立的三大条件 怎样判断事物间有因果关系?一般认为,两事物之间因果关系成立的条件是:(1)从发生顺序上,因在前,果在后(temporal order);(2)它们之间有关联(association)或者说共变(co-variation)的关系;(3)必须排除其他可能用于解释结果的因素(elimination of spuriousness)。现分别来说明。 先说时间顺序。假如我们认为两事物之间存在因果关系,而现在需要确定孰是因,孰是果。经验告诉我们,只有发生在先的事物才可能是因,时光倒逆只是幻想。时间先后顺序说不清而无法断定孰是因孰是果的,两者有可能互为因果。如贫困与多生多育的关系。多生多育也许是贫困的原因,然而后者未尝不是前者的原因。因为穷,所以想多生一些孩子以增加劳力、摆脱困境。 时间顺序是因果关系的必要条件,但并非充分条件。把凡是发生在先的就作为因,显然大谬不然。如我在屋子里打了个喷嚏,外面紧跟着就响了个雷。能说我的喷嚏引起了打雷吗?不能。有个男的骑车摔骨折了,一查原来是家里前一天未给供奉的菩萨烧香。这未免荒谬。尽管如此,仍然有不少人错把时间顺序当作因果关系成立唯一的条件。 再说关联。关联就是通常所说的“相关性”(co-relation)。当自变量引起因变量的变化时,两个变量之间有一种恒定的联系,也就是说,自变量方面的每一个变化都引起因变量相应的、可以预见的变化。如果研究表明,每当我们改变事物的一个方面,事物的另一个方面就出现可以预见的变化时,我们就会考虑前者是否导致了后者。假设我们在不同的情景和条件下,重复同一项研究(如实验),这种共变关系总是保持不变,我们对当初的判断就更有信心了。 两事物之间的共变关系有方向和强度的问题。当自变量的值上升、因变量的值也相应上升时,两者呈正向的联系;而当前者上升、后者下降时,两者呈负向的联系。联系的强度说明共变的显著性。方向和强度都可用统计学中的相关系数来表示,可用统计软件进行计算。相关系数数值的范围是-1至+1之间,越向两端,强度越大;正号表示正向的联系,负号表明是负向的联系,零表示没有联系。 必须注意,两事物之间的共变关系并非一定是因果关系。许多共变的事物之间并无因果关系。有人说,他家不能喝椰子汁,一喝椰子汁就出事,如丢东西,孩子生病等,因此家中现在决不喝椰子汁。这未免可笑。在很多时候,有高度相关的两件事情其实风马牛不相及。比如,美国婴儿腹泻发病率与南部各州柏油路路面的粘滞度呈高度相关。再比如,在上世纪60和70年代,印度儿童的出生率和美国人使用美国造汽车的比率呈高度相关。细究类似的相关,发现极有可能是其他因素参与其中,如婴儿腹泻发病率和柏油马路粘滞度的相关显然与气温变化有关。 像时间顺序一样,共变关系是因果关系的必要条件,但却也不是充分条件。必要条件,顾名思义,指的是事件发生必须具备的条件。如,必须是成熟的女性才能怀孕。然而仅仅是成熟的女性并不就能怀孕。怀孕还需要一个充分条件。充分条件

因果关系—司考真题答案解析(2015-2-1)

因果关系—司考真题答案解析(2015-2-1)关于因果关系,下列哪一选项是正确的?() A.甲跳楼自杀,砸死行人乙。这属于低概率事件,甲的行为与乙的死亡之间无因果关系 B.集资诈骗案中,如出资人有明显的贪利动机,就不能认定非法集资行为与资金被骗结果之间有因果关系 C.甲驾车将乙撞死后逃逸,第三人丙拿走乙包中贵重财物。甲的肇事行为与乙的财产损失之间有因果关系 D.司法解释规定,虽交通肇事重伤3人以上但负事故次要责任的,不构成交通肇事罪。这说明即使有条件关系,也不一定能将结果归责于行为 【正确答案】 D 【答案解析】选项A错误。认定因果关系,意味着将结果归属于某个实行行为。实行行为本身是具有造成法益侵害结果危险的行为,所以,因果关系的发展过程,实际上是危险的现实化过程。在进行因果关系的认定时,仅仅确定行为与结果之间具有关联还不够,还必须证明危害结果是这个实行行为的危险的现实化。因此,只要行为给被害对象造成或提升了被法律所不能允许的风险并引起了危害结果的发生,即可认定二者存在因果关系,至于危害行为发生的概率,不影响因果关系的判断。 选项B错误。在集资诈骗案中,“诈骗方法”表现为行为人采取虚构集资用途,以虚假的证明文件和高回报率为诱饵,骗取集资款。出资人有无贪利动机并不是本罪的因果关系需要考虑的内容。除非被害人明知行为人实施诈骗而出于其他原因继续交付,此时则无因果关系。 选项C错误。甲的肇事行为与乙的财产损失之间介入了第三人丙的独立行为,这一介入行为并不是交通肇事行为通常会导致的行为,即介入因素很异常。因此,丙的盗窃行为与乙的财产损失之间有因果关系。

选项D正确。认定因果关系不等于认定刑事责任,还要看行为人是否具有刑法所要求的相关构成要件,最后得出是否构成犯罪的结论。按照司法解释规定,因交通违章造成死亡1人或者重伤3人以上的,只有认定行为人承担全部或者主要责任时,方可构成交通肇事罪。因此,负次要责任的,对肇事行为不承担刑事责任。 欢迎考生关注法律教育网司法考试官方微信(chinalawedu_com)、手机网(https://www.wendangku.net/doc/a76031683.html,/)随时关注司考信息! 精彩链接: 法律教育网官方国家司法考试QQ群 法律教育网2015年司法考试优秀学员高分榜 2015年司法考试成绩查询网校辅导捷报频传 2016年司法考试网上辅导特色班/精品班/实验班/定制班火爆热招 2015年司法考试优秀学员经验交流活动嘉宾招募通知 精彩推荐:司法考试移动班每日一练司法考试真题在线模拟考场司法考试电子书

“因果关系”与逻辑推理

“因果关系”与逻辑推理 摘要:哲学上把因果关系定义为“引起”和“被引起”的关系,现实中能够用“因为……所以……”表述的关系并不都是因果关系。逻辑推理中的“条件和结论”与现实中的“原因和结果”必须给予严格区分,复杂因果关系是“基本因果关系”的复合,电源、开关、灯泡三个“元件”串联而成的电路可以作为基本“因果关系模型”。原因与结果都是动态的,开关的“开”与灯泡的“亮”之间具有因果关系,而不是开关与灯泡具有因果关系。寻找可能的原因(现象)是逻辑推理,可能的原因现象有“并联”和“串联”两类,并联现象中只要有一个发生结果就会发生,串联现象必须全部发生结果才会发生。“时间”参数的有无是因果关系与逻辑推理的根本区别。并联现象中最先“成就”的那一个是结果发生的“原因”,而串联现象中最后“成就”的那一个是结果发生的“原因”。原因和条件的区别全在于出现的时间不同。在此基础上,内部原因和外部原因、主要原因和次要原因、根本原因和一般原因、直接原因和间接原因、偶然原因和必然原因等,都可以作出合理解释。关键词:因果关系原因和条件内外因关系逻辑方法破坏分子发现炸药仓库的守护卫兵在后半夜两次交接班时警惕性较差,遂利用这一疏漏,接近仓库点燃引爆物引发仓库爆炸,使国家财产遭受重大损失。破坏分子“点燃”引爆物的行为无疑是仓库“爆炸”的原因。有人认为,保卫工作的“疏漏”也是“爆炸”事件发生的重要原因。还有人根据内外因原理认为,“炸药能够爆炸”(具有爆炸的性能)是内因,破坏分子“点燃”引爆物是外因。内因是根本的、决定性的原因。如果仓库内存放的只是一堆石子而没有炸药,就不会出现爆炸的结果。这一说法看似可笑,但与毛泽东所说的“温度不能使石头变成小鸡”的例子是颇为类似的。人们普遍认识到,现实中的因果关系是复杂的,存在“一因一果、一因多果、多因一果、多因多果”等情况。人们还从不同的角度把原因分为“直接—间接、主要—次要、重要—一般、偶然—必然”等等。但由于这些划分标准没有给予严格界定,这就引起许多不必要的争议。本文试图通过对概念进行严格定义,建立起“基本因果关系模型”,并以此为基础对复杂因果关系作出解释。一、基本因果关系模型哲学上把现象和现象之间那种“引起和被引起”的关系,叫做因果关系,其中引起某种现象产生的现象叫做原因,被某种现象引起的现象叫做结果。但在现实生活中,人们对“引起”和“被引起”却

“因果关系”与逻辑推理

“因果关系”与逻辑推理 “因果关系”与逻辑推理 摘要:哲学上把因果关系定义为“引起”和“被引起”的关系,现实中能够用“因为……所以……”表述的关系并不都是因果关系。逻辑推理中的“条件和结论”与现实中的“原因和结果”必须给予严格区分,复杂因果关系是“基本因果关系”的复合,电源、开关、灯泡三个“元件”串联而成的电路可以作为基本“因果关系模型”。原因与结果都是动态的,开关的“开”与灯泡的“亮”之间具有因果关系,而不是开关与灯泡具有因果关系。寻找可能的原因(现象)是逻辑推理,可能的原因现象有“并联”和“串联”两类,并联现象中只要有一个发生结果就会发生,串联现象必须全部发生结果才会发生。“时间”参数的有无是因果关系与逻辑推理的根本区别。并联现象中最先“成就”的那一个是结果发生的“原因”,而串联现象中最后“成就”的那一个是结果发生的“原因”。原因和条件的区别全在于出现的时间不同。在此基础上,内部原因和外部原因、主要原因和次要原因、根本原因和一般原因、直接原因和间接原因、偶然原因和必然原因等,都可以作出合理解释。 关键词:因果关系原因和条件内外因关系逻辑方法

破坏分子发现炸药仓库的守护卫兵在后半夜两次交接班时警惕性较差,遂利用这一疏漏,接近仓库点燃引爆物引发仓库爆炸,使国家财产遭受重大损失。 破坏分子“点燃”引爆物的行为无疑是仓库“爆炸”的原因。有人认为,保卫工作的“疏漏”也是“爆炸”事件发生的重要原因。还有人根据内外因原理认为,“炸药能够爆炸”(具有爆炸的性能)是内因,破坏分子“点燃”引爆物是外因。内因是根本的、决定性的原因。如果仓库内存放的只是一堆石子而没有炸药,就不会出现爆炸的结果。这一说法看似可笑,但与毛泽东所说的“温度不能使石头变成小鸡”的例子是颇为类似的。 人们普遍认识到,现实中的因果关系是复杂的,存在“一因一果、一因多果、多因一果、多因多果”等情况。人们还从不同的角度把原因分为“直接—间接、主要—次要、重要—一般、偶然—必然”等等。但由于这些划分标准没有给予严格界定,这就引起许多不必要的争议。本文试图通过对概念进行严格定义,建立起“基本因果关系模型”,并以此为基础对复杂因果关系作出解释。 一、基本因果关系模型 哲学上把现象和现象之间那种“引起和被引起”的关系,叫做因果关系,其中引起某种现象产生的现象叫做原因,被某种现象引起的现象叫做结果。但在现实生活中,人们对“引起”和“被引起”却有大不相同的看法,结果出现了许多复杂的因果关

相关文档