好讀周報/相關不代表因果 數學老師指分析數據應小心「倖存者偏差」

量子电脑让许多要花数十年甚至数万年的艰深问题,得以在极短的时间中运算推断出结果。(图/取自网路)

文/林秋华

寻找不同事物之间的关联性一直是人们有兴趣的主题,例如,研究癌症与饮食、生活习惯的关系;研究智商与未来成就、财富的关系;研究自杀与经济、年龄的关系。这些在在显示人们渴望寻求答案,想了解世界的运行方式和人类的行为模式。在大数据提供的客观事实中,是否隐藏我们看不到的讯息?是否有什么潜在的规则呢?今天,我们就来看看几个有趣的分析,探讨大数据对人类生活的影响。

●相关不代表因果 小心导致错误决策

然而,「相关」等于「因果」吗?关于这个千古难题,身为数学老师还是要再一次强调:相关不代表因果。分析数据时,仅依赖相关性可能导致误解和错误结论。因此,进行更深入的分析,如实验研究、调查或控制变量的方法,对于确定因果关系至关重要。相关性与因果关系是如此微妙的存在,如果两件事有因果关系,必然存在高度相关;如果两件事高度相关,可能存在因果关系,也可能存在偏差观点。

二次大战期间,美国哥伦比亚大学统计学亚伯拉罕•沃德教授计算如何减少轰炸机因敌方炮火而遭受损失。研究发现,返回的轰炸机上,弹孔大都出现在机翼,显示机翼是容易遭受攻击的目标,因此,促使军方想在机翼位置加强防护。但亚伯拉罕•沃德教授提出「幸存者偏差」理论,他提出的看法是:返回的飞机之所以返回,乃因为主体没有受伤;而那些主体受伤,例如引擎被打中的飞机,根本没有机会返回。若没有考虑这些无法返回的飞机,会存在某些偏差观点。最后,军方采纳教授的提议,为引擎增加更高的防护,后来也证实这个决定是正确的。这个案例告诉我们,假如只凭着手中的资料,而没有合理的逻辑推理分析或第三方观点,很容易陷入「幸存者偏差」,导致错误决策。

●忽略幸存者偏差 以偏盖全易失败

再举个例子,有些人主张「学历无用论」,举出不少知名创业家如微软创办人比尔盖兹、苹果创办人贾伯斯、脸书创办人马克•祖克柏等,这样的「幸存者偏差」,导致很多人以此为借口辍学或创业,最后往往以失败收场。

事实上,这些成功者还拥有其他许多资源,背后也付出了巨大的努力;另一方面,他们是辍学者中的极少数例子,也就是说有更多的辍学者并没有走向成功之路。当仿效者没有考虑这些资讯而草率决定时,经常导致不理想的结果。

●挑选分析海量资讯 深度学习居功厥伟

在人工智慧的时代,大数据成为一门显学,对各行各业产生深远影响。随着科技的进步,我们面临着海量资讯的挑战,这些数据的规模和复杂性超出了人类的处理能力。愈来愈多的任务和分析被交由电脑执行,其中,深度学习神经网络的发展是一系列过程中的重要里程碑。这种技术模拟了人类大脑的运作方式,透过多层次的神经元结构,进行资料的处理和分析。神经网络能够自动识别模式,从大量数据中提取有用的资讯,进行预测和分类。这个过程涉及复杂的数学计算,包括线性代数、微积分、机率和统计学等。多亏电脑能够计算繁琐且多变的数据,找出隐藏讯息,进而让人们做出准确的决策。

从商业到医疗、从金融到教育,人工智慧技术的广泛应用使得我们能够更高效地处理信息,发展各种创新技术与观点。最后,值得一提的是,今年的诺贝尔物理学奖得主由普林斯顿大学的霍普菲尔德(John Hopfield)和多伦多大学的辛顿(Geoffrey Hinton)共享殊荣,表彰他们在人工神经网络领域的基础性发现与创新,让机器学习得以成为现实。化学奖得主为华盛顿大学的生物化学教授贝克(David Baker)、哈萨比斯(Demis Hassabis)及琼珀(John Jumper),凭借DeepMind公司在蛋白质设计与蛋白质结构研究领域的卓越贡献,拿下本届化学奖殊荣。两个奖项皆与人工智慧密切相关,显示人工智慧已被大量运用在你我生活中,大数据分析正是当中的重要基石。

●作者为台南市永仁高中数学老师。