作者:By Steven Strogatz November 7, 2024
科学家们通常会建立定量模型(例如天气或流行病),然后使用它们进行预测,然后将其与真实情况进行测试。这项工作可以揭示我们对复杂现象的理解程度,并决定下一步研究的方向。近年来,大型语言模型等“黑匣子”系统取得的显着成功表明,有时在根本不知道某些东西如何工作的情况下也可以做出成功的预测。在本集中,著名统计学家 Emmanuel Candès 和主持人 Steven Strogatz 讨论了如何在大学招生、选举预测和药物发现等各个领域研究中使用统计学、数据科学和人工智能。
收听 苹果播客,一个 Spotify,一个 调入或您最喜欢的播客应用程序,或者您也可以从流式传输 广达。
【主题剧】
史蒂文·斯特罗加茨:做出预测是一项融入我们生活各个方面的挑战,而且往往以我们甚至没有想到的方式进行。今天下午会下雨吗?股市将如何应对最新消息?妈妈生日想要什么?
通常,我们至少在科学方面建立知识库和理论理解,并应用我们所知道的知识来预测未来的结果。但这种方法面临着严重的局限性,特别是当要分析的系统非常复杂且人们对其了解甚少时。
我是 Steve Strogatz,这是“The Joy of Why”的播客广达杂志我和搭档詹娜·莱文 (Janna Levin) 轮流拿着麦克风,探索当今数学和科学中尚未解答的最大问题。
在本期节目中,我们邀请了数学家和统计学家伊曼纽尔·坎迪斯询问数据科学和机器学习如何帮助我们以前所未有的方式解决复杂的预测问题?我们应该对他们的预测有多大的信心或怀疑?我们能找到量化这种不确定性的方法吗?
[主题结束]
伊曼纽尔是数学和统计学系主任兼教授斯坦福大学。他的工作涉及数学、统计学、信息论、信号处理和科学计算。他是美国国家科学院,并已收到麦克阿瑟奖学金, 一个科拉茨奖和一个拉格朗日奖。
伊曼纽尔,欢迎来到“为什么的喜悦”。
伊曼纽尔·坎德斯:非常感谢您邀请我,既然您提到了国家科学院,首先让我祝贺您当选。这真是太棒了。
斯特罗加兹:噢,你太善良了。谢谢。嗯,我很荣幸能够加入您和我们所有其他尊敬的同事的行列。
好吧,让我们从现在几乎每个人都在思考的事情开始,机器学习模型。我们不断听到很多关于他们的消息。我们知道,它们可以深入研究大量数据集,并经常发现人类无法检测到的模式。
但人们经常将这些模型称为“黑匣子”。我只是想知道,您自己会使用这个短语吗?如果是的话,我们所说的黑匣子是什么意思?
CAND:正如你所说,机器学习算法将过去收集的数据作为输入。并给定一组特征,尝试对未知标签进行预测。
所以我不得不说,预测建模文化与统计领域本身一样古老。从[弗朗西斯]高尔顿、[卡尔]皮尔逊和[罗纳德]费舍尔开始,统计学家一直非常专注于根据数据进行预测。但他们使用相对简单的模型——可以进行数学分析的模型,我们在大学教授的模型,有时你可以为此提供可靠的推论。
但我认为我不需要告诉你,现在我们已经超越了这些简单的回归。我们正在使用深度学习、梯度提升、随机预测等许多已经变得非常流行的技术,有时甚至结合使用。现在这变得如此复杂以至于非常困难。我们使用术语“黑匣子”来指代过于复杂以至于难以分析的算法。当然,有很多理论家试图理解黑匣子里发生了什么。
斯特罗加兹:谢谢。精彩的解释。这似乎是一个全新的统计领域。
CAND:绝对地。但这并不意味着我们必须放弃迄今为止所做的一切。我的研究小组一直在做的事情,以及目前世界各地许多小组正在做的事情,就是尝试获取这些黑匣子的输出并将它们视为统计对象。
因此,我们看到了统计的整个分支,它在不做出任何建模假设的情况下推理这些黑匣子的输出。这样分析的结果是可信的,这样我们就可以量化不确定性,从而做出可靠的决策。所以所有的东西都像p值和置信区间,它们以一种或另一种方式存在。的概念p
值,它本质上是一种量化你对某个实验结果应该感到多么惊讶的衡量标准。在黑匣子的背景下,如果黑匣子做出了预测,我仍然可以问我应该对这个预测感到多么惊讶。所以我需要能够量化惊喜的因素。所以我希望能够将预测转化为你所说的p值,以便我可以实际校准黑匣子中的结果。因此,令人惊讶的是,我们不必放弃我们一直在做的事情。
大多数情况下,我们正在走向一个参数模型较少的世界,但获得经过良好校准的结果的概念(量化不确定性)仍然存在。
斯特罗加兹:这太有趣了。我真的很喜欢你的说法,这有点像黑匣子可以保持黑色。我们不必通过观察模型的底层或内部来分析正在发生的事情。因此,就像我们正在采用旧的方法论、传统统计学的旧愿望来量化不确定性,并为这些黑匣子模型的新世界重建理论。
CAND:绝对地。新世界的重建有多种不同的形式,但我会给你举一个例子。让我们想象一下,在不远的将来,人们会申请大学,因为大学会收到如此多的申请,我们将至少将部分决策过程外包给黑人盒子。假设现在学生申请康奈尔大学,即您所在的大学,并且您决定以某种方式使用黑匣子来预测他们在康奈尔大学的表现,对吗?所以问题是,这些预测的校准程度如何?
但你可以做的是,你可以说,“好吧,我已经训练了我的模型,现在我已经保留了一组我知道结果的学生,我实际上可以看到黑匣子如何预测这些结果”结果。现在我可以尝试理解,对于什么样的学生来说误差较大?对于什么样的学生来说低呢?我可以从这个黑匣子中获得什么样的准确性?
现在,当您要使用黑匣子来筛选一些候选人时,您可以据此进行校准。因为您已经观察到了测试集上的黑盒预测之间的不匹配,所以您可以了解一点黑盒的准确性和您实际可以得出的结论。因此,通过观察一组学生的黑匣子结果(您有结果、标签),您实际上无法生成学生将如何做的点预测,但可以获得预测区间它有可能在规定的时间内包含真实的表现。
当我这么说时,我是说你没有模型。内部任何地方都没有高斯分布。您只是利用了随机抽取学生这一事实,查看黑匣子对随机子集的作用,然后使用这些观察结果来实际推广到未见过的学生。
这在很大程度上是一种统计精神,也就是说,你收集申请学生的特征数据,以及黑匣子对这些学生的描述。你正在从中学习,以便能够说出对未来有效的事情。
斯特罗加兹:好的。我真的很想解开这个例子。这太具有挑衅性了。我认为,特征和标签的语言可能有点抽象。所以让我看看我是否明白你所说的。
但是,如果我想象一群高中生申请康奈尔大学或斯坦福大学,无论哪种方式,你的机构的特征可能是他们的高中 GPA,无论他们是否参加过校队运动,无论他们是非裔美国人还是拉丁裔,或者男也好,女也好,诸如此类。您会称这些功能为?
CAND:是的,这些都是功能。这些基本上就是您的申请文件中的内容,对吧?这些就是您对申请人的了解,可以进行数字化。但我认为我们现在生活在一个现代世界,所以你的论文可能是一个专题。因为你的论文将变成一串数字。这就是围绕大型语言模型的革命。所以这也是一个数字特征,你可以用它来预测你的英语写得怎么样?你的词汇量有多丰富?你知道,有很多东西你可以使用。
斯特罗加兹:是的,但是就大学可能想要预测的内容而言,为了简单起见,如果我们说我们想要预测学生毕业时的 GPA,该怎么办?
CAND:例如。或者更简单:学生会在四年内毕业吗?因此,在这种情况下,让我们看一下您的第一个示例:您想要预测两年本科教育后的 GPA。我可以说,黑匣子对这些学生说了些什么?因此,通过查看错误的分布(即学生的真实 GPA 与黑盒预测之间的差异),我可能会对黑盒随机犯下的典型错误有所了解学生。
因此,当新学生进来时,我会感觉到我将要遭受的错误,并且我可以 - 而不是只给你一个点预测 - 我可能会给你一个间隔可能包含学生的真实结果。令我们惊讶的是,对于某些应用程序或某些学生来说,这个间隔可能很短。我们对他们的表现相当有信心。对于其他人来说,它可能很宽。
斯特罗加兹:嗯嗯。在这种情况下,间隔,这个例子中的间隔是多少?
CAND:一个区间可能是我预测 2.9 到 3.9,所以中心在 3.4 左右,另一个区间我预测是 3.3 到 3.5,并且区间要短得多。它们具有相同的中心,预测相同,但范围却截然不同。
所以,你知道,如果我是一名招生人员,我想了解有关我的预测引擎的信息,对吗?比如,你的准确率如何?您的点预测有什么程度的不确定性?
如果我们从事金融业,并且我有一个投资策略,我说,“史蒂文,我可以向你保证 6% 的回报率,”则 6% 正负 1 之间的情况截然不同% 和 6% 正负 10%。如果您属于第二类,您可能会失去很多钱和很多客户。
斯特罗加兹:好吧,很好。因此,您给出的这个例子,无论是在财务还是 GPA 方面,确实有助于强调为什么我们不仅关心手段(或者我们可能所说的“点估计”),而且还关心我们可能有很高信心的时间间隔。我的意思是,我希望任何人都能看到能够预测区间而不仅仅是数字是多么有价值。
因此,如果可以的话,我想现在转向大学环境之外的另一个现实世界的例子,与选举预测。为了让听众清楚,我们是在 2024 年美国大选前几个月录制这个播客的。但我们预测这一集(请原谅我用双关语)将在选举结束后的某个时间播出。所以我确信这是我们听众非常关心的事情。
我知道您和您的学生也曾在这一领域工作过。问题是,您能为我们提供哪些关于用于预测选举的复杂模型的见解?
CAND:所以也许首先我应该说清楚。我对选举预测没有真正的第一手经验。我正在与学生一起工作华盛顿邮报,与他们的数据科学办公桌,他们实际上做了这项工作。如果可以的话,我只是作为这部分对话的使者。
斯特罗加兹:我想对参与其中的年轻人表示一些赞扬。而且我也觉得你可能有点谦虚,因为你有一个很好的品质。但事实是这样吗?莱尼·布朗纳我的意思是,至少在莱尼的例子中,斯坦福大学的本科生正在为华盛顿邮报。他们不是建立在您帮助开发的一些技术的基础上的吗?
CAND:确实如此。但正如您所知,当您实际在战壕中从事一些具有重大意义的事情时,例如预测选举结果,即使我们写的一些论文中有一般原则,仍然存在大量的问题。他们为使这一切顺利进行而所做的工作。
斯特罗加兹:好的,很好。谢谢。
CAND:因此,新闻机构本质上要做的是,一些民意调查结束,一些选区正在报道,一些县开始报道。事实上,这是一个非常酷的问题,因为可以这么说,选票已经在盒子里了,而你还没有打开盒子,你想知道里面有什么。
许多正在进行的统计工作,例如在华盛顿邮报我最了解的组织是他们试图预测未报告的县。因此,您不必对收视率进行点估计,“圣克拉拉将以这种方式投票”,您可以统计未报告县的预测,在州一级汇总它们,并获得非常细致的结果。加州将如何投票的图片。
现在,这是如何完成的?因此,显然我们需要预测各县将如何投票。这将基于很多功能。它是一个以城市为主的县吗?是农村县吗?教育水平如何?与县相关的社会经济变量是什么?最重要的是,上次该县的投票结果如何?
因此,您正在使用所有这些功能,您正在尝试学习一个可以准确预测各县将如何投票的模型。如果你愿意的话,这就是你的黑匣子,除了他们使用的模型从我所看到的来看并不太复杂,相当简单。
但第二部分是校准。因为你不能只是在广播中说,“哦,你知道,加州会这样投票。”事实上,这只是一个点估计,你知道。如果你弄错了,这会产生巨大的后果。因此,他们要做的是报告加利福尼亚州的一系列可能结果,这些结果会随着选举的进行而动态更新。这真实地反映了他们对投票结果完全统计后会发生什么的了解。
所以他们正在做的事情非常酷,因为他们确实在预测错误。他们正在预测不确定性。当然,您可以看到,随着越来越多的县被报告,他们的不确定性范围正在缩小。
而且他们相当忠诚。正如我们在现场所说,他们正在对它们进行回溯测试,他们说,“好吧,让我们看看这个模型在 2020 年将如何运作。”并且他们希望确保间隔他们的项目包含真实的标签、真实的选票、规定的时间比例。
所以一切都设计得非常好。我认为,值得赞扬的是华盛顿邮报如此尊重他们的读者,不仅给你点估计,而且让你真正感受到他们点估计的准确性。
斯特罗加兹:现在,为了明确这一点,我们不是在谈论根据提前一年的民意调查或类似的东西来预测选举。这是根据即将公布的结果对选举之夜进行的预测。
CAND:确切地。所以读者必须想象基本上在某个地方的盒子里有选票。唯一的是,盒子还没有被打开。但我在其他县、其他辖区的其他地方也看到过类似的盒子被打开。我将利用这些知识来预测这个盒子里的东西。这将是一个非常精确的预测,遵循我们之前提出的原则。而且您确实有权使用民意调查作为特征,作为模型中的预测变量。
斯特罗加兹:我想你可以。我认为很多人可能对民意调查持怀疑态度。我们已经看到进行民意调查有多么困难。但话又说回来,模型可能会考虑到这一点。也许它并没有赋予太多权重。
CAND:确切地。该模型将考虑到这一点。现在,民意调查有点棘手的是,不同县的民意调查可能会有所不同,对吗?
通常,当您拟合统计模型时,您希望数据集中所有单位的特征都相同。那么回到我们之前关于大学招生的例子,对吧?每个人都有高中 GPA。每个人都会对“你是校队的成员吗?”这个问题给出是/否的答案。
因此,关于您的民意调查将其用作功能的棘手之处在于,某些县可能有它,而其他县可能没有。所以你必须要小心一点。
斯特罗加兹:好的。好的。让我们在这里休息一下,我们马上就回来。
[广告插入中断]
斯特罗加兹:欢迎回来。我们一直在与 Emmanuel Candès 讨论统计数据、预测模型以及其中固有的不确定性。
那么让我们来看另一个现实世界的例子。我在这里思考预测模型的医学应用。药物发现——当然,这非常重要,关系到生死攸关的后果。例如,我们采取了利用人工智能生成人工数据来增加样本量的举措。这听起来有点难以想象这会起作用,但显然这可能是一个有用的策略。
CAND:所以,你问的问题非常非常有趣,我认为你再次触及了统计科学作为一门学科的未来。
统计学一直是一门经验科学,试图理解周围的世界。例如,现在我们正在处理 Gen AI,或者非常奇特的机器学习算法。
因此,为了了解药物,我们从体内开始:就像,我们只是给人们注射东西。然后我们在体外做了这个。现在,正如您所指出的,我们正在进入计算机模拟,对吧?现在我们想要使用算法来预测药物的作用。
假设您是一家大型制药公司,并且拥有庞大的化合物库。可以是四亿、五亿。您想知道哪些化合物实际上会与目标结合。那么,你做什么呢?
好吧,您应该将您的化合物一一取出并试验它们是否会与您的目标结合。但正如您可以想象的那样,这需要大量的时间和金钱。所以现在人们正在使用机器学习来猜测他们是否会结合。在过去的几年里,我们看到像 AlphaFold 这样的东西。例如,我们已经看到很多模型试图仅根据氨基酸序列来预测化合物的形状。
现在,这不会取代物理实验,但机器学习在这种情况下所做的,它将优先考虑您应该首先尝试的化合物。我们在这一领域所做的事情之一就是说,“好吧,我们将训练一些非常奇特的模型”,而它们实际上是黑匣子。我的意思是,它们太复杂了,我不知道它们到底做什么,但它们会产生亲和力分数,即化合物对目标疾病的亲和力。”我说,“我可以相信这个吗??
因此,在没有任何统计模型的情况下,只需查看算法对未经训练的分子的预测结果,我们就能够选择[一个]数据自适应阈值,如果您愿意的话,也就是说,如果您选择所有这些如果分子的预测亲和力高于此阈值,则可以保证我提供给您的内容中有 80% 实际上是您感兴趣的。
在下游,您将对一些真实的事物进行一些真实的实验。但在这里,非常令人兴奋的是人工智能确实可以加快应该传递给实验室的药物的优先顺序。
斯特罗加兹:不,它为有根据的猜测的概念赋予了全新的含义。正如你所说,这些现在都是经过精心教育的猜测,必须进行测试。
CAND:他们仍然需要接受测试。现在还有另一件事,这一次可能更可怕,那就是,如果我们使用 Gen AI 来构建人们可能称之为的东西会怎样?数字双胞胎,—非物理的东西,但可以通过生成式人工智能生成。因此,这里出现了一条新的研究方向。
举例来说,假设我想研究某些药物的统计特性,对吧?问题是我的样本太少了,对吧?假设我想估计哪部分药物具有某种特性。问题是我有很多氨基酸序列,但我还没有测量它们的特性。正如您可以想象的那样,趋势是使用预测模型(黑匣子),用预测代替真实测量,然后假装它是真实数据。然后对这些预测进行平均,得出具有其特性的药物的总体比例。这是错误的,因为这种方法引入了偏差。
我们想要使用这个预测模型,我们想要使用 Gen AI 来填充缺失的数据,以可能创建新的数据集。但与此同时,我们需要了解如何消除偏见,得出科学有效的结论。
让我举个例子。假设我只想估计随机变量的平均值。所以我们称其为y。我有一些功能,我们称之为x。所以我可以尝试学习的是,我可以拟合一个模型来预测y从x?现在,当我没有真实标签时,我可以用预测来替换真实标签和真实金额。
我可以对这些进行平均,但它们会有偏差。但你猜怎么着?我可以消除偏差,因为我从您给我的标签数据中估计了偏差。
斯特罗加兹:很好。
CAND:因此,如果我做得正确,我可以有效地极大地增加样本量。如果我的预测具有合理的准确性,那么就好像我的样本量要大得多。所以我能告诉你的信息的准确性要高得多。
斯特罗加兹:好吧,我忍不住问你,因为这对我们来说是一种难得的享受。您因对人们称之为“压缩感知”的领域做出的贡献而闻名。我不知道它是否完全适合我们今天的讨论,但我想请您告诉我们压缩传感如何及其在医学成像、MRI 或其他方面的应用,这是否符合我们正在讨论的框架?即使没有,您能告诉我们一些相关信息吗?
CAND:它不直接适合。我认为压缩感知的事实是稀疏性是一个重要的现象。所以我们现在看到的是人们衡量阳光下的一切,因为我们不知道最终什么是重要的,对吧?因此,我们需要像你我这样的人来筛选重要的事情。压缩感知所说的是,如果我们测量很多东西,但如果只有少数东西重要,并且如果我们使用压缩感知理论建议的正确算法,那么我们应该能够建立一个非常准确的预测模型。
就像,我们会明白很多变量与预测结果没有关系,它会很快关注那些对结果有影响的变量,然后从那时起建立一个好的预测模型。
斯特罗加兹:所以你一直在使用“稀疏”这个词。在这种情况下,这是否意味着所有那些无关紧要的变量,我们可以有效地将它们的贡献设置为零?
CAND:确切地。因此,在这种情况下,对于我们的观众来说,它可能会说,即使我测量了一百万个遗传变异,表型的分布并不取决于这百万个东西。它可能取决于 20、30。这就是稀疏性。
因此,压缩感知提出的问题是,当某些事物依赖于长列表中的少数但未知的事物时,您如何着手并找到它们?
斯特罗加兹:嗯嗯。因此,该技术或方法将识别哪些是密钥 20 或任何小数字。
CAND:确切地。确切地。让我们将其视为一个矩阵问题,对吧?所以我有矩阵,它有一百万列,因为这些都是遗传变异。然后我就得到了回应,y,这些是该矩阵的行。如果我想解决一个系统y=斧头,比如哪些遗传变异需要预测y?好吧,经典理论会说,好吧,我有多少未知数就需要多少人。但压缩感知理论说,不,这不是真的。因为如果你提前知道这些基因变异中只有少数很重要,那么你就可以与更少的人打交道。这就是为什么我们可以开发不需要 100 万患者的表型预测模型。
斯特罗加兹:太棒了。如今,科学界似乎无处不在的重大问题之一是可重复性危机。我只是想知道您是否对此有统计意见。
CAND:是的,你问这个问题很有趣。我想,首先我会对再现性危机进行观察。它发生在人们拥有大量数据集可供使用的时刻,通常是在制定科学假设之前,访问依赖于数十亿个参数的极其奇特的模型。所以我首先要说的是,这场危机在这个时候发生并不是巧合,因为我给你一个数据集,你相信它是黄金。你将尝试一个模型,但它不会成功,然后你将尝试其他方法。所以你要微调参数,微调很多东西,直到发出咔哒声,这没有任何问题。
但我认为,作为统计学家,我们需要做的就是——我们中有很多人正在从事此类工作——我们如何围绕选择模型的自由建立保障措施,参数,这样到最后,你声称的发现就有机会被(比方说)一个独立的实验重现?
统计界正在开发很多方法,这样当你认为你拥有某些东西时,你就确实拥有某些东西。因此,对于该领域来说,这是一个非常激动人心的时刻,开发方法现在并不是真正量化预测中的不确定性,而是实际上以这种方式进行校准。然后,当您报告调查结果时,我们会确保您报告的大部分内容都是正确的。
斯特罗加兹:好吧,我现在想回到更广泛的、甚至是社会的层面来思考一下教育。每个有学问或受过教育的公民都应该了解一些概率和统计的概念,包括我们一直在谈论的它们的现代版本。我想知道你是否对此有想法。作为教育者或传播者,我们可以做些什么来提高统计知识?
CAND:这是个好问题。我认为我在较低水平的统计教学中看到的是对公式的依赖——你知道,我应该什么时候应用哪个公式?我认为这没有帮助。
作为一名学生,我当然学习了数学推理,这很重要。然后,通过高中和大学,我学会了物理推理。这与数学推理不同,而且非常强大。但在斯坦福大学研究生院,我学到了一种叫做归纳推理的新东西,它不是前两者。我认为我们需要在早期阶段做好这方面的教学。
什么是归纳推理?它是根据特定观察进行概括的能力。我们该如何做到这一点?好的,所以我会提倡一种本质上不太数学化的方法,它试图让孩子们理解如何从样本推广到总体到我们尚未见过的个体,以及是什么使得这可能。
领域之间存在着一些紧张关系。我们应该更多地关注数学还是应该更多地关注计算机科学,而人工智能主要发生在哪里?我认为,如果我们过多地关注数学或过多地关注计算机科学,就会有失去统计推理能力的危险。这可能有点抽象,但我发现统计推理非常强大,非常美丽。
因为我不想笼统地谈论它,所以我给你一个问题。我认为这是发生在 30 年代的一件著名的事情。我认为[亚历山大史蒂文]科贝特正在研究蝴蝶,他去了马来西亚一年,他是一个非常认真的人。因此,他每天都会观察蝴蝶的种类,并在笔记本上写道:“这个物种我见过一次,这个物种我见过两次,这个物种我见过三次,”等等。
于是他回到了英国,并找到了该领域的创始人之一 R.A.费舍尔问,“如果我回到马来西亚六个月,我会看到多少新物种?”这是一个不同于数学的问题。答案不在问题中。
而且我认为深度学习不会有太大帮助。这就是统计学家所做的事情。这是一个非常现代的问题,那就是,你有一个实验室,他们正在研究癌细胞。他们将做完全相同的事情:“这就是我曾经见过的癌细胞数量。”这是我见过两次的癌细胞数量。”他们说,“我还没有见过多少癌细胞?如果我继续寻找癌细胞六个月、一年或两年,我预计会看到多少新类型?所以这就是您在研究统计学时学到的东西。我觉得这很有趣。
斯特罗加兹:哦,好吧,那太好了。了解统计文化以及它与数学或计算机科学的文化有何不同,真的很有趣。因为如今,随着人们所说的数据科学的兴起,出现了一种浑水的情况。谁拥有统计数据?为什么我们称其为数据科学?为什么不是统计数据?我相信您对此有自己的看法。
CAND:当然,因为数据科学中有很多活动传统上是在统计部门中找不到的。所以我有一个同事,尤雷·莱斯科维奇,他是一位非常受认可的数据科学家。
斯特罗加兹:康奈尔大学博士[编者注:莱斯科维奇是康奈尔大学的博士后,拥有博士学位。来自卡内基梅隆大学。]
CAND:完全正确。他是一个才华横溢的人。因此,当新冠疫情袭来时,人们正在计算这个贝塔值。就像,你易受影响、暴露、感染、康复的模型,你有这些微分方程,你知道,如果贝塔数大于一,我们就会遇到问题,诸如此类,对吧?
所以这是一个非常宏观的模型。Jure Leskovec 所做的是创建了一个巨大的数字数据集。他追踪了美国所有主要城市的 1 亿美国人。所以他会看到他们白天去哪里,晚上在哪里回家。因此,与其拟合全球范围内每个人都知道的流行病学模型,这实际上没有意义,因为加利福尼亚州的行为和佛罗里达州的行为非常不同。然后,您可以将其拟合到图表上的某种节点上,这样您就可以拟合一个适合您所在位置人员流动性的模型。
这就是数据科学,因为 Jure 所做的,你在统计部门看不到,他基本上在几周内跟踪了 1 亿人。我想说我统计部门的一些同事也在做这样的事情,但我不能说出其中任何一个的名字。这就是现代数据科学。这不是我在统计部门通常看到的情况。
所以我在这一点上的立场是非常明确的。数据科学比传统的统计学领域要大得多,但统计学是其知识支柱之一。
斯特罗加兹:哦,我很高兴问你这个问题。我用这个发现了一个金矿,但是好吧,你已经表达了你对统计思维的迷恋。您的研究中有什么事情给您带来特别的快乐吗?
CAND:是的,我想是的。我在斯坦福大学的工作是独一无二的,因为与我一起工作的学生都非常出色。我觉得它让我保持年轻。它让我保持警觉。我无法入睡,因为我必须一直追上他们。
我觉得在广播中说这句话很奇怪,但我会因此而变得更好,因为就像精神上、身体上一样,它们让我保持健康。很高兴看到他们不断成长,成为伟大的科学家。去年,我有两名以前的学生在同一年获得了麦克阿瑟奖学金。因此,与我一起工作的学生都取得了巨大的成就,因此这是一种荣幸。能够感受到如此多的能量和对这个主题的热情,我感到很荣幸,并且自私地我会说这对我的健康有好处。
斯特罗加兹:嗯,非常感谢。与您交谈真的很有趣。我们一直在与数学家和统计学家 Emmanuel Candès 进行交谈。再次感谢您加入我们的“The Joy of Why”节目。
CAND:谢谢您的宝贵时间。这是一种乐趣。
【主题剧】
斯特罗加兹:感谢您的聆听。如果您正在享受“The Joy of Why”,但尚未订阅,请在您正在收听的地方点击订阅或关注按钮。您还可以对该节目发表评论 - 它可以帮助人们找到此播客。
“The Joy of Why”是来自广达杂志,一份由西蒙斯基金会支持的独立编辑出版物。西蒙斯基金会的资助决定不会影响本播客或其他内容的主题选择、嘉宾或其他编辑决定广达杂志。
《The Joy of Why》由 PRX Productions 制作;制作团队包括 Caitlin Faulds、Livia Brock、Genevieve Sponsler 和 Merritt Jacob。PRX Productions 的执行制片人是乔斯林·冈萨雷斯 (Jocelyn Gonzales)。摩根教堂和埃德温奥乔亚提供了额外的帮助。
从广达杂志、John Rennie 和 Thomas Lin 提供编辑指导,并得到 Matt Carlstrom、Samuel Velasco、Arleen Santana 和 Meghan Willcoxon 的支持。萨米尔·帕特尔是广达— 的主编。
我们的主题音乐来自APM Music。播客名称是朱利安·林想出来的。剧集艺术由 Peter Greenwood 创作,我们的徽标由 Jaki King 和 Kristina Armitage 创作。特别感谢哥伦比亚新闻学院和康奈尔广播工作室的伯特·奥多姆-里德。
我是主持人 Steve Strogatz。如果您对我们有任何疑问或意见,请发送电子邮件至[电子邮件受保护]。感谢您的聆听。