英语轻松读发新版了,欢迎下载、更新

经过6。5年的机器学习|学习的经验教训|迈向数据科学

2025-06-30 18:04:32 英文原文

作者:Pascal Janetzky

我开始学习机器学习六年前,该领域正处于真正的吸引力之中。在2018年,当我在经典机器学习方面参加了第一门大学课程时,在幕后,已经开发了关键方法,这将导致2020年代初期的AI繁荣。GPT模型正在发布,其他公司也效仿,并以其模型在性能和参数尺寸上推动了限制。对我来说,这是一个开始学习机器学习的好时机,因为该领域的移动速度如此之快,以至于总会有一些新事物。

我会不时地(通常每6到12个月一次,我回顾一下这些年份,从大学讲座到进行商业AI研究的精神快速发展。回顾过去,我经常发现在学习ML期间伴随着我的新原则。在这篇评论中,我发现在一个狭窄的话题上进行深入研究一直是我过去几年进步的关键原则。除了深入的工作之外,我还确定了其他三个原则。它们不一定是技术见解,而是思维定态和方法的模式。

深度工作的重要性

温斯顿·丘吉尔(Winston Churchill)不仅以他的演讲而闻名,而且以他令人难以置信的敏捷性而闻名。关于他和英国议会第一位女性阿斯特夫人之间的口头纠纷,这是一个流行的故事。试图结束与他的争论,她打趣道:

如果我是你的妻子,我会在你的茶中放毒。

丘吉尔以他的商标清晰度回答:

如果我是你的丈夫,我会喝。

钦佩那样的机智的陪伴,因为这是一项罕见的技能,并不是每个人都出生于这种反思性的光彩。幸运的是,在我们的领域,进行ML研究和工程,快速机智并不是使您走得更远的超级大国。有什么能力深入集中的能力。

在传统意义上,机器学习工作,尤其是研究方面,并不是快节奏的。它需要长时间的不间断,强烈的思想。编码ML算法,调试模糊的数据问题,制作假设 - 所有这些都需要深入的工作。

通过深层工作,我的意思是两者:

  • 集中精力的技能长时间深处
  • 环境这允许并鼓励这种重点

在过去的两到三年中,我认为深入的工作对于取得有意义的进步至关重要。我每周花了几次在集中的沉浸式上花费的时间 - 远比有史以来分散注意力的生产力更具分散的块。而且,值得庆幸的是,可以深入了解工作,并且您的环境为支持它而建立。

对我来说,最充实的时期始终是导致提交截止日期之前的那些时期。在这些时候,您可以激光重点:世界缩小到您的项目,您的流动状态。理查德·费曼(Richard Feynman)说得很好:

要进行真正的良好物理学,您需要绝对的固定时间长度 - 它需要很多集中注意力。

更换物理机器学习,这一点仍然存在。

您应该(主要)忽略趋势

您听说过大语言模型吗?当然,您的名字如骆驼,双子座,克劳德(Claude)或吟游诗人(Bard)填补了技术新闻周期。他们是生成ai或genai的酷孩子,就像现在时尚一样。

但是这里的问题是:当您刚刚开始时,追逐趋势会使势头艰难。

我曾经与一位研究人员一起工作,我们俩都刚刚开始做ML。我们会打电话给我的前同事约翰。在他的研究中,他首先进入了当时热闹的新领域(RAG)的新领域,希望通过集成外部文档搜索来改善语言模型输出。他还想分析LLMS的新兴功能 - 即使它们不熟悉培训,这些模型可以做到,并将其提炼成较小的型号。

约翰的问题?他基于工作的模型演变得太快了。仅仅获得新的最先进的模型运行就花了几周。到他这样做的时候,已经发布了一个更新的更好模型。这种变化的速度加上对他的利基市场不清楚的评估标准,使他几乎无法控制自己的研究。特别是对于那些仍然是研究的人,例如当时的约翰和我。

这不是对约翰的批评(我可能也会失败)。相反,我告诉这个故事让您考虑:您的进度是否依赖于不断浏览最新趋势的最重要浪潮?

进行无聊的数据分析(一遍又一遍地)

每当我训练模特时,我都会在精神上叹息。

为什么?因为这意味着我对隐藏的困难部分:数据分析。

这是通常的序列:

  1. 您有一个项目。
  2. 您获取了一些(现实世界)数据集。
  3. 您想训练ML模型。
  4. 但是首先您需要准备数据。

一个很多最后一步可能会出错。

让我用我在使用ERA5天气数据时犯的错误来说明这一点。我想预测NDVI(归一化差异植被指数),该NDVI使用ERA5数据的历史天气模式,表明植被密度。

对于我的项目,我必须将ERA5天气数据与我从美国天气局NOAA获得的NDVI卫星数据合并。我将NDVI数据转换为ERA5的分辨率,将其添加为另一层,并且没有形状不匹配,很高兴地培训了视觉变压器。

几天后,我可视化模型的预测,并且令人惊讶!该模型认为地球是颠倒的。从字面上看,我的输入数据显示出一个通常面向的世界,但是我的植被数据在赤道上翻转了。

怎么了?我忽略了分辨率翻译如何倾斜NDVI数据的方向。

我为什么想念那个?简单:我不想进行数据工程,而是直接跳过机器学习。但是现实是:在现实世界中的ML工作中,正确获取数据是工作。

是的,学术研究通常使您可以使用Imagenet,Cifar或Squad等精选数据集工作。但是对于真实的项目?您需要:

  1. 清洁,对齐,归一化和验证
  2. 调试怪异的边缘箱
  3. 视觉检查中间数据

然后重复一次,直到真正准备好

我通过跳过我认为没有必要的数据来了解这一点。不这样做。

(机器学习)研究是一种特定的反复试验

从外部,科学进步似乎总是很优雅:

问题 - 实验解决方案

但是实际上,这更加混乱。您会犯错误 - 一些小,有些值得面对面的。(例如,地球颠倒过来。)没关系。重要的是您如何处理这些错误。

坏错误只是发生了。但是有见地的错误教给你一些东西。

为了帮助自己从感知到的失败中更快地学习,我现在保持一个简单的实验室笔记本。在进行实验之前,我写下:

  1. 我的假设
  2. 我期望发生的事情
  3. 为什么我期待

然后,当实验结果恢复(通常是作为一个不起作用的情况下)时,我可以反思为什么它可能失败了,这对我的假设说了什么。

这将错误转化为反馈,并将反馈转化为学习。俗话说:

专家是一个犯了所有可能在非常狭窄的领域犯的错误的人。

这是研究。

最后的想法

6。5年后,我意识到,进行机器学习很好,与浮华趋势或只是调整(大语言)模型无关。事后看来,我认为这更多的是:

  • 创造深度工作的时间和空间
  • 选择深度超过炒作
  • 认真对待数据分析
  • 拥抱反复试验的混乱

如果您刚刚开始 - 甚至几年来这些课程都值得内部化。他们不会出现在会议主题演讲中,但是他们会通过您的实际进度出现。


  • Feynman的名言来自这本书深工作,由Cal Newport作者
  • 对于丘吉尔的报价,存在几种变体,有些有咖啡,有些有茶,被中毒

关于《经过6。5年的机器学习|学习的经验教训|迈向数据科学》的评论


暂无评论

发表评论

摘要

文章讨论了作者的旅程学习机器学习六年的学习,并确定了指导其进步的四个关键原则:深度工作,忽略趋势,彻底的数据分析以及接受试验和错误。深度工作涉及长期关注一个狭窄的话题。忽略趋势意味着避免追求新的时尚,而新时尚无法控制。彻底的数据分析至关重要,因为实际数据集需要在模型培训之前进行大量准备。最后,拥抱反复试验可以意识到科学研究中错误的重要性。作者强调,这些原则对于取得有意义的进步比仅仅遵循趋势或优化大型语言模型更有价值。