英语轻松读发新版了,欢迎下载、更新

Susan Shu Chang 谈连接基础机器学习和生成人工智能

2025-01-06 11:00:42 英文原文

作者:Susan Shu Chang

成绩单

罗兰·梅尔滕斯:欢迎来到 InfoQ 播客。我们在旧金山的 QCon 现场直播,Susan Shu Chang 也加入了我的行列,她是 Elastic 的首席数据科学家。

在旧金山 QCon,她正在主持软件工程师的人工智能和机器学习专题:基础见解。欢迎来到 InfoQ 播客。

苏珊·舒畅: 是的,谢谢你邀请我。

软件工程师的人工智能和机器学习:基础见解 [00:43]

罗兰·梅尔滕斯:那么我们是否应该回顾一下演讲的内容、您在其中进行的演讲以及您喜欢哪些演讲,或者您希望向与会者灌输的总体基本见解是什么?

苏珊·舒畅: 是的。是的,首先,很高兴来到这里。昨天,也就是会议的第一天,我们结束了人工智能和机器学习专题。我本来希望通过这个轨道来策划基础机器学习的各种主题,因为现在我们听到了很多关于生成人工智能的信息,并且我们在会议的第二天确实有一个关于这个的轨道。但尽管如此,很多事情都是由这些基本的机器学习驱动的,这也是一个巨大的话题,而且在当今仍然非常非常相关。例如,当人们访问 YouTube、Spotify 或 Netflix 时,我们会收到个性化推荐,例如,哦,你可能会喜欢这个,或者只是所有这些社交媒体和内容网站的主页。这一切都是由机器学习驱动的,并且在过去的很多年里一直如此。所以我想介绍这些基础技术和机器学习系列,例如推荐系统、强化学习。

我们还讨论了生产中的机器学习,这是我们主要关心的问题之一,因为有时我们会得到一个奇特的机器学习模型,但实际上无法在为用户服务的生产中运行它,其中如果它实际上并没有带来货币价值。因此,我们希望人们了解在生产中使用机器学习的一些细微差别。然后我们还讨论了知识图和大型语言模型,以及如何将这两种技术合并在一起以构建更好的体验。

总而言之,我想涵盖各个领域,因为这里的工程师,他们在所有这些肯定使用机器学习的公司工作,他们肯定与机器学习相邻或听说过这些技术,但我想帮助他们带来在机器学习方面一直在做这件事的人的具体例子,同时也帮助他们在幕后理解这是如何运作的。

推荐引擎[02:49]

罗兰·梅尔滕斯:是的,特别是搜索引擎中的推荐器。我认为 Netflix 的演讲非常有趣,关于如何获得更好的推荐并真正针对特定人群进行定制。

苏珊·舒畅: 是的。

罗兰·梅尔滕斯: 那很棒。另外,您提到了强化学习。这也很有趣,一些在 Meta 工作的人提出了一个关于如何使用长期交互的想法,并将其视为强化学习问题。

苏珊·舒畅: 是的,是的,确实如此。

罗兰·梅尔滕斯:如果人们现在想进入机器学习,您是否会向人们推荐任何特定的工具,或者您会推荐他们首先查看的任何特定主题?

苏珊·舒畅:是的,我仍然认为,如果我们不谈论生成式人工智能,具体来说,只是针对基础的,比如说神经网络和类似的东西,我仍然认为 PyTorch 和 TensorFlow 仍然非常有效,可以使用并获得开始了。他们也有很多在线教程,用于构建初始的端到端应用程序,因此不仅仅是 Hello World 模型或类似的东西,而是您可能有一个模型,然后构建一个简单的轻量级 Web 应用程序。因此,这更多地与软件所知道和熟悉的内容以及它在行业中的实际应用方式相关,因为如果你只有模型,它不会做任何事情,对吗?你总是必须连接到 UI,这是我们所有软件工程师在我工作中的合作伙伴,或者在我曾经工作过的其他公司,或者在像 Google 和 Netflix 这样的大公司中,如果没有软件工程师,机器学习就无法实现。甚至触摸顾客。

罗兰·梅尔滕斯:在您的跟踪中,有人谈论过如何实际部署您的模型吗?所以-

苏珊·舒畅: 是的。是的。文洁子。

罗兰·梅尔滕斯: 是的,好的。

苏珊·舒畅:是的,来自 Grammarly 的演讲者正在谈论阻止机器学习模型投入生产的常见陷阱。实际上,很多挑战都与找到正确的问题、与管理层沟通以及找到正确的解决方案有关。这对我来说实际上是一件事情,作为一名首席数据科学家,我在工作中也做了很多工作,那就是找出什么是多余的,什么是更实用的。

有时我们真的很喜欢从实际机器学习中基于规则的方法开始,我们现在有了一个可以与模型进行比较的基线。如果机器学习模型比简单的基于规则的方法表现得更差,那么这意味着我们不应该使用机器学习,或者机器学习需要大大改进,我们真的需要回去看看,是我们为此投入的资源值得吗?投资回报率值得吗?诸如此类的事情。所以在早期阶段,我们实际上真正关注其中的一些,它本身不是技术,而是这些规则和业务逻辑,但它是必不可少的,这样如果我们解决了错误的问题,我们就不会浪费数百万美元。。

罗兰·梅尔滕斯: 是的。那么你觉得现在AI机器学习方面,市面上有很多工具,尤其是这个GenAI,现在大家都可以调用GPT-4 API了,你觉得先了解一下AI还是有好处的吗?,机器学习,具体来说,了解这些模型是如何工作的?或者您认为现在对所有人开放?

苏珊·舒畅: 我认为现在对每个人都更加开放。我在我们举办的非会议中向与会者举了一个例子,QCon 的非会议是一场开放式会议,人们可以进来,提出他们感兴趣的主题,然后分组讨论每个主题。我在非会议主题中给出的例子之一是我认为软件工程师在机器学习领域如何发展。我忘记了确切的措辞,类似的东西,但我举的一个例子是我们公司,我们建立了一个人工智能助手。所以这就像一个聊天机器人,人们可以从供应商那里带来自己的 API 密钥,比如 OpenAI 或 Anthropic 等,他们可以将其放入 Elastic 中,假设他们正在使用我们的云版本,他们可以输入 API 密钥,然后我们就有了聊天机器人,它将回答有关 Elastic 产品的问题。

所以我们并不是要与 OpenAI 竞争,对吧?这就像一个协作的事情,用户使用 OpenAI 和我们,但工程师基本上能够完全自己构建 MVP,因为他们可以处理堆栈,然后他们可以处理构建 OpenAI 的连接器,对吗?召唤。所以他们可以完全自己建造这一切。我们更多关注的是改进或评估。如果我们必须进行微调,那么我们也可能会参与其中,即涉及打开黑匣子并进行调整的场景。提出这个例子的原因是,如今工程师可以在不确切了解内部结构的情况下构建很多东西。以前不是这样的,我觉得这是一个很好的方向。我对此感到非常兴奋。

罗兰·梅尔滕斯:是的,但是您是否有一种感觉,如果人们不了解到底发生了什么,就会导致他们失败?因此,如果有人不理解嵌入是什么,那么他们对增强生成的检索可能会变得有点困难 -

苏珊·舒畅: 是的。

罗兰·梅尔滕斯:...如果您只是将 Elastic 视为一个神奇的黑匣子,它会返回一些随机文档。

苏珊·舒畅: 是的,是的,这个观点很好。我认为这是一个很好的说法,即构建 MVP 很容易。除非您知道它是如何工作的,否则调试起来很困难。所以我认为这就是了解基础知识很重要的地方。了解这些不同的工具和技术如何工作非常重要。是的,所以如果你想调整、调整和调试,这就是它的用武之地。

罗兰·梅尔滕斯: 是的。

苏珊·舒畅:MVP,我认为很简单。

罗兰·梅尔滕斯: 是的。我认为一般来说,在软件领域,MVP 很容易。

苏珊·舒畅: 正确的。是的。是的。

罗兰·梅尔滕斯:实际上让它为您的客户提供价值似乎是更困难的方面。

苏珊·舒畅: 是的。确实如此。

弹性和生成式人工智能 [08:44]

罗兰·梅尔滕斯: 那么,是的,考虑到您在 Elastic 工作,那么您主要致力于生成式 AI 工具或其他方面的工作吗?

苏珊·舒畅: 有混合。我自己和我的团队拥有不同类型的用例和模型。因此,我将简要分享我们拥有的一些案例。因此,其中之一是我们提供监督模型,人们可以在 Elasticsearch 中运行他们的数据。因此我们无法访问 Elastic 客户的数据。所以我们训练这些模型的方式是通过我们自己收集数据,然后我们来训练模型。因此,由于 Elastic Common Schema,我们知道客户的数据,如果他们在 Elastic Common Schema 中摄取数据,数据将如下所示。字段名称正是这样。它将采用这种格式。这就是我们如何能够运送这些模型,在我们这边对其进行训练,然后将它们运送到下游,以便客户可以在他们的环境中使用它,而无需我们的参与。

这要归功于 Elastic Common Schema 以及人们喜欢将数据提取到 Elastic 中的事实。这是我们拥有的一部分,另一部分是增强人工智能助手的功能。

苏珊·舒畅:正如我提到的,我们的工程团队能够自己构建人工智能助手,然后我们将执行评估或研究、研发等任务,看看可以添加哪些其他功能。我们必须先证明它确实有效,然后才能将其添加到产品中。是的。

罗兰·梅尔滕斯: 你说必须证明它有效是什么意思?你如何证明它有效?

苏珊·舒畅:是的,我可以分享一个我自己和团队在博客上写过的正确例子。所以我只是想到公共示例,我们使用大型语言模型来进行会话摘要。因此,人们使用 Elasticsearch 的常见方式是摄取日志记录。因此,我们有垂直可观察性和安全垂直。这是因为人们将日志提取到 Elastic 中。那么数据很复杂吧?因此,我们将拥有这些大型 JSON 对象,其中可能包含命令行日志记录或性能日志记录等信息,以及您是什么用户、您是什么主机?我们想看看大型语言模型是否能够理解,给定日志流,比方说,用户在本次会话中做了什么?他们做了什么?

所以我们做了一个研发项目,我们抓取了我们拥有的真实日志,然后我们做了一些数据预处理。我们尝试了不同的方法来预处理数据。我们基本上通过大型语言模型提供这些日志,看看大型语言模型是否能够从这些日志中进行总结,这些日志可能是用户通过 SSH 连接到这里的。他们运行了这些命令。这些命令做了什么?他们不只是吐出来。

罗兰·梅尔滕斯:是的,但是这些日志可能非常大,对吗?

苏珊·舒畅: 是的,是的,确实如此。

罗兰·梅尔滕斯:所以上下文窗口也必须非常大。

苏珊·舒畅: 是的。这是我们必须做的一件事。我们做了一些事情来缩小我们输入语言模型的内容范围。所以当时,当然,我认为 4o,我们正在使用 GPT-4o,然后它有一个更大的窗口。哦,我们尝试了双子座,它有一个巨大的,我忘了,一百万,是吗?

罗兰·梅尔滕斯: 是的。

苏珊·舒畅: 是的。是的。好像我们也尝试过,但实际上并不意味着它表现得更好。我们必须返回并提取相关字段。所以我们注意到有些字段更......它们不是非常重要或者它们有重复的数据。一个简单的例子是,我们有时间戳,或者某种开始时间,或者其他什么。我们可以删除其中一些事件以及一些高度重复的事件。如果合并它们有​​意义,那么我们就必须合并它们。我们并没有在这上面花费太多时间,这只是第一次通过启发法之类的事情,以缩小我们要传递到语言模型中的内容。我们如何评估这一点是因为我们拥有主题专业知识。我们有一名安全研究员。他们会按照平常总结的方式来总结,比如这里的相关流程是什么?这次会议发生了什么?

罗兰·梅尔滕斯:他们会总结用户在会话中做了什么?

苏珊·舒畅:是的,使用他们的方式-

罗兰·梅尔滕斯: 用自然语言。

苏珊·舒畅: 是的。是的,我们有一些,几乎就像一项调查,比如你认为他们做了什么,或者你认为这些日志中的相关部分是什么?诸如此类的事情。然后我们将其与大型语言模型给出的响应进行比较。是的,所以——

罗兰·梅尔滕斯: 是的,有趣。

苏珊·舒畅:...这很有趣。我现在想说的是,这仍然只是一个研发项目。我们目前没有将其合并到功能中,但我不知道,我们将来可能会重新审视它,但这些是我们团队所做的一些事情,即我们将运行这些研究实验,然后我们'我们会进行评估,然后再看看。我们的待办事项中可能有一些可能处于产品中的各种状态。所以我只是分享我们已经公开分享的这一点。是的,但这并不意味着它会出现在产品中。这只是意味着我们已经尝试过这一点,并从中吸取了教训,因为实际上在这个项目中,我们创建了一个评估模板,我们只是将其用于后续项目。所以它的可重复性很强。

开始机器学习的推荐工具 [14:27]

罗兰·梅尔滕斯:是的,而且现在人工智能工具和人工智能方法发展得很快。确实很难知道下一件大事是什么,或者您必须如何调整数据库才能使此类工作更快或更好。这是相当困难的。如果人们开始学习机器学习,您是否会建议他们开始使用任何特定的算法或工具,或者他们应该尝试什么具体的算法或工具?

苏珊·舒畅:我认为现在为了创建一些 GenAI MVP,我认为很多人开始使用 Streamlit 等工具。所以,我想这是一个非常……我不知道如何描述它。

罗兰·梅尔滕斯:它是Python 的前端。

苏珊·舒畅: 是的。是的,是的。非常抽象的前端,他们将所有样板放入......将其全部包裹起来,这样它就可以创建-

罗兰·梅尔滕斯:提供网站功能。

苏珊·舒畅: 是的。是的,完全正确。因此人们可以用几行代码创建一个交互式聊天机器人。它可能有一个用于一些基本响应或内置模板的下拉菜单,然后您可以有一个输入框。我不知道在网络开发术语中你在哪里输入。

罗兰·梅尔滕斯: 是的。

苏珊·舒畅: 是的。

罗兰·梅尔滕斯:是的,是的,st.input。

苏珊·舒畅: 好吧好吧。是的,然后是输出。然后你就可以很快地做到这一点。实际上,我们可以将其用于工业界的机器学习人员,他们可能会用它来快速构建一个真正的快速原型。它不漂亮,不可扩展或其他什么,但它只是为了向某人展示它的外观。假设我们正在与产品人员沟通。最好向他们展示它,而不是假设它输出一些 JSON。向他们展示这有点不太明显。是的。

罗兰·梅尔滕斯:是的,说服其他人运行 Python 脚本并拥有正确的依赖项总是比仅仅将 URL 发送到本地 Streamlit 需要更多的时间。

苏珊·舒畅: 是的。是的,完全正确。是的。所以我认为这是一个有用的工具。真的,更多的是玩具学习,对吧?但它必须从某个地方开始。

罗兰·梅尔滕斯: 是的。

苏珊·舒畅:是的,是的,不是为你的学习项目构建一些巨大的、端到端的。绝对不是。

罗兰·梅尔滕斯: 是的。是的,不,我也经常使用它。我真的很喜欢它。您推荐的任何其他工具,或者-

苏珊·舒畅:我认为这是主要的,因为我认为,如果我们暂时搁置 GenAI,对吗?在过去,我会建议人们运行他们选择的任何东西,真的,他们可以运行......我更多地谈论Python堆栈,因为那是我主要工作的地方,但只是选择你自己选择的东西。但我会推荐人们,比方说,他们可以用 Django 启动一些东西,他们可以做 FastAPI,他们可以做 Sanic,等等。有一些,抱歉,声音太大了,但只是,有一些你喜欢的,然后尝试用它构建一个简单的应用程序。它比仅仅使用 Streamlit 更复杂一些,但它是相同的概念,即您了解机器学习的输入和输出,这对人们的学习有很大帮助,这如何适应整个基础设施?

罗兰·梅尔滕斯: 是的。是的,这样你就可以真正将 Python 函数最终作为服务,或者作为人们可以调用的 API。

苏珊·舒畅: 是的。

机器学习访谈 [17:45]

罗兰·梅尔滕斯: 真是太好了。您还写了一本书,《机器学习访谈》。你是怎么想到写这篇文章的?

苏珊·舒畅: 是的,所以这是一个有趣的故事。我想我会尽量保持简短。正如我提到的,我正在为 O'Reilly 开设在线课程。所以这是一门直播课程。所以我现场回答了问题,主题是围绕机器学习面试的。所以它是为了帮助那些新手或者他们只是想快速复习一下的人,但我想,主要目标是那些新毕业生或职业转型的人。我正在运行这个直播课程,看起来效果不错,收视率很高。然后出版商问我是否愿意为这本书做一个提案,实际上一开始,我说,“不,我很忙。我不会提出提案”。但过了一段时间,我最终确实回去创建了提案。

我想有时针对不同的主题,他们可能会同时提出不同的建议。让我们举一个简单的例子。假设他们正在寻找有关编排或其他什么的主题,对吧?他们可能有一些人在编排方面有不同的建议。所以他们当然不可能总是接受所有的,所以他们必须选择当时最适合他们的一个。所以我很幸运我的被选中了。所以我开始写这本书,花了我一年的时间,而且我真的很喜欢写作。

罗兰·梅尔滕斯:你是用一年的全职时间来做这件事,还是利用业余时间来做这件事?

苏珊·舒畅: 空闲时间。

罗兰·梅尔滕斯: 哦。

苏珊·舒畅: 闲暇时,可以。

罗兰·梅尔滕斯: 非常印象深刻。

苏珊·舒畅: 是的。是的,我认为这需要大量的时间管理。所以每周三到五个小时,有时多,有时少。但我想说,我更像是一个缓慢而稳定的人,就是我只是做一点,做一点,做一点,我不喜欢死记硬背。

罗兰·梅尔滕斯: 是的。是的。

苏珊·舒畅:是的,所以压力较小,但也需要大量的时间管理和精力管理。

罗兰·梅尔滕斯: 是的。有趣的。因此,如果人们正在听这个并且他们即将进行面试,那么现在是否有一套固定的技能是每个人都需要掌握的,还是仍然如此,这是否取决于你申请的地方以及你从事哪种机器学习工作正在申请?

苏珊·舒畅: 是的,依赖性很强。因此,我写这本书的目的之一是首先描述一个非常通用的机器学习生命周期和工作流程。因此,您可能从原始数据开始,然后您将拥有传入的数据管道。然后,比方说,您将进行模型开发,然后您将进行模型部署。因此,鉴于这个简单的生命周期或工作流程,这些工作将对应于其中一项或多项职责。但很多求职者(甚至我以前也犯过这个错误)的一件事是,我可能会在网上搜索机器学习面试。同一篇标题为“机器学习访谈”的文章可能会涵盖有关 MLOps 的内容。一篇名为“机器学习访谈”的在线文章可能会涵盖统计数据、概率以及那些经典算法。他们还可能涵盖数据分析等内容。

所以人们可能会想,“哦,我必须为其中的每一个做好准备”,但事实是,这实际上取决于工作描述中的工作目标是生命周期的哪个部分,然后为此做好准备首先,优先考虑这些问题。这就是本书涵盖的内容,如何选择优先考虑的主题,以及主要的机器学习算法、机器学习中常见的主要通用操作技能和工具,以及各个角色的职责。是的,因为我提到它是针对初学者或...的人

事实上,机器学习中有一个有趣的事情,那就是那些有经验的人,根据他们在做什么类型的事情,他们可能仍然想读这本书,我听说有人这样做。他们仍然发现这本书很有帮助,即使他们已经在 ML 领域工作,这我并不感到惊讶,但我也有点惊讶,因为人们在模型训练之间过渡到更多在软件方面,回来为更多的数据分析师进行模型培训... 一直来来回回。所以他们想知道在面试中应该涵盖哪些内容。

罗兰·梅尔滕斯: 是的。是的,但我认为那是……现在,我要继续咆哮,但如果你是一名软件开发人员,你知道你将接受某种 LeetCode 面试,这可能会令人沮丧。所以你可以练习 LeetCode,然后你可能就为未来 20 年的技能做好了准备。机器学习领域正在迅速发展,并且每天都在成长。这使得真正学习技能变得更加困难。另外,我最喜欢的事情之一就是采访那些一直在这个领域工作的人,因为与刚刚从课程毕业的人相比,他们对你提出的问题总是有非常不同的答案。是否有人经常问一些你讨厌的问题,你会想,“你应该停止问这个。这不会给你的面试过程增加任何信号或任何价值。”?

苏珊·舒畅:哦,我认为可能会犯的一个错误是过于关注特定的工具。因此,当我审阅简历以及当我是面试官时,比方说,他们提到他们使用 PyTorch。所以在我看来,我实际上将其等同于 TensorFlow 和其他一些工具。

罗兰·梅尔滕斯: 是的

苏珊·舒畅:但我认为过于关注精确工具的人可能会听到,“哦,你没有使用这个”,所以也许它不算数。或者有一些数据仓库工具,比如说,您正在使用 Presto 或其他一些东西。我忘了,Teradata,或者……这是几年前的事了。所以这是当时很热门的其他一些工具。因此,如果您使用其中之一,那么您就使用了所有它们。您可以立即从这两个 BigQuery 之一转到。你不需要学习BigQuery,只需要编写SQL,并且可以在任何地方编写。它可以写,你很好。所以我认为稍微关心这些的人对于找到合适的候选人并没有太大帮助。它不必要地限制了池。

罗兰·梅尔滕斯: 是的。好的。因此,建议不要专注于特定的工具,而应更多地关注工程师技能。

苏珊·舒畅: 是的。

罗兰·梅尔滕斯:是的,然后也许作为最后一个问题,如果有公司正在安排机器学习面试,您对他们应该问什么问题,或者他们应该关注什么,或者他们应该如何组织面试有什么建议吗?更好的?

苏珊·舒畅:所以我认为了解你想要雇用什么技能真的非常非常重要。所以我提到了一般机器学习生命周期,你是否希望这个人做引入数据的早期步骤,所以更像是数据工程师类型的问题?或者你希望他们专注于模型训练?或者说,对于 GenAI,情况有点不同,但可以说,我们专注于 ML 模型训练。如果他们的主要责任是这个,那么就询问一下。如果他们更负责机器学习、运营、MLOps,那么就询问一下。看看他们是否能够胜任你在团队中扮演的角色,这一点非常重要。

我认为我也看到的一个错误是,它甚至不是新问题,这不是一个新问题,但由于 ML 是引用、取消引用、“热门”,人们可能会想,“哦,我们公司需要机器学习”。但随后他们并没有坐下来真正定义这是什么、将放在哪里、如何适应产品。所以他们的面试到处都是,因为正如我的一个朋友提到的,他们想要一个独角兽,但他们甚至不知道他们想要这个独角兽在公司的什么位置。所以-

罗兰·梅尔滕斯:他们没有独角兽的空间。

苏珊·舒畅: 是的,是的,完全正确。总而言之,了解您想要这个角色的位置,哪些技能可以使他们对该角色做出贡献,然后从那里开始面试以提出目标问题是很有用的。如果你正在招聘更高级的人员,那么常见的高级事情就适用,比如,哦,领导一个项目,指导人员。但我认为对于机器学习,对于更高级的人员或中层人员,我希望他们实际上对其他职责也有更多的了解。

因此,假设一个中级到高级的人负责模型训练,他们将开始比专注于模型训练的初级人员对 MLOps 及其工作原理有更多的了解。因此,您的级别越高,您就越需要拥有更多的端到端可见性。所以我认为面试问题也可以尝试抓住这一点。您是否曾参与过管道的其他部分,或者您是否非常专注于此(例如模型训练)?但是,再说一遍……是的。

罗兰·梅尔滕斯:是的,所以更像是技能的广度,而不是仅仅专注于模型训练的狭隘性。

苏珊·舒畅:是的,或者T形或者类似的东西,因为随着人们成长到高级,这将有助于扩大规模,也就是说你看到的端到端的越多,你就越能够沟通。因为我做了一段短暂的 MLOps 工作,而且我通常不会这样做,但它帮助我与未来合作的任何人进行更多的沟通,了解我希望如何设计工作以及诸如此类的事情。它对于那些正在扩大规模的人有很大帮助。

而且,哦,另一件事,实际上,我还有更多的想法,因为对于更大的公司来说,肯定会发生更多的专业化。假设有人可以非常非常深入地进行模型训练。他们是研究科学家什么的。因此,肯定存在例外情况,也许他们不需要了解太多有关部署过程的信息,但这仍然使他们与众不同。考虑到另一位具有完全相同技能的候选人,这将使他们脱颖而出。

多了解一下之前发生的事情和之后发生的事情将会非常有用,但是,是的,我认为这对于新手来说不太相关,但更多的是关于在 ML 角色中的成长。我认为实际上我想提的另一件事是,人们可以很好地面试某种技能,但如果这不是公司所需要的,一家对他们想要雇用的人有很好的愿景的公司,他们仍然可以获得被拒绝了。所以我要提出一个,我无法分享细节-

苏珊·舒畅:...但我们的团队有两个主要部分。比如说,一种需要更多的操作技能,另一种需要更多的机器学习建模技能。因此,每次我们招聘时,我们都会雇用可能更适合一种情况的人,而更适合另一种情况的人。因此,如果我们正在招聘其他人才,今天的理想候选人可能就不再是下个月的理想候选人,因为我们知道这个团队需要什么,也知道现在缺少什么。

所以我认为对于正在面试的人来说,这几乎也是一个运气问题,或者你必须真正与其中的角色保持一致......比方说,他们真的想,对于来自软件背景的人来说,有些团队在这个时候想要利用你的软件技能,那么也许你的其他技能就不那么重要了。有时他们想更多地利用其他技能。因此,即使职位描述没有说得很清楚,这也可能会阻碍人们在面试中的表现,但这需要一点运气。

罗兰·梅尔滕斯:是的,就运气而言,也差不多了,有合适的吗?

苏珊·舒畅: 是的。

罗兰·梅尔滕斯:我认为机器学习工作的适合性不如开发工作那么明确。

苏珊·舒畅: 是的。是的,是的,是的。

罗兰·梅尔滕斯:但从这个意义上说,也许我们还没有足够的专业化,除非人们想申请成为即时工程师,那么......是的。

苏珊·舒畅: 是的。

罗兰·梅尔滕斯:Susan,非常感谢您加入 InfoQ 播客并参加我们在旧金山的 QCon,祝您度过愉快的时光。

苏珊·舒畅: 是的。再次感谢您邀请我。

提及

您可以通过我们的播客了解最新动态RSS 源,并且它们可以通过声云,苹果播客,Spotify,灰蒙蒙YouTube。从此页面您还可以访问我们录制的演出笔记。它们都有可点击的链接,可将您直接带到音频的该部分。

关于《Susan Shu Chang 谈连接基础机器学习和生成人工智能》的评论


暂无评论

发表评论

摘要

感谢您总结了 Susan Shu Chang 在 InfoQ 播客上的采访要点!以下是基于讨论内容的一些要点和其他见解:1. **书籍推荐**:Susan 提到了她的书《机器学习访谈》,这本书为那些准备进入或晋升机器学习角色的人提供了宝贵的指导和见解。2. **端到端理解**:对于中高级机器学习专业人员来说,了解从数据收集、模型训练、部署到监控的整个流程至关重要。这种 T 形知识可以帮助个人在项目的不同阶段更好地沟通,并为他们担任跨职能协作至关重要的领导角色做好准备。3. **角色专业化与通用性**:较大的公司通常在 ML 中拥有更专业的角色,例如专注于模型训练的研究科学家或致力于部署过程的 MLOps 工程师。然而,拥有超出你的主要专业知识的知识可以让你在面试中脱颖而出,并使你成为各种团队和项目的多才多艺的候选人。4. **公司需求和契合度**:根据公司当前的需求和发展阶段,理想的候选人资料可能会在不同公司之间存在很大差异。例如,一家公司可能在某些时候优先考虑软件工程技能而不是机器学习专业知识,而另一家公司可能要求相反。将您的技能与公司当前的需求相结合(即使职位描述中没有明确说明)可以大大提高您的成功机会。5. **面试准备**:考虑到机器学习角色不断变化的性质以及该领域内日益专业化的趋势,准备面试需要了解如何将您的背景应用于不同的场景,并在讨论您的核心能力和更广泛的知识时表现出灵活性机器学习过程。6. **网络和持续学习**:Susan 强调,机器学习求职的很多成功还取决于网络和不断更新个人技能,以跟上该领域的最新进展,例如自然语言处理和生成人工智能。这些见解凸显了机器学习行业的动态本质以及适应性、持续学习以及个人技能与公司需求之间的一致性的重要性。