想要在 2024 年底之前撰写第一篇 TDS 帖子吗?我们始终欢迎新作者的贡献。
就这样,2024 年(几乎)已经成为现实。这是令人兴奋的转变的一年 – 两者对于 TDS 团队并且以许多有意义的方式为整个数据科学、机器学习和人工智能社区服务。我们要感谢你们所有人——读者、作者和追随者——的支持,感谢你们让我们忙碌并参与你们的精彩贡献和评论。
与 2023 年不同的是,当时的一个事件(ChatGPT 在年初前几周推出)让每个人都停下了脚步,并连续几个月形成了对话,今年我们经历了一种更加累积和碎片化的转变感。行业和学术界的从业者尝试了新工具,并努力寻找创新方法,以从法学硕士的快速崛起中受益;与此同时,他们还必须应对充满挑战的就业市场和人工智能的足迹越来越接近他们自己的日常工作流程的世界。
为了帮助您了解这些进展,我们去年发表了 3,500 多篇文章,其中数百篇来自首次投稿者。我们的作者拥有令人难以置信的技巧,可以将他们独特的视角注入到他们所涵盖的任何主题中——从重大问题和及时的主题到更有针对性的技术挑战——我们为 2024 年发表的每一篇文章感到自豪。
在如此庞大的创意产出中,有些文章特别能引起读者的共鸣,我们将最终的 Variable 版本献给这些文章:我们今年阅读量、讨论量和分享次数最多的帖子。正如您所料,它们涵盖了很多因此,我们决定按照我们今年发现的主要主题来安排它们:从头开始学习和构建、RAG 和人工智能代理、职业发展以及突破和创新。
我们希望您喜欢探索我们的 2024 年亮点,并祝您度过一个轻松的年末——一月见!
从头开始学习和构建
最可靠、最受欢迎的 TDS 帖子类型是教读者如何在最少的先决条件下自己做或研究一些有趣且富有成效的事情。今年也不例外——我们 2024 年阅读次数最多的三篇文章就属于这一类。
- 本周末即可构建 5 个人工智能项目(使用 Python)
从适合初学者到高级的项目想法,肖·塔勒比证明任何人都可以亲身体验人工智能。 - 使用中学数学从头开始了解法学硕士
LLM 是如何运作的?罗希特·帕特尔提供了您能找到的有关该主题的最容易理解和最具吸引力的解释之一。 - 如何自学人工智能(自学指南)
对于那些自我启动的人来说,秋武制定一个简化的路线图来研究人工智能的基本构建模块。 - 神经网络背后的数学
了解神经网络——现代人工智能的支柱——克里斯蒂安·利奥引导我们深入了解其基本的数学原理。 - 文本嵌入:综合指南
嵌入使法学硕士的魔力成为可能,并且玛丽亚·曼苏罗娃— 全面的介绍清楚地表明了它们如何以及为何变得如此重要。 - 我如何在两周内学习法学硕士:综合路线图
另一种优秀的学习资源来自希萨姆·谢赫他带领我们完成了密集但易于理解的课程,以掌握大型语言模型的基础知识(以及一些)。
RAG 和 AI 代理
一旦围绕法学硕士的最初兴奋感(稍微)平静下来,数据和机器学习专业人士意识到这些强大的模型并不是开箱即用的。检索增强生成和代理人工智能在过去一年中脱颖而出,成为弥合模型潜力和现实价值之间差距的两种主要方法;它们也最终成为我们近几个月来报道最多的技术主题。
- LangChain 的 LLM 代理介绍:当 RAG 不够用时
早在三月份——而且相当领先——亚历克斯·洪查尔出版了与代理商合作的权威初学者指南。 - 使用 LangChain ReAct 代理回答 RAG 系统中的多跳问题
向我们展示代理和 RAG 如何相辅相成,瓦尔什塔·谢尔博士– 教程解决了回答内部文档的复杂查询的常见需求。 - 将您的 LLM 应用程序原型转变为生产就绪解决方案的 17 种(高级)RAG 技术
构建一个基本的 RAG 管道是一回事,另一个又是一回事。优化它以使其能够在业务环境中实际工作是另一回事。多米尼克·波尔泽整理出一份全面的指南,介绍您可以用来实现这一崇高目标的方法。 - 12 个 RAG 痛点和建议的解决方案
在类似的故障排除节拍中,文琪·格兰兹概述了十几种简化的方法,用于解决从业者在实施 RAG 时面临的一些最常见的挑战。 - 在 LLM 代理框架之间进行选择
在主要参与者和新兴参与者每天都会发布新工具的生态系统中,做出明智的选择可能很困难。阿帕娜·迪纳卡兰旨在帮助您深入了解需要记住的权衡。
职业发展
数据科学和机器学习的职业道路不断发展,适应这种不断变化的形势的需要可能会给许多专业人士带来巨大的压力,无论他们是深入职业生涯还是刚刚起步。我们喜欢发表关于这个主题的个人思考,同时也为读者提供实用的建议——这里有四个对我们(和我们的读者)来说很突出的建议。
- 在 Uber、Meta 和初创公司工作的 10 年教会了我关于数据分析的哪些知识
从讲故事和商业头脑的重要性到指标的局限性,托斯顿·瓦尔鲍姆慷慨地将十年工作经验教训转化为可行的见解。 - 作为一名自由数据科学家,我在前 3 个月学到了什么
职业转换总是很棘手的,从公司工作结构转向个体经营的世界会带来一系列挑战——而且,CJ沙利文表演,提供了很好的学习和成长机会。 - 我如何成为一名数据科学家 — 没有计算机科学学位,没有训练营
对于刚刚迈出该领域第一步的人来说,叶戈尔·豪厄尔本书对他进入数据科学的道路进行了坦率的描述,值得一读。 - 我花了 9.6 万美元成为一名数据科学家。这是所有初学者都必须了解的 5 个重要教训
提供进入该学科的不同视角,胡卢德·埃尔·阿拉米提供有关管理数据科学教育的实用技巧,以便您走上正确的道路。
突破与创新
掌握最新的前沿研究和新工具有时会让人感到不知所措,这就是为什么我们对新兴库和模型的一流论文演练和入门读物特别情有独钟。以下是三篇特别引起我们观众共鸣的文章。
- 新的相关系数
“如果你被告知存在一种新的方法来衡量两个变量之间的关系,就像相关性一样,而且可能更好,你会怎么办?”所以开始蒂姆·萨姆纳— 2020 年一篇开创性论文的解释者。 - DSPy 简介:再见提示,你好编程!
在开源工具又一个激动人心的一年里,DSPy 是最引人注目的新工具之一,它旨在为程序员开放法学硕士课程,让构建模块化人工智能解决方案变得更加容易。莱奥尼·莫尼加蒂– 实践介绍是开始探索其可能性的完美起点。 - 柯尔莫哥洛夫-阿诺德网络:神经网络的最新进展,简单解释
KAN 作为多层感知器 (MLP) 的有希望的替代品,在去年春天引起了人们的注意;西奥·沃尔夫通过这本易于理解的入门读物,让机器学习从业者的影响和潜在好处变得显而易见。