忘了聊天吧。能够听、看和点击的AI已经在这里了。

附件A：谷歌的NotebookLM。NotebookLM是该公司一年前低调推出的一款研究工具。几周前，Google为NotebookLM添加了一个名为Audio Overview的人工智能播客工具，该工具允许用户创建关于任何主题的播客。例如，您可以添加一个链接到您的LinkedIn个人资料，然后AI播客主持人将为您提供九分钟的赞美。此功能已成为意外的病毒式热门。我写到了人们以所有奇怪和令人惊叹的方式使用它的种种情况这里.

为了让你尝个鲜，我制作了一期关于我们第125周年纪念杂志的播客。人工智能出色地挑选了一些杂志亮点，并简要介绍了它们的内容。请在下方收听。

多模态生成内容也在非常短的时间内显著改善。2022年9月，我报道了Meta的第一个文本转视频模型，制作视频与今天的科技相比，那些视频看起来笨拙且滑稽。Meta刚刚宣布了其竞争对手OpenAI的Sora，名为电影类型该工具允许用户使用文本提示创建自定义视频和声音，编辑现有视频，并将图片转换为视频。

我们与AI系统交互的方式也在发生变化，不再那么依赖文本。开放AI的新版本画布该界面允许用户与ChatGPT协作项目。与其依赖传统的聊天窗口，需要用户进行多轮提示和重新生成文本以获得所需结果，Canvas允许人们选择要编辑的文本或代码片段。

甚至搜索功能也在获得多模态升级。除此之外在AI概览中插入广告谷歌推出了一项新功能，允许用户上传视频并使用语音进行搜索。在Google I/O的演示中，该公司展示了如何打开Google Lens应用，拍摄水族馆里游动的鱼的视频，并询问关于它们的问题。然后，谷歌的Gemini模型将在网上搜索，并以谷歌AI总结的形式为你提供答案。

把这些功能联系在一起的是一个更互动、可定制的界面以及将AI工具应用于各种不同类型源材料的能力。笔记本电脑LM是最近一段时间内第一个给我带来惊奇和愉悦的AI产品，部分原因是它的AI声音与众不同、逼真且出人意料。但事实证明，尽管NotebookLM的音频概览只是大产品中的一个隐藏侧面功能，它却成了热门，这恰恰说明了AI开发者其实并不知道自己在做什么。难以置信的是，ChatGPT本身最初也是一个意外爆红对于OpenAI.

我们已经进入了价值数百亿美元的生成式人工智能繁荣时期一两年。对人工智能的巨额投资促进了生成内容质量的快速提升。但至今尚未出现杀手级应用，这些新的多模态应用程序是由于AI公司在赚钱和交付成果的巨大压力下产生的。科技公司正在向人们推出不同的AI工具，并观察哪些会受到欢迎。

深度学习

人工智能生成的图像可以教机器人如何行动

图像生成的人工智能模型已被用于为机器人创建训练数据。这个新系统被称为Genima，它对图像生成人工智能模型Stable Diffusion进行微调，以绘制机器人的动作，帮助它们在模拟和现实世界中进行导航。

有什么大不了的：Genima可以使训练不同类型机器人完成任务变得更加容易——从机械臂到类人机器人和自动驾驶汽车。它还可以帮助改进AI网络代理，这是新一代的AI工具，可以在很少监督的情况下执行复杂任务，使其在滚动和点击方面更加出色。阅读更多Rhiannon Williams的文章here.

位和字节

这家初创公司利用人工智能来检测森林火灾
我们的2024年值得关注的气候科技公司名单出炉了！名单上有一家公司是Pano AI，它利用计算机视觉和超高清摄像头向消防员发出新火灾警报。 MIT技术评论)

萨姆·阿尔特曼如何将权力集中到自己手中
然后就剩下一个了。随着OpenAI目前估值达到1570亿美元，彭博社详细报道了该公司如何失去了大部分顶级高管，并在Altman领导下转变为一个盈利的怪物。彭博社)

八位科学家，十亿英镑，以及致力于让英国再次伟大的登月机构
一篇关于英国新成立的先进研究与发明机构（ARIA）的好文章。该机构是美国DARPA在英国的回答。它资助了诸如图灵奖得主约书亚·本吉奥的项目，以开展相关工作。防止人工智能灾难. ( Wired)

为什么科技界的女性在发出警报
科技界的AI狂热正促使该领域倒退多年来的多样性和包容性努力，尤其是以女性为代价。信息资讯)

OC

忘了聊天吧。能够听、看和点击的AI已经在这里了。

深度学习

位和字节

关于《忘了聊天吧。能够听、看和点击的AI已经在这里了。》的评论

发表评论

摘要

相关新闻

相关讨论