AI研究人员通过Google Gemini从一段35秒的屏幕录制中刮取了不到一美分的可用数据

2024-10-18 15:54:24 英文原文

作者:Jowi MoralesSocial Links NavigationContributing Writer

AI screen recording web scraping
(图片版权:shutterstock_2284126663)

AI研究员和数据记者Simon Willison使用了谷歌AI工作室一个将35秒的屏幕录制(包含12封邮件)转换为单个电子表格的工具。这一实验令Willison感到惊讶,他没想到AI能在如此低成本的情况下返回准确的结果。根据他的博客(感谢) Ars Technica),AI Studio因此收取了他11,018个令牌,以每个令牌7.5美分的价格计算,这相当于不到1美分的10%。

威尔森不想手动搜索散落在12封邮件中的数据,将这些数据复制到电子表格中再进行处理。相反,他们创建了一个极其简单的提示:“将其转换为一个JSON数组,其中每个项目包含一个yyyy-mm-dd格式的日期和该日期对应的浮点美元金额。”这个提示在35秒的视频中搜索并返回所有以JSON格式的对象的数据。

{
    "日期": "2023-01-01",
    "金额": 2...
  },

这被格式化为CSV格式,以便轻松导入电子表格。Willison并不完全信任这个过程,但令他们惊讶的是,它完全没有错误地成功了!

这个任务的成本?不到一美分!实际上它是免费的因为谷歌AI Studio 目前免费。但为了预防潜在的成本,Willison 做了计算。他们本打算使用 Gemini 1.5 Pro(据称是谷歌的最佳模型),却意外地用了 Gemini 1.5 Flash 002。不过让我们按照 Willison 的计算来看。

它花费了11,018个令牌(其中10,326个用于视频处理)。Gemini 1.5 Flash每一百万个令牌收费0.075美元。

11018/1000000 = 0.011018

0.011018 * $0.075 = $0.00082635

获取Tom's Hardware的最佳新闻和深入评测,直接发送到您的邮箱。

所以如果威尔森在付费,那将仅花费百分之一美分!

从收件箱中抓取几封邮件的数据可能看起来是一个无需自动化辅助的简单任务,但如果需要从一百或甚至一千封电子邮件中查找数据,则情况会有所不同。除了屏幕录制并将数据提供给AI之外,还有其他替代方案,例如使用API来抓取您的收件箱或在Gmail中使用Google自己的Gemini工具。然而,前者需要一些编程知识,而大多数用户可能并不熟悉;后者则有其自身的问题,可能会让您对授予Gemini访问您整个收件箱的权限感到不安。

让视频抓取成为一个如此强大的工具的原因是,任何人都可以轻松使用它——你只需要一种屏幕捕获方式和一个多模态工具(如 Gemini 1.5),就可以从你在屏幕上记录的信息中生成数据库。除了不需要任何专业知识之外,你可以从潜在的任何来源抓取数据。例如,亚马逊阻止网络爬虫抓取它的内容,但它仍然需要向最终用户展示其页面。因此,如果您需要从100种产品中收集数据,您可以简单地在打开所需商品的页面时录制屏幕,然后让您的AI工具提取信息。虽然这仍然不像设置一个网络爬虫并让它运行那么简单,但与手动完成所有工作相比,这种方法更快且出错几率更小。

这实际上与有争议的同一个概念相同微软的回忆工具介绍了其Copilot+ PC和适用于macOS的第三方Rewind AI工具。然而,即使这些工具仅在兼容设备上本地处理您的数据,它们仍然存在固有的隐私问题,因为它们会记录您使用计算机时的所有屏幕内容,并将这些内容保存在一个本地文件夹中。即使截图没有上传到云,但它们被保存在您电脑上的一个地方这一事实使您的数据变得脆弱。

我们想知道下一个尝试这个的人会取得什么成就?

乔伊·莫拉莱斯是一位拥有多年行业工作经验的技术爱好者。自2021年以来,他一直为多家科技出版物撰写文章,他对技术硬件和消费电子设备充满兴趣。

关于《AI研究人员通过Google Gemini从一段35秒的屏幕录制中刮取了不到一美分的可用数据》的评论


暂无评论

发表评论

摘要

(Image credit: shutterstock_2284126663) AI 研究员和数据记者 Simon Willison 使用 Google AI Studio 工具将一段 35 秒的屏幕录制视频(包含 12 封电子邮件)转换成一个单一的电子表格。"date": "2023-01-01", "amount": 2... }, ...然后将其格式化为 CSV 格式,以便轻松导入电子表格。让视频抓取成为一个如此强大的工具的原因是它使用起来非常简单——你只需要一种方式来捕捉你的屏幕,并且一个多媒体工具(如 Gemini 1.5),就可以从你在屏幕上记录的信息中生成数据库。除了不需要任何专门的知识之外,你可以从潜在的任何来源抓取数据。Jowi Morales 是一名拥有多年行业经验的技术爱好者。