作者:By Reid Hoffman
由于AI准备交付的变化规模是如此之大,因此我们希望确切知道即将发生的事情以及何时同样紧迫的愿望。”
它也不可避免地投机。
各种行业领导者和专家最近断言,人工通用情报 - 一个假设的阶段,计算机可以在人类层面执行任何认知任务的假设阶段 - 将在三年内到达。我没有猜测AGI,而是在一个不同的问题上进行了进展。
AI是否会从现在开始三年后更有用,更强大,更强大,更加整合到生活的各个方面?
答案是:是的,当然。
为了证明,请考虑最近的历史。在2022年春季,OpenAI发布了GPT-3的密钥更新,该更新显着提高了模型的连贯性,而不是以前的版本。尽管如此,缺乏可访问的界面意味着,大多数人都有比解释GPT-3是什么或如何使用它更好的命名所有最高法院法官的机会。
六个月后,Openai发布了Chatgpt并改变了一切。使用简单的聊天界面,OpenAI制作了几乎任何人都可以使用的高级语言模型。这促进了一个广泛部署,快速创新和加速反馈循环的新时代。它还助长了整个部门的投资和利益,使AI助理功能成为软件的默认期望,从文字处理器到客户服务门户。”
问题不再是大型语言模型是否可以有用,而是它们可以改变经济的速度。关于AGI的认真对话变得不那么假想。在2023年3月4日发布GPT-4之后,预测AGI可能在两到三年之内到达的预测开始从边缘转移到主流。
这还没有通过,但考虑了所有。在2022年,AI模型可以生成图像或处理文本,但是它们在无缝的统一工作流程中都无法做到这两个。如今,诸如GPT-4和Gemini之类的多模式系统以使互动感觉更自然甚至琐碎的方式整合了文本,视觉和音频功能,而这正如电视遥控器所教会了我们的那样,这正是大规模转换的开始。
在2022年,模型忘记了从一个会话到下一个会话的所有内容。如今,内存功能允许在对话和任务之间进行连续性,并且AI越来越适应您的说明,对您提供的文档和其他媒体进行微调,并执行曾经需要杂耍多个工具或自己做所有事情的工作流程。
2022年的GPT-3上下文窗口仅为2,048个令牌,或大约1,500个单词,这意味着它可以记住单个交互中的几页先前文本。这足以回答基本问题或保持简短的对话,但是它通常会在较长的互动中丢失线程,或者未能在各节之间连接想法。实际上,它具有金鱼的记忆。
如今,许多最佳模型都具有对大象甚至一小部分大象的记忆。Google的Gemini 2.0 Flash具有100万个to上下文窗口。Llama 4,Meta的最新型号具有1000万。随着能力呈指数级的增加,这些模型可以在一个提示中轻松处理和分析多个书籍和技术手册。他们可以在不丢失线程的情况下跟踪长时间的多步对话,甚至可以通过详细的法律合同或计算机源代码进行工作,同时保持数百页的连贯性和相关性。
如果您是作家,则可以将完整的书本草稿喂入模型,然后要求它确定参数结构,语气或事实主张中的不一致之处。如果您是软件工程师,则可以将整个代码库放入提示中,并在单个通行证中调试一个持续的问题。发生了什么变化的是,模型的想法如何。它可以一次想到多少。
所有这些属性对于使AI感到真正的适应性,个性化和背景意识至关重要。
将内存和多模态放在一起,您不仅可以获得增量升级。今天的AI与最近的前辈在处理输入,处理上下文和跟踪时间的方式上已经有根本不同。即使没有基本模式匹配功能的指数飞跃,从数据库到聊天机器人到受信任的红颜知己和创意合作伙伴,这一转变也正在从自动完成到合着者。
想象一下,当多模式模型可以在交互过程中摄入甚至生成视频时,会发生什么。当前模型根据提示模拟同理心和语气。但是,凭借更好的对话记忆以及通过声音变化,面部表情,单词选择和语法来检测影响的能力,未来的AIS将能够有效地响应您的不同情绪状态 - 如果您愿意
得益于此类进步,2028年与AI的互动将与今天的质量不同。从2022年开始。即使我们在科幻意义上也没有达到AGI,我们仍然生活在一个越来越像科幻小说的世界中。我们中的更多人将利用机器有效地管理我们的侧面障碍。我们将依靠AI健康顾问,这些顾问在我们甚至注意到任何症状之前都根据微妙的迹象安排约会。我们将观看我们与数字双打牛排的DIY大片。
在2025年,您可能认为您可以轻松地生活而不将自拍照变成吉卜力肖像或AI总结您的会议笔记。在2028年,整天甚至几个小时 - 没有与AI互动的情况下,就像没有手机或互联网的情况一样。
里德·霍夫曼(Reid Hoffman)是LinkedIn,cuntection AI和Manas AI的联合创始人,也是Greylock的合伙人。可能和合着者超级机构:我们的AI未来可能会发生什么。