随着生成式人工智能突然出现,随之而来的新语言也是如此。人工智能相关词汇的完整列表可能有数千个条目,但出于紧急相关性的考虑,这些是首席信息官、分析师、顾问和其他企业高管最常听到的术语。
代理是一种能够自主决策或采取行动的人工智能模型或软件程序。当多个代理共同努力追求一个目标时,他们可以计划、委派、研究和执行任务,直到实现目标。当这些代理中的部分或全部由人工智能提供支持时,结果可以显着超过通过简单的提示和响应方法所能完成的结果。然而,基于人工智能的代理系统相对较新,企业可能很难构建自己的系统,而且更难以确保这些系统的安全性。
代理和代理人工智能Gartner 分析师 Arun Chandrasekaran 表示,这显然是风险投资公司和初创公司需要巨额投资的领域。我们可能会在 2025 年看到更多代理框架的发展和成熟。
人工智能一致性是指模型经过训练要维护的一组价值观,例如安全或礼貌。但并非所有公司都拥有相同的价值观,也并非所有人工智能供应商都清楚地明确他们在自己的平台中构建了哪些价值观。
该公司负责人 JJ Lopez Murphy 表示,这是一个问题,而且解决起来并不容易。Globant 的数据科学和人工智能。如果模型经过严格训练而违背了你的利益,那么你只能通过提示做这么多。
内部机制无法清楚理解的模型,并且内部过程被隐藏,因此很难判断模型是如何得出答案的。这对于当今的企业来说是一个重大问题,尤其是商业模型。
如果我不知道该模型是根据什么数据进行训练的以及对模型进行了微调,我就不会相信它会在“与我公司的价值观保持一致”,AArete 数据科学和分析副总裁 Priya Iragavarapu 说道。
模型在给定提示下可以处理的令牌数量。平均而言,一个令牌是一个单词的四分之三。大型上下文窗口允许模型分析长文本或代码,或提供更详细的答案。它们还允许企业在提示中提供更多示例或指南、嵌入上下文信息或提出后续问题。
截至发稿时,OpenAIs ChatGPT 的最大上下文窗口为 128,000 个代币,这意味着约 96,000 字或近 400 页文本。Anthropic 在 9 月初为其 Claude 模型发布了一项企业计划,规定了 50 万个代币窗口,而 Google 在 6 月份宣布了其 Gemini 1.5 Pro 模型的 200 万个代币限制,这意味着大约 150 万个单词或 6,000 页文本。p>
将一个模型的大小缩小为针对特定用例尽可能准确的较小模型的过程。
使用经过蒸馏的模型云咨询公司 Caylent 的数据和应用高级总监 Ryan Gross 表示,在训练过程中进行修剪或修剪可以提供类似的性能水平,而推理过程中所需的计算资源更少。这意味着它们使用更少的内存,并且可以更快、更便宜地回答问题。
表示文本、图像或其他数据的方法,以便相似的对象可以彼此靠近。这通常是使用多维空间中的向量来完成的,其中每个维度都反映数据的特定属性。它们通常存储在矢量数据库中,并与检索增强生成 (RAG) 结合使用,以提高人工智能响应的准确性和及时性。
进一步训练的过程针对特定数据集的预训练模型,使其适应特定任务。公司通常从商业或开源模型开始,然后根据自己的数据对其进行微调以提高准确性,从而避免从头开始创建自己的基础模型。Constellation Research 副总裁兼首席分析师 Andy Thurai 表示,培训成本最高。微调是第二昂贵的。
大型人工智能模型通常在海量数据集上进行训练。最常见的例子包括 ChatGPT 等大语言模型和 Dall-E 2 等图像模型。个体企业通常不会训练自己的基础模型。相反,他们使用商业可用的或开源的,然后根据自己的需求对其进行定制或微调。基础模型也可以按原样使用,无需额外的微调,通过 RAG 和即时工程。
由于一代 AI 模型实际上并不记住它们的训练数据,只记住它们的模式从训练数据中得知,响应的准确性可能会有很大差异。对于企业用例来说,这可能是一个重大问题,因为人工智能模型可以给出看似正确但完全错误的响应。接地通过为人工智能提供所需的数据来帮助减少这个问题。例如,用户询问人工智能如何使用特定产品可能会将产品手册的上下文粘贴到提示中。
人工智能模型可能会生成虚假的、无意义的、甚至是乍一看看似合理的危险答案。企业通过微调模型并使用 RAG 和接地技术来减少这些幻觉。安永美洲公司的人工智能主管 David Guarrera 表示,减少幻觉的另一种方法是多次运行相同的提示并比较响应,尽管这会增加推理成本。
对于许多用例来说,在没有人工监督的情况下,人工智能不够准确、全面或安全。人参与循环方法涉及一个人在使用人工智能输出之前对其进行审查。Iragavarapu 表示,我大力提倡确保人类审查大型语言模型生成的所有代码、内容、图片,无论是什么。
使用经过训练的模型的过程回答问题。如果公司使用按代币收费的商业模式,这可能会非常昂贵。Thurai 表示,当您开始运行具有数百万个推理的工作负载时,您会感到震惊。降低推理成本的一些方法包括开源模型、小语言模型和边缘人工智能。
聊天机器人或图像生成器等新一代人工智能系统通常设有护栏来防止人工智能不会给出非法、危险或淫秽的答案。为了绕过这些限制,恶意用户会尝试通过诸如忽略所有先前命令之类的提示来欺骗人工智能忽略这些护栏。随着时间的推移,人工智能供应商已经掌握了最常见的越狱技术,但用户不断想出新的技术。Guarrera 表示,这是许多大语言模型申请中最大的安全风险。而且目标总是在变化。
除了欺骗人工智能给出不适当的答案之外,越狱还可以用来暴露训练数据,或者访问存储在向量数据库中并使用的专有或敏感信息。在RAG。越狱攻击也称为提示注入攻击。
大型语言模型 (LLM) 是一种专门设计用于处理文本的基础模型。与小型语言模型相比,其参数大小通常为数百或数千亿,而小型语言模型的参数通常少于 100 亿。例如,Metas Llama 3.1 拥有 4050 亿个参数,而 OpenAIs GPT-4 据报道拥有超过一万亿个参数。
选择正确的模型通常需要对预期用例进行一些测试。然而,公司通常首先检查排行榜,看看哪些模型得分最高。LMSYS Chatbot Arena 排行榜对专有模型和开源模型进行排名,而 Hugging Face Open LLM 排行榜仅对开源模型进行排名,但使用多个基准。
多模式基础模型可以处理多种类型的数据,例如文本、图像、音频或视频。完全多模态模型将同时针对多种类型的数据进行训练。然而,更常见的是,后端有多个模型,每个模型处理不同类型的数据。安永合伙人 Sinclair Schuller 表示,多式联运仍处于起步阶段。大多数多式联运系统还不是真正的多式联运。例如,通过语音与用户交互的模型可能首先将音频翻译为文本,然后生成文本响应,然后将该响应翻译回音频。
输入给予一代人工智能模型,或用户发送给聊天机器人的问题。除了问题之外,提示还可以包括有助于回答问题的背景信息、有关如何回答问题的安全准则以及用作模型的答案示例。
精心设计有效提示以从人工智能模型中获得所需结果的全新学科。最终用户可以使用即时工程来指导人工智能,例如要求答案足够简单,让高中生能够理解,或者告诉人工智能逐步思考问题。但开发人员也可以使用它向企业工作流程添加人工智能功能,并且可能包括指南和样式手册、示例答案、上下文数据以及其他可以提高响应质量和准确性的信息。
检索增强生成 (RAG) 是一种通过向提示添加上下文来提高准确性、安全性和及时性的方法。例如,使用 gen AI 撰写营销信函的应用程序可以从数据库中提取相关客户信息,从而使 AI 能够访问最新数据。此外,它还允许公司避免根据实际客户数据训练或微调人工智能模型,这可能会侵犯安全或隐私。
但 RAG 也有缺点。首先,收集相关信息并将其移入矢量数据库会增加复杂性。然后是安全开销,以确保信息只能由授权用户或进程访问。推理本身会增加成本,因为定价通常基于令牌的数量。
如果您每提取一千页长的文档,您的嵌入成本可能会变得非常高,Swaminathan Chandrasekaran 说,毕马威数字解决方案架构主管。
开发和部署人工智能系统时考虑道德、偏见、隐私、安全、合规性和社会影响。负责任的人工智能可以帮助增加客户、员工以及其他用户和利益相关者的信任,并帮助公司避免公众尴尬并保持领先于法规。
普华永道负责任的人工智能主管伊拉娜·戈尔宾·布鲁门菲尔德(Ilana Golbin Blumenfeld)建议:企业首先定义其负责任的人工智能原则,以指导人工智能系统的开发和部署。它们可以包括公平、透明度、隐私、问责制和包容性。她还建议公司保持人力监督和问责制。她说,设计人工智能系统是为了增强人类决策,而不是完全取代人类决策。
最著名的新一代人工智能模型,例如 OpenAIs ChatGPT 或 Anthropics Claude,是大语言模型,拥有数百或数千亿个参数。相比之下,小型语言模型通常有 7 或 80 亿个,可以为特定用例提供显着的好处。Caylents Gross 表示,较小的模型通常运行成本较低,但精度或功能可能会降低。但他补充道,为特定任务选择正确的模型大小可以优化成本,而不会过多影响性能。
用于训练 AI 模型的人工生成的数据,通常由其他人工智能模型。Thurai 补充道,现实世界的数据非常昂贵、耗时且难以收集。例如,一些大型语言模型需要数十亿个参数进行训练,输入的数据越多,模型就越好。合成数据还可用于填补空白或替换个人身份信息。但太多可能会引入新的偏差,如果模型在合成数据上进行训练,然后用于生成更多合成数据,重复的循环可能会导致模型崩溃。
通常用于存储信息,然后通过 RAG 为 AI 模型提供所需的上下文。矢量数据库将数据存储在多维空间中,允许密切相关的信息彼此靠近,以便于搜索。超大规模企业和人工智能平台供应商通常会在其工具集中包含矢量数据库。此外,Pinecone 是一种流行的开源矢量数据库,Elasticsearch 和 OpenSearch 则在全文搜索中很流行。
一个 gen AI 用例,其中用户没有提供他们希望大语言模型如何响应的示例,这是使用 gen AI 聊天机器人的最简单方法。Publicis Sapient 首席产品官 Sheldon Monteiro 表示,通过零机会,任何人都可以使用新一代人工智能工具,做一些对业务有价值的事情。就像开发人员进去说“帮我写代码。”
其他常见的零样本提示示例包括一般知识问题或总结一段文本的请求。相比之下,小样本提示需要用户提供示例来指导人工智能。例如,寻找销售信函的用户可能会提供以前的销售信函的实例,以便人工智能可以更好地匹配公司的风格和格式。