作者:... MORE
如果有人要求我在一次采访中用大约616个单词或约819个token(平均每词1.33个token)来谈论生成式AI,我要说如下几点:
“大型语言模型是生成式AI的一个子集。它们通过预测下一个单词来生成文本。基础模型是指模型的最初原始形式,而基础性模型则是指经过指令、代码或数学调整后的模型。你可以直接使用基础性的LLM,或者通过微调或RAG(检索增强生成)来进行上下文化处理。这种类型的微调被称为监督式微调(SFT)。RAG知识源通常存储令牌嵌入,即称为向量的数字表示形式。上下文窗口长度是指发送到和从LLM接收的令牌总数。长上下文窗口的主要缺点是LLM在生成后期部分时会出现幻觉现象。某种程度上,RAG和上下文窗口长度相互对立。开源的LLM可以下载并在本地系统上用于推理。
量化、剪枝和蒸馏是管理本地运行的下载大语言模型(LLM)的首选压缩技术。闭源的大语言模型无法下载并在本地使用。大语言模型的世界并非一片光明。缺乏伦理规范、生成内容的所有权以及针对滥用行为的监管都是值得关注的问题。从头开始训练大语言模型和进行推理所需的计算能耗非常高,因此是一个相当大的挑战。
数据隐私和幻觉问题是一些关键业务流程采用生成式人工智能的主要障碍。在配备了GPU的处理单元中,LLM(大型语言模型)的微调或推理由CPU和GPU共同完成。矩阵乘法等操作在GPU上的处理速度比在CPU上更快。RNN(循环神经网络)按顺序处理文本。而Transformer通过并行方式来处理文本,因此速度更快。LLM是使用Transformers创建的。你可以根据模型训练过程的不同角度来争论LLM是基于监督学习还是无监督学习方法构建的。目前最顶尖的闭源LLM包括OpenAI的GPT-4、Anthropic的Claude和Google的Gemini。
流行的开源大规模语言模型(LLM)包括Meta的Llama、Mistral AI的Mistral Models、Technology Innovation Institute的Falcon、X公司的Grok和Google的Gemma。LangChain、LlamaIndex 和 Haystack 是与 LLM 交互的框架,用于构建基于 LLM 的应用程序。MetaGPT、CrewAI、AutoGen 和 ChatDev 是多代理框架,用于创建由 LLM 驱动的应用程序。LLM 的评估指标包括 TruLens、TruEra、Ragas、MMLU、GPQA、HumanEval、TruthfulQA 等等。
一个大型语言模型(LLM)可以处理单一模态(文本)或多模态(文本、音频、图像和视频)。LLM的热门应用场景包括文档处理、代码生成、AI聊天机器人、语音合成、语言翻译、数据分析、合成数据生成、创意写作等。通过使LLM及其基于LLM的应用程序更具可解释性并引入人在回路(HITL),可以获得用户的信任。LLM可以理解和使用一种或多种语言(多语种LLM)。仅凭自身,LLM擅长文本生成任务,但缺乏计算能力。为了克服计算挑战,LLM可以通过代理使用外部工具。
两个流行的商用代码生成工具是GitHub Copilot和Cursor AI。Navarasa、Dhenu、Odia Llama、Kannada Llama、OpenHathi、Tamil Llama、Krutrim、Bhashini、BharatGPT以及项目Indus都是印地语(印度本土)的大规模语言模型(LLM)。DALL-E、StableDiffusion和MidJourney是强大的文本转图像生成模型。Ollama和LM Studio是用于管理和与大模型交互的工具。微软Azure OpenAI服务、亚马逊Bedrock以及谷歌Vertex AI提供云上的大规模语言模型服务。Llama3.1 LLM有三个变体,分别是8B、70B和405B,这三种变体分别拥有80亿、700亿和4050亿参数。参数是指在训练模型时用于神经网络的权重和偏差。
祝你在生成式人工智能面试中一切顺利。
以上观点仅代表作者本人。