最佳生成人工智能模型——从聊天机器人到图像和视频生成器 - Decrypt

2024 年，生成式 AI 格局已经演变成一个高风险的战场，一支新贵大军正在攻占曾经由 OpenAI 统治的城堡。

每个人和他们精通技术的奶奶似乎都在争夺人工智能的一块蛋糕，他们精心设计语言模型、代理人工智能、图像生成器，甚至是一两个人工智能迷因币。

基准的变化速度快于我们人类跟上的能力。几乎每周都会有一些闪亮的新玩具上市——这里有更新的法学硕士，那里有涡轮增压的图像生成器，或者展示一些奇异训练技术的下一代人工智能。

但在这里解密，我们已经卷起袖子尝试了所有方法。

我们已经尝试过，按下了按钮，并深入了解了最流行的人工智能模型以及一些不太知名的人工智能模型提供的内部工作原理和输出。

现在很明显 OpenAI 并不是镇上唯一的警长，我们编制了一份最优秀的清单——那些让我们惊叹、让我们困惑、有时甚至让我们吐出咖啡的生成人工智能模型。

聊天机器人

聊天机器人是一种旨在模拟与人类用户对话的计算机程序。它使用自然语言处理和人工智能来理解用户输入并生成适当的响应。通常，人们将聊天机器人与法学硕士或大型语言模型混淆。

如今，聊天机器人变得更加复杂，其功能超出了文本生成的范围。他们现在可以浏览网页、生成和理解图像、与用户交谈等。

以下是您应该尝试的最佳聊天机器人列表：

金牌：OpenAI 的 ChatGPT

ChatGPT 以 20 美元/月的价格提供广泛的功能，包括使用自然语言创建自定义代理、简洁的界面、网络搜索和多种模型（推理、写作、视觉、语音和图像生成）。

银牌：Anthropic的克劳德

Claude 是一名卓越的法学硕士，具有直观的 UI，具有用于推理和代码生成的分屏工件，支持百万个令牌上下文和自定义代理。然而，它缺乏网络搜索和图像生成，并且经常面临容量问题，迫使用户切换到较弱的模型或生成“简洁”的较短答案。正因为如此，它还不是最好的。

铜牌：Mistral AI 的 LeChat

这个免费平台由 Mistral Large 提供支持，具有顶级 Flux 图像生成和卓越的网络搜索功能——在我们看来，这是最好的，甚至超过了 SearchGPT。它支持文档/图像理解和开源人工智能代理，但文本质量落后于竞争对手。然而，Mistral Large LLM 并不像其竞争对手那么强大，这使其成为愿意用文本质量换取功能的高级用户的理想选择。

荣誉提名：元人工智能，双子座（来自Google 的 AI 工作室，不是主站点)、拥抱聊天、Reka、Grok-2

大型语言模型

大型语言模型（LLM）是一种人工智能系统，经过大量文本数据的训练，可以理解并生成类人语言。您可以将其视为美化的自动完成功能。它们旨在预测组中最有可能的标记（想想单词，尽管这是一个不准确的比较）。

结果是自然文本感觉很人性化，因为它类似于人类会做的事情。

以下是我们迄今为止最好的法学硕士名单：

最佳多面手：OpenAI 的 GPT-4o

通过可定制的“画布”功能平衡创意写作、编码和推理，尽管其风格感觉可以预测。最新版本（11 月 20 日起）也取得了排行榜第一的位置。法学硕士竞技场ELO 分数为 1,366，击败了 11 月 21 日发布的 Google Gemini 实验版本。

最适合写作：Anthropic 的 Claude 3.5 Sonnet

在许多领域匹配或超过 GPT-4o，更具创意，类似人类的输出，虽然很容易产生幻觉。

最适合讲故事：长篇作家

生成10,000+字故事几分钟之内。我们还需要多说吗？

最通用：Meta 的 Llama-3.1

这领先的开源模型具有广泛的定制、LoRA 创建和微调选项，参数大小从 70 亿到 4050 亿不等，因此用户可以根据自己的需求在本地计算机或云服务器上运行它。Nvidia 开发了一个名为“Nemotron”的定制版本，在社区中引起了一些轰动，值得一试。

最让人失望的：Reflection Llama-3.1 70B

已公布怀着很高的期望，该模型声称由于其嵌入的思想链而击败了 GPT-4o。它最终成为一场重大惨败，包括虚假基准测试、对 Claude AI 的隐藏 API 调用以及主要争议。

图像生成器

图像生成器本质上是一个模型，它获取文本输入并提供与该文本输入关联的输出。例如，您说“龙脸青马”，模型将生成一张龙脸青马的照片。您还可以输入“busty waifu”之类的内容，但这不是它们的用途。

这些是目前可用的一些最好的图像生成器

最佳通才：Flux

通量占主导地位最新一代人工智能模型，具有大量定制、LoRA/ControlNet 支持和文本生成功能。它需要强大的硬件，但显示出一种典型的风格，具有极端的散景和松弛的皮肤细节，用户仍在努力解决这些问题。

它有三种版本：Pro（闭源、最强大的模型）、Dev（非商业许可）和 Schnell（开源、精炼版本）。这三者都提供了出色的图像生成能力，如果考虑微调的话上限还会更高。

最真实的：Recraft v3

提供无与伦比的真实感，提供多功能预设，比 MidJourney 等专有替代方案更有价值。

它有一个免费套餐，提供相同的质量——尽管 Recraft 已经有好几代了。

最适合动漫：MidJourney Niji

无与伦比的动漫风格图像质量；稳定扩散微调是次要选项。

最通用：稳定扩散 3.5

稳定扩散 3.5 是重大改进比 SD3 具有更好的许可、详细的输出和附加支持。

它在微调方面比 Flux 更节省资源，并且是一个完整的模型（与 Flux Schnell 不同，Flux Schnell 是一个蒸馏版本），使其成为定制模型的最佳选择。

然而，它的发布有点晚，并且被 Flux 的受欢迎程度所掩盖。

最让人失望的：SD 3 Medium

每个人都期望这款新型号能够击败 SDXL 和所有其他型号，成为新的图像生成器之王。它最终成为一个糟糕的模型，因其可怕的许可证以及在尝试生成时出现可怕的畸变草地上的人们。

视频生成器

视频生成器使图像生成更进一步。他们生成每一帧并将其用作输入来生成具有图像一致性和高度即时依从性的下一帧。

这仍然是一项正在进行的工作，模型只能生成几秒钟的视频。下面列出了一些您可以尝试的最佳方法。

最佳多面手：克林

快速完善的中国模式，超越索拉在某些情况下。支持人脸模型训练，持续生成高质量场景，在风格、真实感和摄像机运动方面展现出强大的多功能性。

最佳竞争者：《Runway Gen 3》

开创性的生成视频应用程序对环境有扎实的了解，但在快节奏的场景中遇到了困难。

最适合讲故事：ShowRunner

我们不能告诉你很多关于这个。然而，在保密测试中，它显示出了巨大的潜力。

最佳开源：Genmo Mochi 1

这是一个伟大的发布它以卓越的真实感和帧一致性击败了 Rhymes Allegro 和 Stable Video Diffusion 等竞争对手。

最让人失望的：OpenAI Sora

已公布作为超越任何视频一代的革命性“世界模式”，人们对它抱有很高的期望，但今天它仍然无法获得，而且给人留下了深刻的印象。泄露的输出。

荣誉奖：Google Veo

谷歌的维奥于 12 月 3 日发布。我们还没有测试过，但 Google 共享的几代看起来相当不错。当然，我们正在等待测试该模型，一旦我们获得访问权限，您将是第一个知道我们想法的人。

音乐发生器

就像视频生成器一样，音乐生成器也可以创建歌曲。然而，它与音频发生器不同，因为输出更专门用于旋律输出，而不是噪声、纯语音或音频效果。

用户可以依靠单独的LLM来生成歌曲的歌词或手动输入歌词，并设置一些参数，例如歌曲的风格，然后模型将从头开始输出相关的音乐。

这是最好的两个，再加上一个开源替代方案。

最佳多面手：Suno v4

擅长人声和歌词、风格多样性和长篇一致性。它的前身，苏诺v3.5，不是免费的，但是仍然是一个强有力的选择。

最佳竞争者：Udio

Suno 最大的竞争对手。它提供了令人印象深刻的作曲准确性，在人声方面几乎可以与 Suno v4 相媲美。有些世代超越了 Suno v3以主观风格。

最佳开源：Stable Audio 2

开源场景在这方面做得并不多。稳定音频2似乎是最好的模型，但在各个领域都落后于闭源竞争对手。元音频工艺和 MusicGen 是替代方案，但远未达到行业领先水平。微调者并没有注意到，通常他们是使开源模型如此伟大的最重要的人物。

编辑者安德鲁·海沃德

一般智能通讯

由生成型人工智能模型 Gen 讲述的每周人工智能之旅。

OC

最佳生成人工智能模型——从聊天机器人到图像和视频生成器 - Decrypt

聊天机器人

大型语言模型

图像生成器

视频生成器

音乐发生器

一般智能通讯

关于《最佳生成人工智能模型——从聊天机器人到图像和视频生成器 - Decrypt》的评论

发表评论

摘要

相关新闻

相关讨论