作者:Terrence O'Brien
当它不是试图弯腰 诉讼从主要唱片公司开始,Suno仍在努力完善其AI音乐创建工具。最新的型号Suno V5是对先前版本v4.5+的明显技术改进。但这似乎仍然可以逃避弥漫着大多数人工智能艺术的空虚。
音频质量的全面升级是不可否认的,例如较少的文物和仪器之间的清晰分离。一些使用v4.5+产生的曲目可以将所有旋律部分缩小在一起,以吉他,贝斯和合成器之间的界线充其量充其量是泥泞的。但是使用V5,混合物要干净得多。
在演示期间,Suno产品经理亨利·菲普斯(Henry Phipps)指出了一首歌,我们拥有该模型,其中包括一个像笛子一样的合成器,听起来像是乒乓球延迟的影响:•我以前从未听说过,这对我来说是什么?实际上在传统意义上应用效果,这意味着该模型正在识别特定的仪器并近似立体声延迟的声音,因为它决定听起来应该是这样。
任何Suno人声都没有边缘。一切都沐浴在混响中,铺有和声,完美地在球场上。即使您明确地告诉它不要做这些事情,该模型也只会忽略您。
Suno还声称V5对流派有了更好的了解,尽管从我的测试中看来这一说法似乎值得怀疑。有了我的一些提示,例如现代的前卫R&B带有故障,但时髦的鼓,大气的旋律零件和呼吸的人声,V5或v4.5+似乎都不是交付我想到的东西的明显赢家(主要是Kelela的S Kelela S把我拆开)。他们俩都接近了,给了我一些喜怒无常的合成器,但他们缺乏我所希望的怪异。
Suno也无法弄清楚我在90年代初期的Lo-fi Indie Rock在4轨录音机上录制的,带有关键的人声,并且略微摆脱了吉他,但V5绝对是更多的目标。尽管我尝试了一切,但我无法让Suno吐出任何听起来甚至像人行道的东西。我与倾斜和迷人找不到任何地方。取而代之的是,我得到了笨拙的摇滚,带有矮胖的即兴演奏和干净的驾驶动力和弦。Suno V5不断提供听起来比北极猴子的歌曲,而不是本世纪之交之前发行的任何歌曲。
同样,在我的测试中,V5有时似乎在时代或十年特定的提示中挣扎。当我要求1970年代后期的Krautrock时,v4.5+基本上将其钉在人声之外(稍后会详细介绍)。但是V5通常提供80年代的合成台和曲目,这些曲目显然更现代,即使它们具有一些经典的Krautrock DNA。
我要说的是,Suno的V5模型创造的安排要复杂得多。与v4.5+相比,有更多的一次性音乐蓬勃发展,可以防止事情变得过于重复和更多的歌曲结构。如果v4.5+通常满足于坚持使用基本的诗句 - 反向结构(可以很好地固定桥),则V5通常会有前或后的剖面,多个桥梁或分解,并且通常在轨道的过程中建立更多的弧形,而不是仅仅提供弧形。
在重新混合现有轨道时,它偶尔也会产生有趣的结果。我上传了几年前发行的EP中的一首歌(可能应该绊倒其版权过滤器),然后看,我不会撒谎,我喜欢它将吉他独奏的部分转录成一个反复出现的合成器主题,并将我的大弦垫变成了驾驶Arpeggios。
但是,我要求Suno创作的所有这些歌曲的封面中缺少的是我的原始曲目,我的曲目本质是我凌晨3点记录在我的客厅大约六年前。这是这里的一个运行主题。虽然Suno可以模仿旧录音的某些表面特征或录音带或呼吸等人类表演,但总是感觉不真实。
菲普斯(Phipps)承认,他没有听到人声模型重现了真实人类表现的独特缺陷。在与V5的早期消息中,Suno吹捧了其情感上丰富的人声和类似人类的情感深度,但是现在,任何面向公共的材料都没有这种措辞。取而代之的是,该公司现在选择将人声描述为自然,真实的,将变化粉刷为一种风格的选择。”
但是即使那感觉就像是伸展运动。是的,与v4.5+相比,人声感觉更加人性化,但它们仍然僵硬。Phipps解释说,当我们认为Suno [v4.5]的声音在情感上是平坦的时,我认为这只是因为缺少一些细节,这些细节使它具有优势,并且V5模型的较高忠诚度提供了该细节。
很难与该主张的技术方面争论 - 声音表演更详细 - 但它们仍然痛苦地通用。每个摇滚声的听起来都像是想象中的龙,芒福德和儿子,每首R&B歌曲,就像梦游阿黛尔或无人魅力的Ariana Grande一样。
任何Suno人声都没有边缘。一切都沐浴在混响中,铺有和声,完美地在球场上。即使您明确地告诉它不要做这些事情,该模型也只会忽略您。我向V5询问了一个未经处理的情感独奏无伴奏合唱女性的声音表演,没有混响,没有和声,没有效果,只有干燥的人声。”它传递的两首歌被沐浴在混响中,包括其他与第一首和谐的歌手,甚至还听起来像贝斯伴奏。(不过,这可能是一个近似低音的声音。)但是菲普斯并不感到惊讶。这些模型尚未了解特定效果和记录技术的描述。他说,发声的方式受到歌词和一般情绪的影响最大。
所以,我喂了Suno歌词只是与滚石的足够不同Gimme庇护所为了避免被标记以侵犯版权。刚开始时,它似乎具有使原始毁灭性的所有元素。一位强大的女歌手大声喊着一个完整的,蓝调的安排,但它具有牙科教科书的所有情感影响。
当我听Gimme庇护所时,玛丽·克莱顿(Mary Clayton)的方式声音破裂当她在桥期间拉开强奸和谋杀时,这使我cho住了。罗伯特·史密斯(Robert Smith为什么我能成为你在库尔特·科本(Kurt Cobain)的呼吸中,他在交付最后一行之前的呼吸你昨晚在哪里睡觉告诉您,这是一个与真正的恶魔斗争的人。
总的来说,试图使Suno Sound“糟糕”,“原始”,“钥匙”,草率的,这是徒劳的。关于公司的所有谈论,新型模型的声音听起来很自然,它缺乏经常带有表演情感体重的缺陷。Suno的虚拟歌手听起来仍然很独立。V5模型可能会理解,特定的歌词应该是可悲的,但是它与单词没有实际的情感联系,因为它是一堆代码,而不是艺术家。
遵循主题和作者从这个故事中,可以在您的个性化主页提要中看到更多这样的信息并接收电子邮件更新。