人工智能驱动的多媒体生成技术,特别是通过稳定扩散和变压器的视频合成,为放射学教育、交流和可视化提供了变革潜力。这项研究探讨了各种人工智能生成的多媒体类别,包括图像和视频生成以及语音克隆,重点是视频合成和扫描到视频生成等未来的可能性。利用 Midjourney、RunwaymL Gen2、D-ID 和 ElevenLabs 等工具,我们的目标是让已故的放射学领域有影响力的物理学家转世,展示人工智能利用易于使用的工具生成真实内容的能力,从而促进放射学社区的创造力和创新。
2023 年 12 月 1 日至 7 日期间,我们使用图像到图像生成功能通过 110 个提示创建了 440 张图像,通过图像到视频生成功能创建了 22 个视频,以及两个展示文本转语音和语音克隆技术的视频。从图像到图像到图像到视频和画外音到视频的生成减少,后者需要调整嘴唇、嘴巴和头部运动,而不需要结合面部表情、眼球运动或手部动作。
放射学中的潜在应用包括改进和加速医疗 3D 可视化,以及增强教育内容、信息传递、患者互动和远程会诊。该论文讨论了与人工智能生成的内容相关的限制和道德考虑,强调负责任的使用和跨学科合作以实现进一步的发展。
这些技术正在迅速发展,未来的版本预计将解决当前的挑战。人工智能生成的多媒体的不断进步有可能彻底改变放射学实践、教育和患者护理的各个方面,为该领域的研究和临床应用开辟新的途径。
与大型语言模型 (LLM) 类似,它使用基于变压器的技术生成类似人类的文本,人工智能驱动的多媒体生成的最新进展引发了内容创作的一场革命,这些主要基于潜在且稳定的扩散模型,该模型使用深度神经网络逐渐转换复杂的数据。一系列概率步骤以获得理想的结果,这个过程也称为迭代去噪 [1,2]。
AI 生成多媒体需要考虑的类别包括图像生成、视频合成、多视图生成、语音生成和 3D 对象生成由文本到图像和图像到图像生成组成。对于视频合成,这是本手稿的主要重点,可能的迭代包括文本到视频、图像。- 到视频、视频到视频、视频旁白,以及潜在的与放射学相关的扫描到视频生成。值得注意的是,术语“扫描”作为推测的潜在输入源代表任何横断面放射学检查,即 CT 或 MRI。在更具实验性的一端,多视图生成在人工智能开发中特别受关注。通过这种技术,人工智能可以从多个摄像机角度构建物体的视图,而无需完全依赖原始数据[3,4]。这项技术在 3D 可视化领域具有令人着迷的潜力,可以根据有限的成像数据生成 3D 渲染。这导致 3D 对象生成,包括文本到 3D、图像到 3D,以及可能利用人工智能驱动的自动分割的扫描到 3D。最后,语音生成由文本转语音和语音克隆组成。