在美国东北部,缅因州的海湾代表了地球上鲸鱼,鲨鱼,水母,鲱鱼,浮游生物和其他数百种的生物学上最多样化的海洋生态系统之一。但是,即使这个生态系统支持丰富的生物多样性,它也正在经历迅速的环境变化。缅因州的海湾速度比99%的世界海洋更快,但仍在发展的后果。
MIT Sea Grant开发的一项新的研究计划,称为Lobstger - 通过生成代表来学习海洋生物生物学系统的缩写 - 将人工智能和水下摄影汇集在一起,以记录容易受到这些变化的海洋生命,并以新的视觉方式与公众共享。该项目由MIT Sea Grant Keith Ellenbogen和MIT Mechanical Engineering Phd学生Andreapoulos共同领导,该项目探讨了生成AI如何通过基于现场的摄影数据来扩展科学讲故事。
正如19世纪的相机改变了我们记录和揭示自然世界的能力一样 - 以前所未有的细节捕捉生活,并将遥远或隐藏的环境带入视觉上的AI标志着视觉讲故事的新边界。像早期摄影一样,AI开辟了一个创造性和概念的空间,挑战了我们如何定义真实性以及我们如何交流科学和艺术的观点。
在Lobstger项目中,生成模型仅在Ellenbogen的原始水下照片的精选库中进行培训 - 每个图像都以艺术意图,技术精度,准确的物种识别和清晰的地理环境制成。通过构建以现实世界观测为基础的高质量数据集,该项目确保所产生的图像保持视觉完整性和生态相关性。此外,Lobstger的模型是使用Mentzelopoulos开发的自定义代码来保护过程并免受外部数据或模型的任何潜在偏见的构建的。Lobstger的生成AI建立在真实摄影的基础上,扩大了研究人员的视觉词汇,以加深公众与自然世界的联系。
这种海洋人民(Mola Mola)图像是由小叶的无条件模型产生的。
AI生成的图像:Keith Ellenbogen,Andreas Mentzelopoulos和Lobstger。
Lobstger的核心是在艺术,科学和技术的交集上运作。该项目借鉴了摄影的视觉语言,海洋科学的观察性严谨性以及生成AI的计算能力。通过团结这些学科,该团队不仅正在开发新的方式来可视化海洋生活 - 他们还在重新想象如何讲述环境故事。这种综合方法使Lobstger既是研究工具,又是一种创造性的实验,它反映了MIT的长期跨学科创新传统。
众所周知,新英格兰沿海水域的水下摄影很困难。有限的能见度,旋转的沉积物,气泡以及海洋生物的不可预测的运动都构成了持续的挑战。在过去的几年中,Ellenbogen通过该项目,Space of Sea:可视化新英格兰的海洋荒野。这一大型水下图像为培训Lobstger的Generative AI型号提供了基础。这些图像涵盖了各种角度,照明条件和动物行为,从而产生了视觉档案,既具有艺术性的醒目又具有生物学上的精确性。
图像通过反向扩散综合:此简短视频显示了使用小叶的无条件模型从高斯潜在噪声到逼真的输出的掉线轨迹。迭代的去噪声需要通过训练有素的神经网络进行1,000个正向通过。
视频:Keith Ellenbogen和Andreas Mentzelopoulos / MIT Sea Grant
Lobstger的自定义扩散模型经过训练,不仅复制了生物多样性Ellenbogen文档,还可以复制他用来捕获它的艺术风格。通过从数千个真正的水下图像中学习,模型将细颗粒的细节内化,例如自然照明梯度,特定于物种的着色,甚至是由悬浮颗粒和折射阳光所产生的大气纹理。结果是图像不仅在视觉上看起来很准确,而且感觉沉浸式和动人。
这些模型都可以无条件地生成新的,合成但科学准确的图像(即不需要用户输入/指导),并有条件地增强真实照片(即图像到图像生成)。通过将AI集成到摄影工作流程中,Ellenbogen将能够使用这些工具来恢复浊水中的细节,调整照明以强调关键主题,甚至模拟在现场几乎无法捕获的场景。该团队还认为,这种方法可能使其他水下摄影师和图像编辑受益,面临类似挑战。这种混合方法旨在加快策展过程,并使讲故事的人能够构建表面下生活的更完整,更连贯的视觉叙事。
左:使用Lobstger的图像到图像模型增强了美国龙虾的图像。右:原始图像。
左:AI由Keith Ellenbogen,Andreas Mentzelopoulos和Lobstger创作的图像。右:Keith Ellenbogen
在一个关键系列中,Ellenbogen捕获了狮子的鬃毛水母,蓝鲨,美国龙虾和海洋人民的高分辨率图像(mola mola)在沿海水域中自由潜水。Ellenbogen说,获得高质量的数据集并不容易。它需要多次潜水,错过的机会和不可预测的条件。但是,这些挑战是使水下文件变得困难和有意义的一部分。
Mentzelopoulos开发了原始代码,以训练以Ellenbogen图像为基础的Lobstger的潜在扩散模型家族。开发此类模型需要高水平的技术专业知识,而从头开始的培训模型是一个复杂的过程,需要数百小时的计算和细致的超参数调整。
该项目反映了一个并行过程:通过摄影和模型开发通过迭代培训进行的现场文档。Ellenbogen在该领域工作,捕捉了与海洋动物的稀有而短暂的相遇。Mentzelopoulos在实验室工作,将这些瞬间转化为机器学习的环境,可以扩展和重新解释海洋的视觉语言。
Mentzelopoulos说,目标不是取代摄影。建立和补充它使无形的可见性并帮助人们看到环境复杂性,在情感和智力上都引起共鸣。我们的模型不仅旨在捕捉生物现实主义,而且旨在捕捉可以推动现实世界参与和行动的情感指控。”
Lobstger指出了混合未来,将直接观察与技术解释融合在一起。该团队的长期目标是开发一个综合模型,该模型可以可视化缅因州海湾中广泛的物种,并最终将类似的方法应用于世界各地的海洋生态系统。
研究人员认为,摄影和生成性AI形成连续性,而不是冲突。摄影捕获了实际相遇期间的质地,光和动物行为是什么,而AI将视觉扩展到了基于科学数据和艺术视觉的可以理解,推断或想象的东西之外的视野之外。他们共同提供了一个有力的框架,可以通过图像制作传达科学。
在生态系统正在迅速变化的地区,可视化的行为不仅仅是文档。它成为意识,参与以及最终保护的工具。Lobstger仍处于起步阶段,随着项目的发展,团队期待分享更多的发现,图像和见解。
来自领先图像的答案:使用Lobstger的无条件模型生成左图,右图是真实的。
有关更多信息,请联系基思·埃伦博原和Andreas Mentzelopoulos。