在欧洲人工智能大数据博览会之前,AI News 采访了 Databricks 的高级解决方案架构师 Ivo Everts,讨论了塑造开源人工智能和数据治理未来的几项关键发展。
Databricks 的显着成就之一是 DBRX 模型,它为开放大语言模型 (LLM) 设立了新标准。
发布后,DBRX 在标准基准测试中的表现优于所有其他领先的开放模型,并且Everts 解释说,推理速度比 Llama2-70B 等模型快 2 倍。由于各种技术进步,它的训练效率更高。
从质量的角度来看,我们相信 DBRX 是最好的开源模型之一,当我们提到最佳时,这意味着广泛的一系列行业基准,包括语言理解 (MMLU)、编程 (HumanEval) 和数学 (GSM8K)。
开源 AI 模型旨在使定制 LLM 的培训民主化,超越少数模型并向组织展示他们可以以经济高效的方式培训世界一流的大语言模型。
根据他们对开放生态系统的承诺,Databricks 还开源了 Unity Catalog。
Databricks 还开源了 Unity Catalog。>
Everts 指出,开源 Unity Catalog 增强了其跨云平台(例如 AWS、Azure)和本地基础设施的采用。这种灵活性使组织能够统一应用数据治理策略,无论数据在何处存储或处理。
Unity Catalog 通过各种功能解决了数据蔓延和不一致的访问控制的挑战:
该公司推出了 Databricks AI/BI,这是一种利用生成式技术的新型商业智能产品人工智能增强数据探索和可视化。Everts 认为,真正智能的 BI 解决方案需要了解业务的独特语义和细微差别,才能有效地回答业务用户的问题。
AI/BI 系统包括两个关键组件:
Everts 表示 DatabricksAI/BI 旨在提供对数据语义的深入理解,为组织中的每个人提供自助数据分析。他指出,它由一个复合人工智能系统提供支持,该系统不断地从组织整个数据堆栈的使用中学习,包括 ETL 管道、沿袭和其他查询。
Databricks 还推出了 Mosaic AI,Everts 将其描述为一个全面的人工智能系统。用于构建、部署和管理机器学习和生成式人工智能应用程序、集成企业数据以增强性能和治理的平台。
Mosaic AI 提供了几个关键组件,Everts 概述了这些组件:
Everts 强调,Mosaic AI 微调和定制基础模型的方法包括独特的功能,例如利用集群内的快速启动时间基本模型缓存、实时提示评估(用户可以在整个训练过程中跟踪模型响应如何变化)以及对自定义预训练检查点的支持。
这些创新的核心在于数据智能平台,它Everts 表示,通过使用人工智能模型来深入了解企业数据的语义,从而转变数据管理。该平台结合了数据湖和数据仓库的功能,利用 Delta Lake 技术进行实时数据处理,并结合 Delta 共享来实现跨组织边界的安全数据交换。
Everts 解释说,数据智能平台发挥着通过提供以下功能,在支持新的人工智能和数据共享计划方面发挥着至关重要的作用:
作为欧洲人工智能大数据博览会的主要赞助商,Databricks 计划在活动期间展示其开源人工智能和数据治理解决方案。
Everts 表示,在我们的展台上,我们还将展示如何使用 Lakehouse 应用程序使用 Hugging Face 的开源模型和 Unity Catalog 的数据从头开始创建和部署自定义 GenAI 应用程序。
通过我们的 GenAI使用应用程序,您可以生成自己的卡通图片,所有这些都在数据智能平台上运行。
Databricks 将在今年的欧洲人工智能大数据博览会上分享更多他们的专业知识。参观位于 280 号展台的 Databricks 展位,了解有关开放 AI 和改进数据治理的更多信息。
在此处探索由 TechForge 提供支持的其他即将举行的企业技术活动和网络研讨会。