Ivo Everts,Databricks:增强开源人工智能并改善数据治理 - AI 新闻

2024-09-27 12:29:26 英文原文

在欧洲人工智能大数据博览会之前,AI News 采访了 Databricks 的高级解决方案架构师 Ivo Everts,讨论了塑造开源人工智能和数据治理未来的几项关键发展。

Databricks 的显着成就之一是 DBRX 模型,它为开放大语言模型 (LLM) 设立了新标准。

发布后,DBRX 在标准基准测试中的表现优于所有其他领先的开放模型,并且Everts 解释说,推理速度比 Llama2-70B 等模型快 2 倍。由于各种技术进步,它的训练效率更高。

从质量的角度来看,我们相信 DBRX 是最好的开源模型之一,当我们提到最佳时,这意味着广泛的一系列行业基准,包括语言理解 (MMLU)、编程 (HumanEval) 和数学 (GSM8K)。

开源 AI 模型旨在使定制 LLM 的培训民主化,超越少数模型并向组织展示他们可以以经济高效的方式培训世界一流的大语言模型。

根据他们对开放生态系统的承诺,Databricks 还开源了 Unity Catalog。

Databricks 还开源了 Unity Catalog。>

Everts 指出,开源 Unity Catalog 增强了其跨云平台(例如 AWS、Azure)和本地基础设施的采用。这种灵活性使组织能够统一应用数据治理策略,无论数据在何处存储或处理。

Unity Catalog 通过各种功能解决了数据蔓延和不一致的访问控制的挑战:

  • 集中数据访问管理:Everts 表示,Unity Catalog 集中管理数据资产,使组织能够以统一的方式管理访问控制。
  • 基于角色的访问控制 (RBAC):Everts 表示,Unity Catalog 实现基于角色的访问控制 (RBAC),允许组织根据用户配置文件分配角色和权限。
  • 数据沿袭和审核:此功能可帮助组织监控数据使用情况和依赖关系,让工作变得更加轻松埃弗茨解释说,以识别并消除冗余或过时的数据。他补充说,它还记录所有数据访问和更改,提供详细的审计跟踪,以确保遵守数据安全策略。
  • 跨云和混合支持:Everts 指出 Unity Catalog 旨在管理数据多云和混合环境中的治理,并确保数据得到统一治理,无论数据位于何处。

该公司推出了 Databricks AI/BI,这是一种利用生成式技术的新型商业智能产品人工智能增强数据探索和可视化。Everts 认为,真正智能的 BI 解决方案需要了解业务的独特语义和细微差别,才能有效地回答业务用户的问题。

AI/BI 系统包括两个关键组件:

  • 仪表板:Everts 将其描述为人工智能驱动的低代码界面,用于创建和分发快速的交互式仪表板。其中包括标准 BI 功能,如可视化、交叉过滤和定期报告,无需额外的管理服务。
  • Genie:Everts 将其解释为对话界面,用于通过自然语言解决临时问题和后续问题。他补充说,它从基础数据中学习,生成自适应可视化和建议来响应用户查询,通过反馈不断改进,并为分析师提供工具来完善其输出。

Everts 表示 DatabricksAI/BI 旨在提供对数据语义的深入理解,为组织中的每个人提供自助数据分析。他指出,它由一个复合人工智能系统提供支持,该系统不断地从组织整个数据堆栈的使用中学习,包括 ETL 管道、沿袭和其他查询。

Databricks 还推出了 Mosaic AI,Everts 将其描述为一个全面的人工智能系统。用于构建、部署和管理机器学习和生成式人工智能应用程序、集成企业数据以增强性能和治理的平台。

Mosaic AI 提供了几个关键组件,Everts 概述了这些组件:

  • 统一工具:提供用于构建、部署、评估和管理 AI 和 ML 解决方案的工具,支持预测模型和生成式 AI 应用。
  • 生成式 AI 模式:支持即时工程、检索增强生成 (RAG)、微调和预训练,随着业务需求的发展提供灵活性。
  • 集中模型管理:模型服务允许集中部署、治理和查询 AI 模型,包括自定义 ML 模型和基础模型.
  • 监控和治理:Lakehouse 监控和 Unity Catalog 确保整个 AI 生命周期的全面监控、治理和沿袭跟踪。
  • 经济高效的定制大语言模型:支持培训和服务定制大型项目语言模型的成本显着降低,适合特定的组织领域。

Everts 强调,Mosaic AI 微调和定制基础模型的方法包括独特的功能,例如利用集群内的快速启动时间基本模型缓存、实时提示评估(用户可以在整个训练过程中跟踪模型响应如何变化)以及对自定义预训练检查点的支持。

这些创新的核心在于数据智能平台,它Everts 表示,通过使用人工智能模型来深入了解企业数据的语义,从而转变数据管理。该平台结合了数据湖和数据仓库的功能,利用 Delta Lake 技术进行实时数据处理,并结合 Delta 共享来实现跨组织边界的安全数据交换。

Everts 解释说,数据智能平台发挥着通过提供以下功能,在支持新的人工智能和数据共享计划方面发挥着至关重要的作用:

  • 将数据湖和数据仓库的功能组合到单一架构中的统一数据和人工智能平台。
  • 用于实时数据处理的 Delta Lake,确保可靠的数据治理、ACID 事务和实时数据处理。
  • 通过 Delta Shareing 进行协作和数据共享,实现跨组织边界的安全、开放的数据共享.
  • 通过 MLflow、PyTorch 和 TensorFlow 等流行库集成对机器学习和 AI 模型开发的支持。
  • 通过其云原生架构和 Photon 引擎实现可扩展性和性能。优化的查询执行引擎。

作为欧洲人工智能大数据博览会的主要赞助商,Databricks 计划在活动期间展示其开源人工智能和数据治理解决方案。

Everts 表示,在我们的展台上,我们还将展示如何使用 Lakehouse 应用程序使用 Hugging Face 的开源模型和 Unity Catalog 的数据从头开始创建和部署自定义 GenAI 应用程序。

通过我们的 GenAI使用应用程序,您可以生成自己的卡通图片,所有这些都在数据智能平台上运行。

Databricks 将在今年的欧洲人工智能大数据博览会上分享更多他们的专业知识。参观位于 280 号展台的 Databricks 展位,了解有关开放 AI 和改进数据治理的更多信息。

在此处探索由 TechForge 提供支持的其他即将举行的企业技术活动和网络研讨会。

关于《Ivo Everts,Databricks:增强开源人工智能并改善数据治理 - AI 新闻》
暂无评论