Ocient超大规模数据仓库支持机器学习但不支持GenAI – 块和文件

2024-10-04 17:03:00 英文原文

作者:Chris Mellor

Chris Gladwin, Ocient
克里斯·格拉迪恩,Ocient

超大规模数据仓库供应商Ocient调查了企业高管,并发现他们在担忧云成本和能源消耗的背景下优先考虑人工智能支出。

Ocient在其第三份年度《超越大数据》报告,题为“达到新的高度”中,对超过500名管理150太字节或更多数据工作负载的IT和数据领导者进行了调查。

Chris Gladwin, Ocient
克里斯·格拉迪温

首席执行官兼联合创始人Chris Gladwin表示:“随着数据量的持续激增,企业面临着双重挑战:成本上升和能源消耗增加。为了充分发挥数据潜力并降低这些风险,领导者必须从根本上重新思考其数据分析策略。最新的《超越大数据》报告证实了这一转变,并强调了可持续且节能的数据分析和管理解决方案的关键重要性。”

主要发现包括:

  • 100% 的 IT 和数据领导者都认为,短期内增加其组织分析的数据量是很重要的。
  • 只有25%的受访者表示将在未来12至18个月内优先考虑仅基于云的数据分析解决方案,这一比例比2023年下降了10个百分点。
  • 尽管数据速度和安全仍然至关重要,可持续的能量消耗和成本已成为首要优先事项。
  • 64%的企业领导人表示,“意外”的云成本是影响他们准确预测支出的主要因素。
  • 超过一半(53%)的受访者表示能源消耗是他们的主要关切之一。
  • 将近三分之一(31%)的人提到减少能源消耗是切换或升级数据仓库或数据库解决方案的动机。
  • 93% 的 IT 和数据领导者计划在未来 12-18 个月内进行人工智能投资。

Ocient将其2023年和2024年的调查结果进行了比较,并发现了四个关键的回应变化:

Ocient survey findings

它承认人工智能,特别是机器学习(ML),已成为分析海量数据集的一种必不可少的方式,并在其超大规模的数据仓库中内置了直接提供的机器学习功能。OcientML提供。

其机器学习支持据称非常广泛、互操作性强,并且是为数据科学家设计的。他们可以使用SQL命令直接在数据库中工作,还可以将OcientML与第三方工具(如Jupyter笔记本)集成,以训练模型并在Ocient系统中的数据集中运行预测。

Ocient Data Platform diagram
Ocient数据平台图示

Ocient维护一个包含常见机器学习模型的仓库,这些模型可以直接使用或根据特定需求进行调整。该公司专注于在结构化和半结构化数据中常见的算法,并且这些算法运行在具有TB级或更多数据特征的数据集上。它包括许多回归和分类模型,以及前馈神经网络模型、主成分分析模型等。

查找OcientML模型的完整列表及其定义这里.

Ocient表示,无需将数据从其仓库中移出即可运行机器学习模型,并且用户可以使用全分辨率数据构建他们的模型,在迭代过程中无需担心影响其他工作负载。

该公司补充说,客户可以使用简单的SQL、数据库内的机器学习训练以及直接内置到数据库引擎中的预测功能来生成强大的机器学习模型。Ocient表示,这简化了ML流程并节省了开发人员的时间。他们可以在数据库中使用CREATE MLMODEL语句和SELECT来指定自变量和因变量,从而创建和训练ML模型。

然后他们可以使用MLMODEL名称作为函数在SELECT语句中查询,并指定一个或多个列作为MLMODEL中的自变量。

Ocient Hyperscale 数据仓库中的模型是一类数据库对象,使用数据定义语言(DDL)创建,并可通过 SQL 访问。训练需要一条 SQL 语句。例如,用于创建一个简单线性回归模型的 SQL 命令可能如下所示:

一旦模型创建完毕,您可以在Select语句中输入模型名称并像使用任何函数一样使用它来进行预测:

SELECT my_model(col1) FROM my_table;

这可以在创建新表、向新表插入数据或运行查询时完成。

Ocient不支持使用大型语言模型的生成式人工智能,其机器学习工具的目标是数据科学家而不是普通用户。在Ocient的网站上搜索“生成式人工智能”没有找到任何结果。

Ocient希望Apache Druid、Snowflake、AWS Redshift Aqua和其他数据仓库的用户切换到其数据平台,因为它声称自己的平台在可扩展性、速度、能效和性价比方面更优。

关于《Ocient超大规模数据仓库支持机器学习但不支持GenAI – 块和文件》
暂无评论

摘要

Chris Gladwin,Ocient 提供超大规模数据仓库的供应商Ocient调查了企业高管,并发现人工智能支出在对云成本和能源消耗担忧的背景下被优先考虑。主要调查结果包括: 100%的信息技术与数据负责人认为,在短期内增加其组织分析的数据量非常重要。完整列出OcientML模型及其定义请参见此处。无需将数据从Ocient的存储库中移出即可运行机器学习模型,用户可以使用全分辨率数据构建他们的模型,并且可以在不担心影响其他工作负载的情况下快速迭代,Ocient表示。在Ocient网站上搜索“生成式AI”没有找到结果。