作者:Chris Mellor
超大规模数据仓库供应商Ocient调查了企业高管,并发现他们在担忧云成本和能源消耗的背景下优先考虑人工智能支出。
Ocient在其第三份年度《超越大数据》报告,题为“达到新的高度”中,对超过500名管理150太字节或更多数据工作负载的IT和数据领导者进行了调查。
首席执行官兼联合创始人Chris Gladwin表示:“随着数据量的持续激增,企业面临着双重挑战:成本上升和能源消耗增加。为了充分发挥数据潜力并降低这些风险,领导者必须从根本上重新思考其数据分析策略。最新的《超越大数据》报告证实了这一转变,并强调了可持续且节能的数据分析和管理解决方案的关键重要性。”
主要发现包括:
Ocient将其2023年和2024年的调查结果进行了比较,并发现了四个关键的回应变化:
它承认人工智能,特别是机器学习(ML),已成为分析海量数据集的一种必不可少的方式,并在其超大规模的数据仓库中内置了直接提供的机器学习功能。OcientML提供。
其机器学习支持据称非常广泛、互操作性强,并且是为数据科学家设计的。他们可以使用SQL命令直接在数据库中工作,还可以将OcientML与第三方工具(如Jupyter笔记本)集成,以训练模型并在Ocient系统中的数据集中运行预测。
Ocient维护一个包含常见机器学习模型的仓库,这些模型可以直接使用或根据特定需求进行调整。该公司专注于在结构化和半结构化数据中常见的算法,并且这些算法运行在具有TB级或更多数据特征的数据集上。它包括许多回归和分类模型,以及前馈神经网络模型、主成分分析模型等。
查找OcientML模型的完整列表及其定义这里.
Ocient表示,无需将数据从其仓库中移出即可运行机器学习模型,并且用户可以使用全分辨率数据构建他们的模型,在迭代过程中无需担心影响其他工作负载。
该公司补充说,客户可以使用简单的SQL、数据库内的机器学习训练以及直接内置到数据库引擎中的预测功能来生成强大的机器学习模型。Ocient表示,这简化了ML流程并节省了开发人员的时间。他们可以在数据库中使用CREATE MLMODEL语句和SELECT来指定自变量和因变量,从而创建和训练ML模型。
然后他们可以使用MLMODEL名称作为函数在SELECT语句中查询,并指定一个或多个列作为MLMODEL中的自变量。
Ocient Hyperscale 数据仓库中的模型是一类数据库对象,使用数据定义语言(DDL)创建,并可通过 SQL 访问。训练需要一条 SQL 语句。例如,用于创建一个简单线性回归模型的 SQL 命令可能如下所示:
一旦模型创建完毕,您可以在Select语句中输入模型名称并像使用任何函数一样使用它来进行预测:
SELECT my_model(col1) FROM my_table;
这可以在创建新表、向新表插入数据或运行查询时完成。
Ocient不支持使用大型语言模型的生成式人工智能,其机器学习工具的目标是数据科学家而不是普通用户。在Ocient的网站上搜索“生成式人工智能”没有找到任何结果。
Ocient希望Apache Druid、Snowflake、AWS Redshift Aqua和其他数据仓库的用户切换到其数据平台,因为它声称自己的平台在可扩展性、速度、能效和性价比方面更优。