解锁机器学习的新速度和业务规模

 

 

在当今数据驱动的世界中,创造竞争优势取决于您将大量数据转化为有意义的见解的能力。

使用高级分析和机器学习的公司,其财务业绩排名前四分之一的可能性是其他公司的两倍,执行有效决策的可能性是其他公司的三倍*。

内置于Vertica的核心 - 无需下载和安装单独的软件包 - 数据库内的机器学习改变了跨行业的数据科学家和分析师与数据交互的方式; 消除障碍并加快预测分析项目的价值。

宣布Vertica 9.x:使用机器学习进行预测分析

想了解最新的机器学习模型开发,数据准备,回归算法,聚类算法等方面的进展? 查看新推出的数字学习课程:使用机器学习的预测分析。 这个4小时的课程由6个自定进度模块组成,设计时考虑到了新老用户。

预测分析正在改变各个行业的公司运营,发展和保持竞争力的方式

金融服务

发现欺诈行为,发现投资机会,识别具有高风险特征的客户,并预测申请人违约贷款的可能性。

电信

分析网络性能,预测容量限制并确保向最终客户提供服务的质量。

广告领域

优化受众群体定位,通过A / B和多变量测试分析访问者行为,并预测用户参与模式。

制造业

识别产品缺陷,预测设备维护需求,优化供应链计划和预测需求。

 Vertica库内机器学习

Vertica的数据库内部机器学习通过大规模并行处理和熟悉的SQL界面支持整个预测分析过程,使数据科学家和分析师能够接受大数据的强大功能,并在没有限制和不妥协的情况下加速业务成果。

端到端机器学习管理

从数据准备到部署,Vertica支持整个机器学习过程:
  • 使用具有规范化、异常值检测、采样、不平衡数据处理、缺失值插补等函数准备数据
  • 在海量数据集上创建,训练和测试高级机器学习模型
  • 评估模型级统计信息,包括ROC表和混淆矩阵
  • 使用模型管理和版本控制功能恢复到以前的模型迭代

大规模并行处理(MPP)架构

以极高的速度和性能在PB级规模构建和部署模型:
  • 可伸缩性支持一键式在线群集扩展。可一键加入和删除节点并自动完成数据重分布
  • 提升查询性能,通常比传统数据仓库 快10-50倍
  • 通过列式存储和主动高级数据压缩来降低I/O成本

 

简单的SQL执行

利用用户友好、基于SQL的机器学习功能实现预测分析:
  • 使用简单的SQL调用管理和部署机器学习模型
  • 使数据分析师能够构建和操作预测分析项目
  • 访问基于SQL的高级分析,包括; 模式匹配,地理空间,时间序列等

 

 

熟悉的编程语言

使用C ++,Java,Python或R开发用户定义的扩展(UDx):
  • 通过使程序代码接近数据来增加程序代码的功能和灵活性
  • 通过在群集中的每个节点上并行执行算法来快速分析数据
  • 直接在Vertica中创建和部署C ++,Java,Python或R库

Vertica内置的机器学习算法支持分类,聚类和预测应用程序,具有模型培训,评分和评估功能。

 

线性回归

逻辑回归

K均值聚类

朴素贝叶斯

支持向量机

随机森林

传统工具的问题在于,不断增加的数据量和数据增长速度增加了创建和部署机器学习模型的复杂性 - 需要更多的时间和资源才能使预测分析项目取得成果。

Vertica的库内部机器学习旨在解决阻碍预测分析项目开展的常见障碍:

障碍1:传统工具无法处理当今数据量的规模

  • 结果:数据科学家被迫停止采样,从而影响机器学习模型的准确性

障碍2:数据存储,SQL分析,数据准备和统计分析需要多个平台

  • 结果:跨平台移动数据会占用宝贵的时间并增加预测分析项目的成本

障碍3:资源限制和技能差距阻碍公司充分利用其数据

  • 结果:错失了新的收入模式,提高运营效率,个性化客户服务等机会

我们今天看到的是我们现在必须能够查询数十亿个数据点并总结那些数十亿个数据点,甚至直接在数据库中对这些数据点执行机器学习算法,这在某种程度上是不可能的。我们见过的任何其他技术。

  • - Optimal Plus公司技术研究员Michael Schuldenfrei

可扩展性

 

横向扩展MPP架构以极快的速度处理大量数据

速度

 

端到端流程减少了准备,规范化和移动数据所花费的时间

简单

 

熟悉的SQL界面意味着无需学习新技术和语言