大数据分析涉及一个复杂的流程,可以跨越业务管理、数据科学家、开发人员和生产团队。制定新的数据分析模型只是这个复杂过程的一部分。
Techtarget的George Lawton总结了大数据分析工具中的10个必备功能,可帮助减少数据科学家改善业务成果所需的工作量。最主要的是,这些意见来自一线的数据科学家、分析主管。
1.可嵌入的结果
大数据分析的重要价值,在于从数据模型中收集的信息有助于如何使用其他应用程序。
“能够将这些见解纳入实时决策过程至关重要,”内存数据库提供商VoltDB的首席技术专家Dheeraj Remella说。
这些功能应该包括以易于嵌入决策平台的方式创建洞察的能力,该平台应该能够将这些见解应用于实时事件的数据流中,以制定即时决策。
2.支持数据多样化
数据科学家倾向于花费大量时间来清理、标记和组织数据以进行数据分析。这涉及跨不同数据源和类型、应用程序和API的无缝集成、清理数据以及提供数据的精细、基于角色的安全访问。
数据库提供商InterSystems数据平台营销总监Joe Lichtenberg表示,大数据分析工具必须支持全方位的数据类型、协议和集成场景,以加快和简化这些步骤。
3.数据探索
数据分析经常涉及底层数据的临时发现和探索。此探索可帮助组织了解问题的业务环境并制定更好的分析策略。有助于简化此过程的功能可以减少测试有关数据的新假设所需的工作量,从而更快地清除坏数据,并发现隐藏在数据中的有用连接。
强大的可视化功能还可以帮助进行数据探索。
4.支持不同的分析
将数据分析结果投入生产的方法有很多种,包括商业智能、预测分析、实时分析和机器学习。每种方法都为业务提供了不同的价值。良好的大数据分析工具应该具有足够的功能和灵活性,以最小的努力支持这些不同的用例,或者采用不同的工具时可能涉及的再培训。
5.可扩展性
数据科学家通常可以长时间在小数据集上开发和测试不同的数据模型。但由此产生的分析模型需要经济地运行,并且通常必须快速提供结果。这要求这些模型支持高水平的规模,用于摄取数据和在生产中使用大型数据集,而无需过多的硬件或云服务成本。
预测分析公司Descartes Labs的数据科学负责人Eduardo Franco说:“一种将算法从小型数据集扩展到大型数据集的工具也很重要。”“为实现这一转变要花费了大量的时间和精力,因此自动化是一个巨大的帮助。”
6.版本控制
在大型数据分析项目中,可能有几个人参与调整数据分析模型参数。其中一些变化可能最初看起来很有希望,但是当它们投入生产时会产生意想不到的问题。
大数据分析工具中内置的版本控制可以提高跟踪这些更改的能力。如果以后出现问题,它还可以更轻松地将分析模型回滚到先前版本。
数据运营平台提供商Devo USA的数据科学副总裁查尔斯·阿米克说:“如果没有版本控制,单个开发人员进行的一次更改可能会导致已经创建的所有内容发生故障。”
7.简单集成
数据科学家和开发人员花在定制集成以处理数据源和连接应用程序上的时间越少,他们花在改进数据分析模型和应用程序上的时间就越多。
简单的集成还可以更轻松地与其他开发人员和数据科学家共享结果。数据分析工具应支持与现有企业和云应用程序以及数据仓库的轻松集成。
8.数据管理
大数据分析工具需要一个强大而高效的数据管理平台,以确保所有可交付成果的连续性和标准化,数据分析咨询公司Velocity Group Development的分析主管Tim Lafferty说。随着数据量的增加,可变性也随之增加。
强大的数据管理平台可以帮助企业维护单一的事实来源,这对于成功的数据计划至关重要。
9.数据治理
数据治理功能对于大数据分析工具非常重要,可帮助企业保持合规性和安全性。这包括能够跟踪用于构建分析模型的数据集的来源和特征,以及帮助保护和管理数据科学家和工程师使用的数据。用于构建模型的数据集可能会引入隐藏的偏差,从而产生歧视问题。
数据治理对于敏感数据尤为重要,例如受保护的健康信息和需要遵守隐私法规的个人身份信息。现在,一些工具包括伪造数据的能力,允许数据科学家根据GDPR等法规建立基于个人信息的模型。
10.数据处理框架
许多大数据分析工具都专注于分析或数据处理。一些框架,如Apache Spark,都支持这两种框架。这使得开发人员和数据科学家能够使用相同的工具进行实时处理; 复杂的提取,转换和加载任务; 机器学习; 报告; SQL。这很重要,因为数据科学是一个高度迭代的过程。数据科学家在到达投入生产的模型之前可能会创建100个模型。这种迭代过程通常涉及丰富数据以改进模型的结果。
“统一分析工具帮助企业在众多孤立的数据存储系统中构建数据管道,同时以迭代的方式对其解决方案进行培训和建模,”数据分析平台提供商Databricks的首席执行官兼联合创始人Ali Ghodsi说。
- 达索系统全球CEO:科学是公司的DNA 坚持长期主义 – 2023年12月28日
- 发改委:实施绿色低碳先进技术示范工程重点方向含“工业互联网+绿色低碳” – 2023年8月24日
- 如何以技术手段破解数据合规难题 – 2023年8月17日