41款实用工具,数据获取清洗建模

诸如结构式访谈、非结构式访谈、开放式问卷调查、封闭式问卷调查、记录评论和观察等技术统称为事实调查方法。这种事实调查方法和其他数据获取方法可以采取自动化，而不必使用人工方法。

使用具有专用软件的物理设备（如终端、传感器和扫描仪等）也可用于管理物理设备和系统之间的接口。随后，这些数据可以通过典型的编程语言（如Java、VisualBasic、C++、MatLab和Lisp）来进行部分管理。也可使用开源和专用的数据采集软件，如MIDAS（最大集成数据采集系统）。

通常，数据采集系统是作为一个专用的独立系统而开发的，这种系统被称为数据记录器。在有特殊需求的情况下，系统的工作模型已准备好，并且也已呈现给了数据科学家。这样的原型有助于用户在系统实际构建之前测试数据获取机制。这有助于收集额外要求并测试已提出系统的可行性。

这里有发现更高层次内容的知识获取和机器学习方法（例如从资源中自动地获取信息和知识），这种知识获取方法的例子如概念图、审计、神经网络和其他与自动知识发现相关的方法。

在其他工具中，数据清洗工具、数据管理和建模工具以及数据可视化工具都非常重要。本文列出了不同类别中的一些主要工具。

数据清洗工具

一旦完成数据收集，便需要检查其清洁度。数据清洗通常称为数据净化，即其数据从源中删除或更正脏数据的过程。数据声明程序的目标是识别和消除数据中的错误，为进一步分析、建模和可视化提供一致的数据。

在数据项层级上，一些不正确的数据通过适当的验证被拒绝。在诸如文件和数据库的同构数据集合中，不一致程度和错误数量较少。在来自多个数据源的具有异构性质的大型数据库（如数据仓库、联邦数据库系统或全球基于Web的系统）中，数据清洗变得至关重要。

产生这些问题的原因有：

（1）不同的格式

（2）冗余数据

（3）数据使用的术语和标准不同

（4）合并数据使用的方法

删除不准确的、不完整或不合理的数据会提高数据的质量。缺失值、特殊值、范围检查、演绎修正、插值、最小值调整、错字、审计和工作流规范检查等是数据清洗的常用机制。

除了编程语言外，常用的数据清理工具如下所列。

1.Lavastorm分析

用于分析引擎等产品。

当前时间：