数据剖析
什么是数据剖析
数据分析是检查和分析数据以更好地了解其结构、内容和质量的过程。 它涉及收集有关数据属性(包括数据类型、长度、模式和完整性)的统计数据和指标,以识别可能影响数据质量的潜在问题和不一致。
数据剖析的目的是提供数据的全面概览,并支持数据治理、数据清理和数据集成活动。
使用 RATH 进行数据分析
将 RATH 连接到您的数据源后,您可以在 数据源 选项卡上访问您的数据鸟瞰图。 在此页面上,您可以访问数据源的分布和基本统计信息,并通过三个不同的选项来概览您的数据源。
- 表格视图:您可以在其中以表格形式浏览您的数据。
- 元视图:您可以在其中概览元数据。 最佳实践:使用元视图快速配置数据字段的类型。 +统计视图:您可以在其中查看数据源的统计信息。 最佳实践:使用此视图进行统计和数据分布分析。
表视图
在表格视图中,您可以快速浏览可用的数据字段,从而大致了解此数据集的内容。
将鼠标光标移到您要编辑的特定数据字段上。 在此示例中,我们尝试修改“日期”字段。
-
单击“日期”右侧的“笔”按钮可更改该字段的名称。
-
单击“日期”右侧的“灯泡”按钮,使用半自动探索功能探索该字段。
-
单击“转换”按钮以转换此字段。 在这种情况下,RATH 会自动将“日期”字段检测为日期时间字段,并建议按时间单位对字段进行分组。
-
更改此字段的维度。
- 对于数据类型,您可以在名义、有序、定量和时间之间进行选择。
- 请参阅本文档 (opens in a new tab) 以了解有关这 4 种不同数据类型的更多信息。
-
勾选“使用字段”选项以从数据集中取消选择该字段。
维度和度量的概念是从商业智能 (BI) 中借用的。 严格意义上:
- 维度是一个自变量,而度量是一个因变量。
- 或者,维度是特征变量,而度量是目标变量。
RATH 会自动帮您分配维度和度量。
最佳实践:对于未探索的数据集,您可以使用 RATH 快速生成分析结果。 后面可以根据自己的理解调整字段类型。
元视图
元视图是监督数据集的另一种方式,但更侧重于元数据。
您可以轻松修改字段、更改分析和语义类型、过滤、探索或转换字段等。
统计视图
在统计视图上,RATH 在左侧面板上显示您所有的数据分布视图。 您可以点击任意字段查看该字段的详细信息,包括唯一值、最大值和最小值、中值、分位数、标准差等。
您可以选择字段的一部分。 RATH 会自动生成所选部分的数据统计。
通过拖放移动选定的字段。 所选的数据统计会相应改变。