Skip to content
RATH
准备数据
数据剖析

数据剖析

什么是数据剖析

数据分析是检查和分析数据以更好地了解其结构、内容和质量的过程。 它涉及收集有关数据属性(包括数据类型、长度、模式和完整性)的统计数据和指标,以识别可能影响数据质量的潜在问题和不一致。

数据剖析的目的是提供数据的全面概览,并支持数据治理、数据清理和数据集成活动。

使用 RATH 进行数据分析

将 RATH 连接到您的数据源后,您可以在 数据源 选项卡上访问您的数据鸟瞰图。 在此页面上,您可以访问数据源的分布和基本统计信息,并通过三个不同的选项来概览您的数据源。

  • 表格视图:您可以在其中以表格形式浏览您的数据。
  • 元视图:您可以在其中概览元数据。 最佳实践:使用元视图快速配置数据字段的类型。 +统计视图:您可以在其中查看数据源的统计信息。 最佳实践:使用此视图进行统计和数据分布分析。 数据视图

表视图

在表格视图中,您可以快速浏览可用的数据字段,从而大致了解此数据集的内容。 表格视图

将鼠标光标移到您要编辑的特定数据字段上。 在此示例中,我们尝试修改“日期”字段。 在表视图中编辑字段

  • 单击“日期”右侧的“笔”按钮可更改该字段的名称。

  • 单击“日期”右侧的“灯泡”按钮,使用半自动探索功能探索该字段。

  • 单击“转换”按钮以转换此字段。 在这种情况下,RATH 会自动将“日期”字段检测为日期时间字段,并建议按时间单位对字段进行分组。 表格视图中的转换字段

  • 更改此字段的维度。

    • 对于数据类型,您可以在名义、有序、定量和时间之间进行选择。
    • 请参阅本文档 (opens in a new tab) 以了解有关这 4 种不同数据类型的更多信息。
  • 勾选“使用字段”选项以从数据集中取消选择该字段。

维度和度量的概念是从商业智能 (BI) 中借用的。 严格意义上:

  • 维度是一个自变量,而度量是一个因变量
  • 或者,维度是特征变量,而度量是目标变量

RATH 会自动帮您分配维度和度量。

最佳实践:对于未探索的数据集,您可以使用 RATH 快速生成分析结果。 后面可以根据自己的理解调整字段类型。

元视图

元视图是监督数据集的另一种方式,但更侧重于元数据。 元视图

您可以轻松修改字段、更改分析和语义类型、过滤、探索或转换字段等。

统计视图

在统计视图上,RATH 在左侧面板上显示您所有的数据分布视图。 您可以点击任意字段查看该字段的详细信息,包括唯一值、最大值和最小值、中值、分位数、标准差等。 统计视图

您可以选择字段的一部分。 RATH 会自动生成所选部分的数据统计。 选择

通过拖放移动选定的字段。 所选的数据统计会相应改变。 统计视图中选择数据