Skip to content
RATH
准备数据
数据转换

数据转换

数据转换是一个帮助您准备原始数据以进行分析和建模的过程。 它包括四个主要步骤,以确保您的数据准确可靠。

  • 数据清理:此步骤涉及修复数据中的错误、不一致和缺失值。

  • 数据过滤:此步骤可让您仅选择与您的分析相关的数据。

  • 数据转换:此步骤会更改数据格式,以便更易于使用。

  • 数据采样:此步骤涉及选择较小部分的数据以节省时间和资源。

通过执行这些步骤,您将能够使用高质量的数据,这些数据将为您的分析和建模提供准确的结果。

与 RATH 的数据争论

数据清洗

数据清理是从数据集中修复或删除不正确、损坏、格式不正确、重复或不完整数据的过程。 适当的数据清理可以提高分析质量。

在使用 RATH 进行数据清洗之前,请确保您的数据集具有标准化的数据格式。 其中包括:

  • 日期时间数据:必须标准化为“YYYY-MM-DD”。
  • 数值数据:应该是正确的。 例如,考虑超市销售记录的数据集。 销售数据应标准化为“100”而不是“$100”或“100 美元”。

要使用 RATH 进行数据清理,只需从数据源导入数据即可。 RATH 可以自动清理您的数据。

您还可以从“数据源”选项卡上的“清理方法”下拉菜单中选择一个选项。 RATH数据清洗

选择符合您要求的选项之一以继续。

数据过滤

您还可以使用 RATH 过滤您的数据。 移动到元视图,然后单击某个字段的“过滤器”按钮。 数据过滤

启用过滤器并选择特定范围或值集。 在上面的示例中,我们选择了温度在 20 到 30 度之间的数据。

如果您只想去除异常,请选择快速选择按钮,并使用快速过滤功能获取数据的主要部分。 您可以在以下屏幕中配置更多详细信息: 快速数据过滤

数据转换

TableMeta 视图中,选择给定字段上的转换选项。 RATH可以自动生成数据转换建议。

例如,如果您选择一个 DateTime 对象,RATH 将建议您按时间单位对 DateTime 进行分组: 表格视图中的转换字段

对于分类变量,RATH 会建议使用 One-hot Encoding 算法。 表格视图中的转换字段

如果 RATH 在某个领域检测到潜在异常,RATH 将建议使用隔离森林算法。 表格视图中的转换字段

数据采样

数据抽样是从较大的数据集中选择具有代表性的部分数据以得出关于总体人口的推论的过程。 它支持高效且有效的探索和分析,减少要处理的数据量,同时提供准确的见解。

有关数据采样的更多详细信息,请参阅连接您的数据章节中的相关部分。