半自动探索
在本教程中,您可以学习如何发现有洞察力的图表,并使用半自动探索功能探索其潜在模式和趋势。
对于半自动探索功能,RATH 充当探索性数据分析的副驾驶,自动分析您的数据,生成可视化效果,了解您的偏好并提出建议,以帮助您探索数据中的趋势和模式。
此外,您可以使用类似 Tableau 的界面自定义任何给定图表。
在下面的示例中,我们将处理名为“Bike Sharing”的演示数据集。 该数据集包含 2011 年至 2012 年华盛顿特区 Capital 自行车共享系统中每小时和每天的出租自行车数量以及相应的天气和季节信息。 您可以从 Kaggle (opens in a new tab) 下载这个公共数据集。
先决条件
-
导入数据:在“数据源”选项卡上,单击“导入数据”按钮,选择“演示”,然后选择“自行车共享”数据集。
-
处理其他数据源,参考Data Profiling章节。
案例 1. 探索注册用户与临时用户
找一张图表来研究
在这种情况下,我们想弄清楚:在共享单车服务的用户中,有多少是注册用户(registered
),有多少只是随便使用(casual
)?
为此,请切换到“半自动探索”选项卡。 向下滚动到关联模式部分。 在本节中,RATH 会根据您的数据集自动生成可视化。
由于我们要研究注册用户,请找到“已注册”图表,然后单击图钉按钮。
在下一个屏幕上,向下滚动到关联模式部分。 RATH 自动生成一个名为:“registered
, casual
”的图表。 此图表演示了注册用户和临时用户之间的关系。
再次单击 Pin 按钮以研究图表。
探索模式、特征和潜在趋势
“registered
, casual
”图表立刻给我们提出了疑问:为什么数据会聚合成两个集群?
向下滚动到 Associated Patterns 部分,RATH 会自动理解我们的意图并生成一个“workingday
registered
, casual
” 图表来回答我们的问题。
正如这张图表所示,客户更喜欢在工作日使用共享单车服务,而临时用户则倾向于在周末骑共享单车游玩。
探索子集数据
您还可以探索数据的子集而不是整个数据集。 导航到关联子集部分,RATH 会根据您的数据分析自动生成子集。
选择一个子集并单击图钉按钮。 RATH 生成关于按相关模式和特征分类的选定子集的新图表。
当数据集的维度非常庞大时,此功能特别有用。 例如,您正在尝试研究来自具有数百种商品类别的电子商务商店的数据。
案例 2. 探索注册用户的首选时间
探索模式、特征和潜在趋势
在这种情况下,我们想知道注册用户在一天中的什么时间更喜欢使用自行车共享服务。
我们通过固定“已注册”图表开始数据探索。 向下滚动到“关联功能”部分,找到“hour
, registered
”图表,该图表表示工作日共享单车服务的高峰时间。
单击“固定”按钮以研究此图表。 我们想进一步探讨,是否存在影响注册用户每小时变化的潜在变量?
向下滚动到关联功能部分,然后找到“小时
、季节
注册
”图表。
提示:您可以单击“加载更多”按钮以生成更多相关模式/特征。
该图表展示了注册用户的季节性变化。 可以看出注册用户的使用高峰时间是夏季节假日晚上。
自定义图表
如果您发现图表并喜欢使用类似 Tableau 的界面对其进行编辑,请单击“编辑图表”选项以在“手动探索”选项卡上自定义图表。 有关详细信息,请参阅 构建自定义图表 章节。
最佳实践
-
半自动探索最适合数据分析师和数据科学家作为自动化 AI 助手,不会干扰您现有的工作流程。 您可以使用 RATH 生成一些可视化和洞察力,进行自动化数据探索,然后返回到您现有的数据分析工作流程。
-
对于想要使用类似画家的界面和工具探索数据集的用户,Data Painter 提供了类似绘板的界面,无需复杂的 BI 软件即可直接和创造性地探索数据 或编程语言。