数据分析和商业智能(BI)的核心概念
数据分析和BI术语
数据分析包括检查、清洗、转换和建模数据,以提取有用的信息,得出结论并支持决策。商业智能(BI)是指用于分析业务数据并提供可操作洞见以改善业务绩效的策略和技术。
分类变量
分类变量是表示定性数据的变量,由不同的类别或组成。例如,在车主数据集中,汽车品牌(丰田,福特,本田等)就是一个分类变量。
比较
比较是一种数据分析方法,涉及检查两个或多个数据集、变量或组之间的差异和相似之处。这可以帮助识别数据中的模式、趋势和关系。
连续变量
连续变量是指在给定范围内可以取无限数量值的变量。例如,一天中城市的温度就是一个连续变量,因为它可以取到最低和最高温度之间的任何值。
字段
字段是数据集中表示特定属性或特征的列。在商业智能中,导入数据到BI软件后,字段会分配给数据列。
类型
数据类型定义变量可以包含的值的类型,如整数、字符串、日期等。在BI中,数据类型被分配为维度或度量。
数据过滤
数据过滤是根据指定的标准提取数据的过程。这有助于分析人员专注于大型数据集中的特定信息。
数据集
数据集是作为数据分析和可视化源的数据集合。它通常由行(记录)和列(字段)组成。
数据可视化
数据可视化是数据的图形表示,旨在快速清晰地呈现复杂信息。常用形式包括条形图、折线图、饼图和散点图。
分布
在数据分析中,分布指数据在各个值或类别之间的传播或分布方式。分析分布有助于揭示变量之间的模式、趋势和关系。
探索性数据分析
探索性数据分析(EDA)是数据分析的初始阶段,在此阶段分析人员使用统计和可视化工具来识别数据中的模式、异常和关系。
功能
在BI工具的上下文中,功能指向最终用户提供的功能。这些功能通常可以通过软件界面中的标签或菜单进行访问。
度量与维度
在商业智能中,度量是数据字段的数字值,例如销售收入。另一方面,维度是数据字段的定性值,例如产品名称或日期。
关系
在数据分析中,关系指两个或多个变量之间的联系或相关性。例如,广告支出和公司销售收入之间的关系。
排序
排序是一种按照特定顺序组织数据的方法,例如按字母顺序、升序或降序。这有助于识别模式或使数据更易于理解。
概括
概括数据涉及创建数据集的统计摘要,包括计数、总和、平均值、最大值和最小值等指标。这提供了关于数据特征的高级概述。
变量
变量是数据集中字段的测量或属性。变量可以是连续、分类或二者的组合。