Kernkonzepte in der Datenanalyse und Business Intelligence (BI)
Datenanalyse & BI Begriffe
Datenanalyse umfasst die Inspektion, Reinigung, Transformation und Modellierung von Daten, um nützliche Informationen zu extrahieren, Schlussfolgerungen zu ziehen und Entscheidungsfindung zu unterstützen. Business Intelligence (BI) bezieht sich auf die Strategien und Technologien, die zur Analyse von Geschäftsdaten und zur Bereitstellung handlungsorientierter Erkenntnisse zur Verbesserung der Unternehmensleistung verwendet werden.
Kategoriale Variablen
Kategoriale Variablen sind Variablen, die qualitative Daten repräsentieren und aus unterschiedlichen Kategorien oder Gruppen bestehen. Zum Beispiel wäre in einem Datensatz von Autobesitzern die Marke des Autos (Toyota, Ford, Honda usw.) eine kategoriale Variable.
Vergleich
Vergleich ist eine Methode in der Datenanalyse, bei der die Unterschiede und Ähnlichkeiten zwischen zwei oder mehr Datensätzen, Variablen oder Gruppen untersucht werden. Dies kann helfen, Muster, Trends und Beziehungen zwischen den Daten zu identifizieren.
Kontinuierliche Variablen
Kontinuierliche Variablen sind Variablen, die innerhalb eines bestimmten Bereichs unendlich viele Werte annehmen können. Zum Beispiel ist die Temperatur in einer Stadt im Laufe des Tages eine kontinuierliche Variable, da sie jeden Wert zwischen der niedrigsten und höchsten Temperatur annehmen kann.
Feld
Ein Feld ist eine Spalte in einem Datensatz, das eine spezifische Eigenschaft oder Charakteristik der Daten repräsentiert. In der Business Intelligence werden Felder den Daten Spalten nach dem Importieren in die BI-Software zugeordnet.
Typ
Datentypen definieren die Art der Werte, die eine Variable halten kann, wie z.B. Ganzzahlen, Zeichenketten, Datum usw. In der BI werden Rollen den Datentypen zugewiesen, die entweder Dimensionen oder Kennzahlen sein können.
Datenfilterung
Datenfilterung ist der Prozess der Extraktion einer Teilmenge von Daten auf der Grundlage bestimmter Kriterien. Dies hilft Analysten, sich auf spezifische Informationen innerhalb eines größeren Datensatzes zu konzentrieren.
Datensatz
Ein Datensatz ist eine Sammlung von Daten, die als Quelle für Datenanalyse und Visualisierung dient. Er besteht in der Regel aus Zeilen (Datensätzen) und Spalten (Feldern).
Datenvisualisierung
Datenvisualisierung ist die grafische Darstellung von Daten, die darauf abzielt, komplexe Informationen schnell und klar darzustellen. Häufige Formen sind Balkendiagramme, Liniendiagramme, Kreisdiagramme und Streudiagramme.
Verteilung
Verteilung in der Datenanalyse bezieht sich darauf, wie Daten über verschiedene Werte oder Kategorien verteilt sind. Die Analyse der Verteilung hilft dabei, Muster, Trends und Beziehungen zwischen Variablen aufzudecken.
Explorative Datenanalyse
Die explorative Datenanalyse (EDA) ist die erste Stufe der Datenanalyse, bei der Analysten statistische und Visualisierungswerkzeuge einsetzen, um Muster, Anomalien und Beziehungen in den Daten zu identifizieren.
Funktion
Eine Funktion im Zusammenhang mit BI-Tools bezieht sich auf die den Endbenutzern bereitgestellte Funktionalität. Funktionen sind oft über Registerkarten oder Menüs in der Benutzeroberfläche der Software zugänglich.
Kennzahl vs. Dimension
In der Business Intelligence ist eine Kennzahl ein numerischer Wert eines Datenfeldes, der quantifiziert werden kann, wie z.B. Umsatzerlöse. Eine Dimension ist dagegen ein qualitativer Wert eines Datenfeldes, wie z.B. Produktbezeichnungen oder Daten.
Beziehung
Eine Beziehung in der Datenanalyse bezieht sich auf den Zusammenhang oder die Korrelation zwischen zwei oder mehr Variablen. Zum Beispiel die Beziehung zwischen Werbeausgaben und Umsatzerlösen in den Daten eines Unternehmens.
Sortieren
Sortieren ist eine Methode zur Organisation von Daten in einer bestimmten Reihenfolge, wie z.B. alphabetisch, aufsteigend oder absteigend. Dies kann helfen, Muster zu identifizieren oder Daten leichter verständlich zu machen.
Zusammenfassen
Das Zusammenfassen von Daten beinhaltet die Erstellung einer statistischen Zusammenfassung des Datensatzes, einschließlich Metriken wie Anzahl, Summe, Durchschnitt, Maximum und Minimum. Dies bietet eine Übersicht über die Eigenschaften der Daten auf hoher Ebene.
Variable
Eine Variable ist ein Maß oder Attribut eines Feldes in einem Datensatz. Variablen können kontinuierlich, kategorisch oder eine Kombination aus beidem sein.