スノーフレークでステージから簡単にすべての列を選択する方法

Name: Sebastian Brandt

更新日 2023/7/24

スノーフレークは、データエンジニアリング、データウェアハウス、データレイク、データサイエンスの分野を変革するクラウドデータプラットフォームです。ステージの操作ができることは、スノーフレークの主要な特徴の1つです。この記事では、スノーフレークのステージの概念について、さらに重要なことに、ステージからすべての列を選択する方法について詳しく説明します。

スノーフレークのステージは、データファイルがテーブルにロードされる前に格納される中間領域として機能します。この機能は、大量のデータ操作に不可欠であり、スノーフレークを使用するデータエンジニアやアナリストにとって重要なトピックです。しかし、ステージからすべての列を選択することの具体的な方法について詳しく説明する前に、まずスノーフレークのステージとは何か、なぜ重要なのかを理解しましょう。

Snowflakeデータを簡単に視覚化したいですか？RATH (opens in a new tab)は、AIパワーのデータ可視化と自動データ分析のための最も簡単なソリューションを提供します！

次のビデオをご覧ください。RATHを使ってデータインサイトを簡単に探索する方法について説明しています。

SnowflakeデータベースをRATHに接続したいですか？Snowflake統合のステップバイステップガイドをご覧ください。

Snowflake以外にも、RATHはさまざまなデータソースをサポートしています。以下は、RATHに接続できる主要なデータベースソリューションのいくつかです：

興味がありますか？RATHのウェブサイト (opens in a new tab)でRATHを試してみてください。

(opens in a new tab)

スノーフレークのステージの理解

スノーフレークでは、ステージはデータファイルがステージングされる場所を指定する名前付きデータベースオブジェクトであり、データウェアハウスと分析の重要なコンポーネントです。ステージは、生のデータファイルとスノーフレークのテーブルとの間の橋渡しとして重要な役割を果たします。

スノーフレークには、次の2つのタイプのステージがあります：

内部ステージ：これらのステージは、Snowflakeのテーブル内部にデータを格納します。テーブルとスキーマごとに自動的に作成され、明示的に作成することもできます。
外部ステージ：これらのステージは、Amazon S3バケット、Google Cloud Storageバケット、またはMicrosoft Azure Blobストレージなどの外部の場所にデータを格納します。外部ステージは読み取り専用であり、DML操作を行うことはできません。

これら2つのタイプのステージの違いを理解することは、Snowflakeとの作業方法に影響を与えるため、重要です。

スノーフレークのメタデータの操作

スノーフレークは、内部および外部のステージのファイルに対して自動的にメタデータを生成します。このメタデータには、ファイル名、バージョンID、および関連するプロパティなどの情報が含まれています。スノーフレークのメタデータは、データウェアハウスの内容を特定するためのロードマップとして機能し、データのクエリと解析において重要な要素です。

スノーフレークでクエリやテーブルにロードできるメタデータの主要な列は次のとおりです：

METADATA$FILENAME：この列はステージングされたファイルの名前、所属する行、およびファイルのパスを返します。
METADATA$FILE_ROW_NUMBER：この列は、ステージ化されたファイルの各レコードの行番号を返します。

スノーフレークでステージされたデータをクエリする方法

スノーフレークのステージとメタデータについて十分な理解ができたので、スノーフレークでステージされたデータをクエリする方法について詳しく説明しましょう。外部ステージと内部ステージのメタデータをクエリする手順を具体的な例を交えて説明します。

外部ステージからメタデータをクエリする

まずは、外部のAmazon S3バケットにステージングされたCSVファイル「Cars」があるという例から始めましょう。ファイルには3つの列（ID、名前、場所）があります。このステージドファイルからメタデータをクエリする方法は次のとおりです：

スノーフレークのステージを作成する：まず、CSVファイルが保存されているAmazon S3バケットを指すステージを作成する必要があります。これはCREATE STAGEコマンドを使用して行うことができます。
ファイル形式を作成する：次に、CSVファイルの形式を記述するファイル形式を作成する必要があります。これはCREATE FILE FORMATコマンドを使用して行うことができます。
メタデータをクエリする：最後に、SELECTステートメントを使用して、ステージングされたファイルのメタデータと通常のデータ列をクエリすることができます。SELECTステートメントには、METADATA$FILENAMEとMETADATA$FILE_ROW_NUMBERの列、および通常のデータ列を含める必要があります。

以下は、これらの手順を示すサンプルコードの一部です：

-- ステージを作成
CREATE OR REPLACE STAGE cars_stage URL = 's3://your_bucket/path/';
 
-- ファイル形式を作成
CREATE OR REPLACE FILE FORMAT cars_format TYPE = 'CSV' FIELD_DELIMITER = ',';
 
-- メタデータとデータ列をクエリする
SELECT METADATA$FILENAME, METADATA$FILE_ROW_NUMBER, $1, $2, $3
FROM @cars_stage
(FILE_FORMAT => cars_format);

このクエリは、ステージングされたCSVファイルの各レコードごとに、ファイル名、行番号、および各列のデータを返します。

内部ステージからメタデータをクエリする

内部ステージからメタデータをクエリする際の手順は似ていますが、いくつかの違いがあります。ここでは、内部のスノーフレークステージに「Movies」という名前のJSONファイルがステージングされているとします。このファイルには、タイトルと年という2つのプロパティを持つオブジェクトが含まれています。このステージドファイルからメタデータをクエリする方法は次のとおりです：

スノーフレークのステージを作成する：外部ステージと同様に、まずステージを作成する必要があります。ただし、これは内部ステージのため、URLを指定する必要はありません。
ファイル形式を作成する：次に、JSONファイルの形式を記述するファイル形式を作成する必要があります。これは、CREATE FILE FORMATコマンドを使用して行うことができます。タイプは「JSON」に設定します。
JSONファイルをステージする：PUTコマンドを使用して、ローカルディレクトリからJSONファイルをスノーフレークのステージにステージングすることができます。
メタデータをクエリする：最後に、SELECTステートメントを使用してステージングされたファイルのメタデータとオブジェクトをクエリすることができます。SELECTステートメントには、METADATA$FILENAMEとMETADATA$FILE_ROW_NUMBERの列、およびJSONオブジェクトを解析するためのPARSE_JSON関数を含める必要があります。

以下は、これらの手順を示すサンプルコードの一部です：

-- ステージを作成
CREATE OR REPLACE STAGE movies_stage;
 
-- ファイル形式を作成
CREATE OR REPLACE FILE FORMAT movies_format TYPE = 'JSON';
 
-- JSONファイルをステージする

このクエリは、ステージングされたJSONファイル内の各レコードのファイル名、行番号、およびパースされたJSONオブジェクトを返します。

ステージングされたデータをクエリするための高度なテクニック

Snowflakeでステージングされたデータをクエリする操作に慣れてくると、より高度なテクニックを探索することができます。たとえば、「COPY INTO」コマンドを使用して、ステージングされたファイルからデータをSnowflakeテーブルにロードすることができます。このコマンドを使用すると、データを行単位で挿入するよりもはるかに高速なバルクデータ操作を実行できます。

以下は、Amazon S3バケットにステージングされたCSVファイルからデータをSnowflakeテーブルにロードするために「COPY INTO」コマンドを使用する例です。

-- テーブルを作成
CREATE OR REPLACE TABLE cars (id INTEGER, name STRING, location STRING);
 
-- ステージングされたファイルからデータをテーブルにロード
COPY INTO cars
FROM @cars_stage
FILE_FORMAT => cars_format;

このコマンドは、ステージングされたCSVファイルからすべてのデータを「cars」テーブルにロードします。その後、通常のSQLコマンドを使用してテーブル内のデータをクエリできます。

よくある質問

Snowflakeでステージングされたデータをテーブルにロードせずにクエリすることはできますか？

はい、Snowflakeでは、テーブルにロードせずに直接ステージングされたデータをクエリすることができます。これは、上記の例に示されているように、「SELECT」ステートメントを使用して行うことができます。ただし、大量のステージングされたデータを直接クエリする場合、データをテーブルにロードするよりも遅くなる可能性があることに注意してください。

Snowflakeでは、どの種類のファイルをステージングできますか？

Snowflakeでは、CSV、JSON、Avro、Parquet、およびORCなど、さまざまな種類のファイルをステージングすることができます。ファイル形式を作成する際にファイルの種類を指定することができます。

Snowflakeでは、ローカルファイルからデータをステージングすることはできますか？

はい、Snowflakeでは、「PUT」コマンドを使用してローカルファイルからデータをステージングすることができます。このコマンドは、ローカルファイルを内部のSnowflakeステージにアップロードし、データをクエリしたりテーブルにロードしたりできるようにします。

結論

Snowflakeでステージ全体の列を選択することは、大量のデータを効率的にクエリして分析するための強力な操作です。Snowflakeにおけるステージとメタデータの概念を理解し、ステージングされたデータのクエリ技術をマスターすることで、データの完全なポテンシャルを引き出し、より深い洞察を得ることができます。データエンジニア、データアナリスト、データサイエンティストに関わらず、これらのスキルをマスターすることは、ツールキットに貴重な追加となるでしょう。

What is Snowsight: The New Face of Snowflake Data Visualization スノーフレークのタイムトラベル: わかりやすく説明