文字パターン発見
このチュートリアルでは、RATH を使用してデータ ソースからテキスト パターンを検出および抽出する方法について説明します。
テキスト パターン操作の従来の方法は次のとおりです。
- 経験と洞察に基づいて、これらの特徴を手動で特定して抽出します。
- 時間がかかる操作に適したアルゴリズムまたは正規表現を設計します。
RATH は、意図に基づいて一致するテキスト パターンを正確に識別し、それらを自動的に抽出できる、スマートなテキスト パターンの検出および抽出機能を提供します。
前提条件
テキスト パターンの検出および抽出機能は、[データ ソース] タブで利用できます。 好みのデータ ソースからインポートして、この機能を利用するだけです。
テキストからパターンを発見して抽出する
ケース 1: 基本的なテキスト抽出
この場合、テキストを強調表示して、「日付」フィールドからサブセット (たとえば、「2011」) を抽出しようとします。 RATH はすべての 2011 を強調表示し、画面の右側に関連する正規表現を提案します。
ケース 2: 意図に基づいてテキストを抽出する
この場合、フィールド Name
からすべての単語 University
を抽出しようとします。
1.「大学」を選択
-
RATH は、テキストの最後の単語が目的の結果である可能性があると推測し、抽出されたテキストを分布と統計を含む新しい列に集約します。
-
これを変更するには、別の「大学」を選択します。 RATH は、「University」という単語を正確に一致させたいというあなたの意図を理解します。
ケース 3: 意図を一般化する
RATH は、テキスト抽出の意図を理解できるだけでなく、意図を一般化することもできます。
-
タイタニックの乗客の名前とその他の情報で構成される「タイタニック」データセットで、乗客の肩書と姓 (Mr. Owen Harris) を選択します。
-
「Mrs. John Bradley (Florence Briggs Thayer)」など、いくつかの姓の後に括弧内の追加情報が続くため、RATH はすべての姓を抽出することはできません。 これらの未選択の姓の 1 つだけを選択する必要があります。RATH は意図を一般化し、一致するすべての姓を抽出します。
-
人物の役職(例:Mr.、Miss.、Mrs.)を抽出することもでき、RATH は意図を正確に理解し、情報を抽出し、元のフィールドの隣に表示される新しいフィールドを生成します。
ベストプラクティス
- テキスト パターンの検出と抽出は、SQL の優れた代替手段となります。SQL は、式を使用して単純なパターンを識別して抽出できますが、隠されたテキスト パターンを把握することはできません。