Skip to content
RATH
데이터 준비하기
텍스트 패턴 추출

텍스트 패턴 추출

이 자습서에서는 RATH를 사용하여 데이터 소스에서 텍스트 패턴을 검색하고 추출하는 방법을 설명합니다.

텍스트 패턴 작업의 전통적인 방법은 다음과 같습니다.

  • 경험과 통찰력을 바탕으로 이러한 특징을 수동으로 식별하고 추출합니다.
  • 작업에 적합한 알고리즘 또는 정규 표현식을 설계하므로 시간이 많이 걸릴 수 있습니다.

RATH는 사용자의 의도에 따라 일치하는 텍스트 패턴을 정확하게 식별하고 자동으로 추출할 수 있는 스마트 텍스트 패턴 검색 및 추출 기능을 제공합니다.

전제조건

텍스트 패턴 검색 및 추출 기능은 데이터 소스 탭에서 사용할 수 있습니다.원하는 데이터 소스에서 간단히 가져와서 이 기능을 활용하세요.

텍스트에서 패턴 검색 및 추출

사례 1: 기본 텍스트 추출

이 경우 하위 집합을 추출하려고 합니다 (예: 2011) 에서 date 텍스트를 강조 표시하여 필드를 선택합니다.RATH는 2011을 모두 강조 표시하고 화면 오른쪽에 관련 정규 표현식을 제안합니다. 간단한 텍스트 추출

사례 2: 의도에 따라 텍스트 추출

이 경우 모든 단어를 추출하려고 시도합니다. University 필드에서 Name.

1.“대학”이라는 단어를 선택합니다.

2.RATH는 텍스트의 마지막 단어가 원하는 결과일 수 있다고 추론하고 추출된 텍스트를 분포 및 통계가 포함된 새 열로 집계합니다.

3.이를 변경하려면 다른 항목을 선택하십시오. University.RATH는 “대학”이라는 단어를 정확히 일치시키려는 귀하의 의도를 이해할 것입니다. 텍스트 패턴 추출 - RATH는 의도를 이해할 수 있습니다

사례 3: 인텐트 일반화

RATH는 텍스트 추출 의도를 이해할 수 있을 뿐만 아니라 의도를 일반화할 수도 있습니다.

1.타이타닉 승객의 이름 및 기타 정보로 구성된 “타이타닉” 데이터세트에서 승객의 직함 및 성 (Mr. Owen Harris) 을 선택합니다.

2.일부 성 뒤에 괄호 안에 “존 브래들리 부인 (플로렌스 브릭스 테이어)" 과 같은 추가 정보가 붙기 때문에 RATH는 모든 성을 추출할 수 없습니다.선택하지 않은 성 중 하나만 선택하면 RATH가 의도를 일반화하고 일치하는 모든 성을 추출합니다.

3.또한 사용자의 직함 (예: Mr., Miss., Mrs.) 을 추출하면 RATH가 의도를 정확히 이해하고 정보를 추출하여 원래 필드 옆에 표시된 새 필드를 생성합니다. 텍스트 패턴 추출 - 인텐트의 일반화

모범 사례

  • 텍스트 패턴 검색 및 추출은 표현식으로 간단한 패턴을 식별하고 추출할 수 있지만 숨겨진 텍스트 패턴은 알아낼 수 없는 SQL의 훌륭한 대안이 될 수 있습니다.