Skip to content
RATH
准备数据
智能文本模式发现与提取

智能文本模式发现与提取

在本教程中,您将了解如何使用 RATH 从数据源中发现和提取文本模式。

传统的文字花样操作方式有:

  • 根据经验和洞察力手动识别和提取这些特征。
  • 为操作设计合适的算法或正则表达式,这可能很耗时。

RATH 提供智能文本模式发现和提取功能,可以根据您的意图准确识别匹配的文本模式,并自动提取它们。

先决条件

数据源选项卡上提供了文本模式发现和提取功能。 只需从您喜欢的数据源导入并利用此功能。

从文本中发现和提取模式

案例一:基本的文本提取

在这种情况下,我们尝试通过突出显示文本从“日期”字段中提取一个子集(例如,“2011”)。 RATH 将突出显示所有 2011 年并在屏幕右侧建议相关正则表达式。 简单文本提取

案例 2:根据意图提取文本

在这种情况下,我们尝试从字段“Name”中提取所有单词“University”。

1.选择“大学”一词

  1. RATH 会推断文本的最后一个词可能是想要的结果,并将提取的文本聚合到一个新的列中,并进行分布和统计。

  2. 要更改此设置,请选择另一所“大学”。 RATH 将理解您的意图,以准确匹配“大学”一词。 ![文本模式提取-RATH可以理解意图](https://docs-us.oss-us-west-1.aliyuncs.com/img/text-pattern-extraction/text-pattern-extraction-understand-intent (opens in a new tab) .webp)

案例 3:概括意图

RATH不仅可以理解你的文本提取意图,还可以概括你的意图。

  1. 在由泰坦尼克号乘客姓名等信息组成的“泰坦尼克号”数据集中,选择一位乘客的头衔和姓氏(Mr. Owen Harris)。

  2. 由于某些姓氏后面有括号中的附加信息,例如“Mrs. John Bradley (Florence Briggs Thayer)”,RATH 无法提取所有姓氏。 您只需要选择这些未选择的姓氏中的一个,RATH 将概括您的意图并提取所有匹配的姓氏。

  3. 也可以提取人物的称谓(例如Mr.、Miss.、Mrs.),RATH会准确理解其意图,提取信息,生成新的字段显示在原字段旁边。 文本模式提取-意图泛化

最佳实践

  • 文本模式发现和提取可以很好地替代 SQL,它可以识别和提取带有表达式的简单模式,但无法找出隐藏的文本模式。