智能文本模式发现与提取
在本教程中,您将了解如何使用 RATH 从数据源中发现和提取文本模式。
传统的文字花样操作方式有:
- 根据经验和洞察力手动识别和提取这些特征。
- 为操作设计合适的算法或正则表达式,这可能很耗时。
RATH 提供智能文本模式发现和提取功能,可以根据您的意图准确识别匹配的文本模式,并自动提取它们。
先决条件
数据源选项卡上提供了文本模式发现和提取功能。 只需从您喜欢的数据源导入并利用此功能。
从文本中发现和提取模式
案例一:基本的文本提取
在这种情况下,我们尝试通过突出显示文本从“日期”字段中提取一个子集(例如,“2011”)。 RATH 将突出显示所有 2011 年并在屏幕右侧建议相关正则表达式。
案例 2:根据意图提取文本
在这种情况下,我们尝试从字段“Name”中提取所有单词“University”。
1.选择“大学”一词
-
RATH 会推断文本的最后一个词可能是想要的结果,并将提取的文本聚合到一个新的列中,并进行分布和统计。
-
要更改此设置,请选择另一所“大学”。 RATH 将理解您的意图,以准确匹配“大学”一词。 ![文本模式提取-RATH可以理解意图](https://docs-us.oss-us-west-1.aliyuncs.com/img/text-pattern-extraction/text-pattern-extraction-understand-intent (opens in a new tab) .webp)
案例 3:概括意图
RATH不仅可以理解你的文本提取意图,还可以概括你的意图。
-
在由泰坦尼克号乘客姓名等信息组成的“泰坦尼克号”数据集中,选择一位乘客的头衔和姓氏(Mr. Owen Harris)。
-
由于某些姓氏后面有括号中的附加信息,例如“Mrs. John Bradley (Florence Briggs Thayer)”,RATH 无法提取所有姓氏。 您只需要选择这些未选择的姓氏中的一个,RATH 将概括您的意图并提取所有匹配的姓氏。
-
也可以提取人物的称谓(例如Mr.、Miss.、Mrs.),RATH会准确理解其意图,提取信息,生成新的字段显示在原字段旁边。
最佳实践
- 文本模式发现和提取可以很好地替代 SQL,它可以识别和提取带有表达式的简单模式,但无法找出隐藏的文本模式。