文本清洗_去除无关字符

文本清洗_去除无关字符 公开 已发布

royxia 更新于 2023-01-26 11:46 | 0 | 30
如何安装动作?

适用于
分类(旧)
文本处理 功能增强



更多信息
分享时间 2023-01-12 20:01
最后更新 2023-01-26 11:46
修订版本 4
用户许可 -未设置-
Quicker版本 1.36.25
动作大小 8.7 KB

分享到

「去除一句(段,篇)文本中除字母、数字、下划线、汉字字符之外的非字符,使杂乱的文本更加规范。」

简介

1、字母、数字和下划线(非中文)状态下,去除这三种元素之外的汉字及其他标点符号;

2、中文状态下,则去除汉字之外的一切字母、数字、下划线及其他标点符号。

3、当文本为纯中文文本时,应用该动作非中文状态下的去除功能,则删除整行;反之则不可,二者规则不同。

4、字母和数字混合状态下,应用该动作非中文状态的去除功能,等同于提取数字。

5、字母、数字、汉字文本混合状态下的功能有待下一步突破。


注:参考了“中文句子拆分”“英文句子拆分”“提取中文”和“逗号合并多行文本”等动作

最近更新

修订版本 更新时间 更新说明
4 2023-01-26 11:46 对非中文文本进行了区分。
3 2023-01-14 23:15 更改名称;增加说明
2 2023-01-14 17:47 更改名称,凸显核心功能。

最近讨论