「去除一句(段,篇)文本中除字母、数字、下划线、汉字字符之外的非字符,使杂乱的文本更加规范。」
简介
1、字母、数字和下划线(非中文)状态下,去除这三种元素之外的汉字及其他标点符号;
2、中文状态下,则去除汉字之外的一切字母、数字、下划线及其他标点符号。
3、当文本为纯中文文本时,应用该动作非中文状态下的去除功能,则删除整行;反之则不可,二者规则不同。
4、字母和数字混合状态下,应用该动作非中文状态的去除功能,等同于提取数字。
5、字母、数字、汉字文本混合状态下的功能有待下一步突破。
注:参考了“中文句子拆分”“英文句子拆分”“提取中文”和“逗号合并多行文本”等动作
最近更新
修订版本
|
更新时间
|
更新说明
|
4
|
2023-01-26 11:46
|
对非中文文本进行了区分。
|
3
|
2023-01-14 23:15
|
更改名称;增加说明
|
2
|
2023-01-14 17:47
|
更改名称,凸显核心功能。
|