我将合并断行的中文标点符号改成了英文,但是有一个问题, 标题的后面也没有标点符号,这样会和正文合并到一起,请问该怎么修改
必须要有可以判断为标题的文本特征,才能实现。比如,“以 # 开头的行视为标题行”、“下一行开头的首字母为大写则视为标题行”、“下一行为空行则视为标题行”之类的。这个取决于你的情况,你得找出“标题行”的判断依据,才能写出相应的替换规则。
我看看
特征应该是第二行首字母大写,但是正则表达式似乎没办法匹配第二行的数据,或许c#可以?
那你先试试这个替换规则:
([^.?!~:\r\n])\r?\n([a-z])
$1 $2
好的,我又改了一下,可以匹配到另外一种特殊情况,问题已解决,谢谢你。
必须要有可以判断为标题的文本特征,才能实现。比如,“以 # 开头的行视为标题行”、“下一行开头的首字母为大写则视为标题行”、“下一行为空行则视为标题行”之类的。这个取决于你的情况,你得找出“标题行”的判断依据,才能写出相应的替换规则。
我看看
特征应该是第二行首字母大写,但是正则表达式似乎没办法匹配第二行的数据,或许c#可以?