我刚提取出来单独发布了:获取PDF文件内文本(子程序) - 子程序信息 - Quicker 依赖Acrobat个人使用环境是,监控虚拟打印机生成的PDF,读取内部文本,正则匹配后,使用匹配值改名,因为文件内主要是文本
确实可以的,各有各的优缺点。
文本提取的话就不局限于坐标位置可以一键无感运行,缺点就是如果提取的文本及附近文本经常发生改变的话,就很难正确匹配。坐标区域识别的话就略微复杂麻烦些多了几步人工介入的操作,并且 ocr识别的精确度,图片的分辨率等也会有对动作效果有影响。
刚开始我想给发票自动重命名时也是这个思路写过一个,获取pdf中所有文本,然后再提取。后来发现不同商家开出的发票会有一些不同导致各种提取异常的情况,就一直搁置没有用了。
今天看到讨论区,有个人发出了类似需求就想了起来,然后找出来改了一下😂
😁我这写得比较简单粗暴,一个个提取文本又麻烦又慢,所以我是脚本调用Acrobat这个现成的软件直接导出txt记事本文件,然后我读取记事本文件后删除,直接绕过自己提取,只需要写个符合要求的正则表达式从记事本的文本找到想要的部分。😂
确实可以的,各有各的优缺点。
文本提取的话就不局限于坐标位置可以一键无感运行,缺点就是如果提取的文本及附近文本经常发生改变的话,就很难正确匹配。坐标区域识别的话就略微复杂麻烦些多了几步人工介入的操作,并且 ocr识别的精确度,图片的分辨率等也会有对动作效果有影响。
刚开始我想给发票自动重命名时也是这个思路写过一个,获取pdf中所有文本,然后再提取。后来发现不同商家开出的发票会有一些不同导致各种提取异常的情况,就一直搁置没有用了。
今天看到讨论区,有个人发出了类似需求就想了起来,然后找出来改了一下😂
😁我这写得比较简单粗暴,一个个提取文本又麻烦又慢,所以我是脚本调用Acrobat这个现成的软件直接导出txt记事本文件,然后我读取记事本文件后删除,直接绕过自己提取,只需要写个符合要求的正则表达式从记事本的文本找到想要的部分。😂