PDF转换与OCR

Posted by 代码苦力 on November 26, 2014

PDF转换与OCR

首先需要为大家介绍一下OCR, OCR的全名是Optical Character Recognition, OCR也就是取Optical Character Recognition每个单词的第一个字符缩写, 其中文意思是'光学字符识别'. OCR的作用是让计算机自动识别图片里的文字.
 
由于PDF文件是不可以编辑的, 因此不少用户希望把PDF转换成Word或文本文件以用于编辑后再传播. PDF文件有的内容本身是文本, 这类PDF文件可以直接使用PDF转Word工具转成文本, 还有不少PDF文件本身是扫描出来的图片, 这些PDF要转成文本就需要用到OCR技术.
 
我经常在阅读扫描格式pdf的时候,把它们抓取为文字格式,当然得是好书。可能有朋友不清楚ocr,它就是把文字从图像中识别抓取出来。文字版pdf的好处就的是便于传播、引用,视觉上清晰,具有更大的处理空间,乃至可以二次制作,比如出于手机什么的阅读需要。但是,ocr过程中的文字识别率不会是100%,需要进一步校对,所以在这个意义上粗制滥造的文字版pdf还不如扫描原版的价值。

Editor's Picks