图片里的文字可以用什么软件提取出来转为WORD
一文件,是pdf格式,图片格式也有,怎么把里面的文字提取出来,打字实在太多了*.*lll什么软件可以搞定?@.@@.@ 找一款OCR试试 分两种情况:
1:您的PDF文件是由WORD,EXCEL或者其他格式的文字图像混合格式的文件生成的PDF文件,当然是使用 Adobe Acobat 了(制作PDF文件也是用Adobe Acrobat)在您的电脑中安装了Acrobat之后,您的打印机那里多了台 Acrobat Distiller,用这个作为打印机打印,就可以将Office文件生成PDF文件,供 Acrobat PDF Reader 阅读, 当您想提取这些文件中的文字信息的时候,用 Adobe Acrobat打开文件, 选择另存为“ RTF ”文件,所有的字符都出现了,但是格式会有比较大的损失。特别是图文混排的情况,基本上格式不会保留。
注意: PDF Reader是自由分发的免费软件, 但是 Adobe Acrobat不是免费的, 但可以买D版的光盘,5.01,6.01都有,需要注册码的(不要买太高的版本)。
2)如果您的PDF文件是通过扫描纸张文件的过程制作的,那只有使用OCR(光学字符识别)软件来识别了。
如何区分文件类型:
1:从文字字符的分辨率可以看到类型,另外改变页面的百分比大小可以识别。
2:如果是由字符生成的PDF文件,使用Adobe Acrobat可以小范围更改文本的内容。 图片里面的可以用 清华TH-OCR 9.0绿色版 试试,识别率还不错 ! RTF格式的文件时可以编辑的,另存为WORD就可以从新排版。
我们经常使用这种方法 “破解” PDF文件。 用OCR软件,专业的如清华的或尚书,其实用office自带的Microsoft Office Document Imaging也可以实现OCR功能,效果还不错。 微软那个实在不敢恭维,其他的OCR不知道如何。 搞定了,就是效果不咋滴,NB送 有几款现成的转换软件推荐如下:
1.ScanSoft PDF Converter 2.0----------41M左右
2. SolidConverterPDF---------------------16M左右
3.Foxit PDF Editor 1.2.0419 汉化版---1.2M左右
建议GOOGLE搜一下,我下载的地方忘记了
第一款比较好用 清华文通TH-OCR 9.0 光盘完全版
软件大小:74000 KB
软件语言:简体中文
软件介绍:
OCR是英文Optical Character Recognition的缩写,意思为光学字符识别,通称为文字识别,它的工作原理为通过扫描仪或数码相机等光学输入设备获取纸张上的文字图片信息,利用各种模式识别算法分析文字形态特征,判断出汉字的标准编码,并按通用格式存储在文本文件中,由此可以看出,OCR实际上是让计算机认字,实现文字自动输入。它是一种快捷、省力、高效的文字输入方法。
TH-OCR是清华大学自1985年就开始研发的,TH是TsingHua(清华)的缩写,TH-OCR代表北京清华紫光文通信息技术有限公司开发的 OCR软件。在国家“863”计划支持下,持续了十多年的科研成果,从1.0版本开始已经升级到现在的9.0版本。独家真正实现了汉英混排同时识别,在国际上首次突破了OCR产品只能处理汉字或英文单一文字的局限性,新增了东方文字(简繁汉、日文、韩文)识别功能,对日文和韩文与英文混排文档的识别水平甚至超过日本和韩国对本国文字的识别水平,在国内、外产生了重大的影响,并连续3年被中国软件行业协会评为优秀软件产品,成为汉字输入技术的一座里程碑。 TH-OCR9.0版本已应用到了包括电子政务、电子出版物、报社、银行、邮政、税务、图书馆等多个领域,成为国内OCR市场的先锋。
本届两会代表的所有提案全部采用了我国自主知识产权的世界识别领域领先产品——清华紫光文通的TH-OCR9.0进行录入识别,它以准确的识别率、优异的识别速度博得了两会工作人员的交口称赞。而清华TH-OCR技术在两会上的成功应用更论证了我国也完全有实力拥有自己的卓越技术。
TH-OCR的突出特点:
◇ 汉英双语同时混排,识别率最高,居世界领先水平。
◇ 可以识别黑白、灰度、彩色图像,可以读取多种图像格式。
◇ 首创对识别结果进行电子文档版面复原功能,所见即所得。
◇ 首创日文、韩文、日英混排、韩英混排识别功能,识别率98%以上。
TH-OCR的六大优势:
1. 是唯一可以识别2万多汉字的多体文字识别系统,汉字识别国内最优。
2. 汉字和英文混排、日文和英文混排、韩文和英文混排同时识别。
3. 汉字识别率最高。清华紫光文通TH-OCR经过"863"智能专家组对数十万字的指标评测和中国软件评测中心对产品的严格测试,识别正确率超过99.5%,代表了目前印刷体文字识别的最高水平。
4. 支持多种环境接口。清华紫光文通TH-OCR支持WINDOWS环境和GB、BIG5、GBK、JIS、 SHIFT-JIS和KSC等多种内码,可以用于 WINDOWS NT和WINDOWS 98/2000/XP,适合全球各个地区使用。TH-OCR还具有自学习功能,不论什么生僻字,都可以通过键盘输入进行学习,大大拓宽了OCR系统的识别字符集。
5. 历次国内鉴定均被中国科学院院土和中国工程院院土等专家组成的鉴定委员会评定为“具有世界领先水平”。
下载好用就说发个言。有问题也在这发个言
这个版本是我亲自制作并经过测试,应该比以前所有的破解版均好。
原版下载地址在下面的链接
http://ftp.lnnu.edu.cn/soft/01_Pub/04_%CD%BC%CE%C4%B4%A6%C0%ED/05_%C9%A8%C3%E8%CA%B6%B1%F0/01_%D7%CF%B9%E2%20OCR/%C7%E5%BB%AA%CE%C4%CD%A8%20TH-OCR%209.0%B9%E2%C5%CC%CD%EA%C8%AB%B0%E6.rar
相当好用的一个款软件,但是它识别时,图版必须得是TIF格式。
你得把你下载的东东转成TIF才行。
尚书的不错
去年用国几个月,提高办公效率n倍,被领导赞赏. 留名,马克
页:
[1]