格鲁修学社区

 找回密码
 注册社区
搜索
热搜: 活动 交友 discuz
楼主: 笨者之帚

求助:哪位有宗大师《中觀根本頌智慧論釋•正理海》藏文电子版,感恩!

[复制链接]
发表于 2012-7-19 05:41 | 显示全部楼层
目前還是沒有對pdf文件進行藏文orc識別麼? 我手上有個較大的file, 如果用圖轉換的方式太麻煩了.
 楼主| 发表于 2012-7-19 08:03 | 显示全部楼层
寶僧 发表于 2012-7-19 05:41
目前還是沒有對pdf文件進行藏文orc識別麼? 我手上有個較大的file, 如果用圖轉換的方式太麻煩了.

没有直接能识别PDF的软件,只能转成图,然后一个一个识别,但如果用同元字库,印刷体藏文,识别率还是很不错的,很可接受。
不过,转成喜马拉雅藏文,会损失10-20%准确率,这点很可惜。
发表于 2012-7-19 15:51 | 显示全部楼层
笨者之帚 发表于 2012-7-19 08:03
没有直接能识别PDF的软件,只能转成图,然后一个一个识别,但如果用同元字库,印刷体藏文,识别率还是很不 ...

謝謝.
发表于 2012-7-19 17:35 | 显示全部楼层
今天已经校对到30页


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册社区

x
发表于 2012-12-27 12:24 来自手机 | 显示全部楼层
small2 发表于 2012-7-4 08:21
有藏文扫描PDF的,可惜不是文本,是图片!464页,52MB。

我有WORD版,但不知交谁。需要请致电18691989871
发表于 2015-6-4 10:17 | 显示全部楼层
能不能重新发个下载地址旧的已经过期谢谢
我的邮箱540112604@qq.com
能发一个给我吗
发表于 2021-3-29 19:03 | 显示全部楼层
https://mp.weixin.qq.com/s?__biz=MjM5MTgzMTYzMA==&mid=2649315792&idx=1&sn=b3a3791b5cb077a0c0c320346df502ce&chksm=beb27af189c5f3e7f8cc966b3c17f1beb975d4442e451272eeefa4a1249f2a72a5b667416ca6&mpshare=1&scene=23&srcid=05262QHs89u5VorDQendTvaG&sharer_sharetime=1616929281646&sharer_shareid=5636eb3996acdc611db0579171a479f3#rd

杨浩:Windows上使用Tesseract-ocr识别藏文、天城体梵文
原创 杨浩  学衡  2020-05-25
图片


Windows上使用Tesseract-ocr识别藏文、天城体梵文



杨   浩

作者介绍:杨浩,北京大学哲学博士,北京大学儒藏编纂与研究中心助理教授。致力于中印佛教思想与哲学研究,近年来对数字人文相关技术有所探索。





Tesseract-ocr可以OCR识别藏文、梵文,识别为Unicode字符,效果还不错



1、下载Windows安装版


Windows安装版地址:
https://github.com/UB-Mannheim/tesseract/wiki

图片





所有版本下载地址:

https://digi.bib.uni-mannheim.de/tesseract/

推荐使用5.0版本,4.0版本支持API,编程需要4.0版本。


2、下载识别文件包

https://tesseract-ocr.github.io/tessdoc/Data-Files

有普通、best、fast三种模式可选,下载相应traineddata数据。可以下载4.0的数据。

图片



图片







还有很多其他语言,可以去探索。

注:汉语、日语、韩语等语言,Finereader的OCR效果要比Tesseract-ocr强很多,但是Finereader是收费的。西方语言还可以选用OmniPage,但是OmniPage也是收费的。网上有破解版,但是现在越来越不好找了。



3、配置TESSDATA_PREFIX变量

参考网页:https://blog.csdn.net/weixin_41982136/article/details/82747499

如将traineddata拷贝至C:\Program Files\Tesseract-OCR\tessdata,则将TESSDATA_PREFIX设置为C:\Program Files\Tesseract-OCR\tessdata

图片





4、在命令行下使用



图片



识别效果



图片

图片

图片

图片



参考网页:

https://tesseract-ocr.github.io/tessdoc/Command-Line-Usage.html

识别藏文

tesseract 藏文图片  保存地址  -l bod

识别梵文

tesseract 梵文图片  保存地址  -l san


cmd示例:

进入安装目录
cd C:\Program Files\Tesseract-OCR

测试语言安装是否正确,有哪些训练语言
tesseract --list-langs

识别一张图片
tesseract tib_001.jpg D:\tib_001 -l bod

经测试,识别铅字印刷的图片,效果还可以。

经过优化处理的图片,可以显著提高识别率,参见:

https://tesseract-ocr.github.io/tessdoc/ImproveQuality.html

处理图片推荐使用老马软件ComicEnhancerPro。

老马的博客地址:https://www.cnblogs.com/stronghorse/



图片
图片
学 衡


论究学术、阐求真理,昌明国粹,融化新知,以中正之眼光,行批评之职事,无偏无党,不激不随。以学问为志业,营道同术,合志同方。





致力于数字人文发展与研究



图片
学衡数据

图片
学衡辑刊





为学术研究提供发表园地







促进青年学者学术交流与研讨

图片
学衡讲座

图片
学衡社区





发布和分享人文学科学术类信息

图片
欢迎关注转发


⬅长按识别二维码

开启人文精神之旅

图片
学术信息分享


⬅添加微信加入分享群

如果您喜欢我们的文章,欢迎与朋友分享!阅读更多原创文章,请关注【学衡】微信公共平台!我们也一如既往地期待您和我们分享您的意见、文章和智慧!投稿信箱为【xueheng1922@126.com】转载请与本刊联系。
您需要登录后才可以回帖 登录 | 注册社区

本版积分规则

小黑屋|手机版|Archiver|格鲁教法集成

GMT+8, 2021-4-10 22:50 , Processed in 0.054805 second(s), 14 queries , Gzip On.

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表