V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Beeethoven
V2EX  ?  程序员

国内有什么好用的 PDF 文档 OCR 产品吗

  •  
  •   Beeethoven · 2020-08-06 16:50:01 +08:00 · 2967 次点击
    这是一个创建于 1359 天前的主题,其中的信息可能已经有所发展或是发生改变。

    腾讯云最新优惠活动来了:云产品限时1折,云服务器低至88元/年 ,点击这里立即抢购:9i0i.cn/qcloud,更有2860元代金券免费领取,付款直接抵现金用,点击这里立即领取:9i0i.cn/qcloudquan

    (福利推荐:你还在原价购买阿里云服务器?现在阿里云0.8折限时抢购活动来啦!4核8G企业云服务器仅2998元/3年,立即抢购>>>:9i0i.cn/aliyun

    项目语言是 Java,运行在 CentOS6.9 服务器上,主攻业务就是可搜索 PDF ( SearchablePDF )的处理和归档

    最近来了个需求,需要将纯图片 PDF ( ImagePDF )在项目里 OCR,然后继续处理。

    筛选了市面很多产品,最终锁定 ABBYY 的开发者 SDK,可以集成进项目,效果也不错,算市面同类产品独一档。本来和那边客服改谈的都谈好了,Demo 写完了,就等 license 买下来开搞,最后因为是国外软件,不好申请科研经费,方案惨遭腰斩。

    问题来了,现在国内有什么好用的 PDF 文档 OCR 产品?
    几个硬性要求:
    1.可以是 Windows 上的桌面软件(最迫不得已的方案。退而求其次,让用户手动去转),最好是 Linux 上的 SDK
    2.桌面软件支持批量处理,SDK 用多线程操作或者批量操作不会有太大的性能问题
    3.可以保存为可搜索 PDF
    4.除了识别 PDF 页面中的文字,也能识别 PDF 页面中的图片和表格
    5.对 PDF 字体大小和位置敏感,OCR 结果排版应该和原文一致

    福昕应该是国内 PDF 这一块做的最好的了,可惜它只有 Windows 版的 SDK 才支持 OCR 。不知道还有什么选择推荐,先在这里谢谢了

    14 条回复  ?  2021-09-09 16:01:35 +08:00
    Doldrums
        1
    Doldrums  
       2020-08-06 17:08:11 +08:00
    万兴? PDFelement
    tfdetang
        2
    tfdetang  
       2020-08-06 17:49:44 +08:00
    这种 pdf 的 sdk 大概多少钱啊?
    Threeinchtime
        3
    Threeinchtime  
       2020-08-06 17:51:37 +08:00
    我司 intsig
    Morriaty
        4
    Morriaty  
       2020-08-06 18:24:57 +08:00
    ABBYY 似乎要有个物理 U 盘狗才能用?

    国内的话,庖丁科技有个完整的产品叫 PDFlux,demo 看起来很牛逼,不知道有没有付费 sdk
    rocky55
        5
    rocky55  
       2020-08-06 18:26:03 +08:00
    或许我能做,现在的输出是 xml 能定位图片和文字表格,目前的输出是 xml, 主要是 C++ 和 python 写的,实在有需要可以 [email protected]
    jilu171990
        6
    jilu171990  
       2020-08-06 21:00:40 +08:00
    ABBYY 谈下来啥价?
    aosp
        7
    aosp  
       2020-08-07 10:31:26 +08:00
    百度开源的 PaddleOCR 可以自己改造一下
    walkfish
        8
    walkfish  
       2020-08-07 10:37:11 +08:00
    @Threeinchtime 在合合摸鱼,你领导知道么
    Threeinchtime
        9
    Threeinchtime  
       2020-08-07 17:35:43 +08:00
    @walkfish 哟?报上名来
    Gathaly
        10
    Gathaly  
       2020-08-09 15:33:23 +08:00
    专业领域的需要特定业务判断进行版面分析
    开源做的最好的就 tessercert 了
    对于 api caller 而言,遇到表格、图文混合的十有八九会有乱码的
    Beeethoven
        11
    Beeethoven  
    OP
       2020-08-10 09:14:05 +08:00   ?? 1
    @jilu171990 每年 10W 页 7000 刀左右
    Beeethoven
        12
    Beeethoven  
    OP
       2020-08-10 09:30:23 +08:00
    @Morriaty 下了一个看了看 重点在表格提取上 ocr 功能挺弱的.. 表格提取我喜欢开源的 tabula 随便按照需求魔改
    johnsonshu
        13
    johnsonshu  
       2020-08-20 18:25:29 +08:00
    @Beeethoven tabula 不能处理图像吧。 只能处理文字型的 PDF
    LoneFireBlossom
        14
    LoneFireBlossom  
       2021-09-09 16:01:35 +08:00
    怪不得 MarginNote 一直没上线桌面端的 ABBYY OCR 功能,这价格确实贵。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1141 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 18:37 · PVG 02:37 · LAX 11:37 · JFK 14:37
    Developed with CodeLauncher
    ? Do have faith in what you're doing.


    http://www.vxiaotou.com