V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
taowen
V2EX  ?  分享创造

纯浏览器实现的 pdf 转 markdown

  •  
  •   taowen · 19 天前 · 931 次点击

    腾讯云最新优惠活动来了:云产品限时1折,云服务器低至88元/年 ,点击这里立即抢购:9i0i.cn/qcloud,更有2860元代金券免费领取,付款直接抵现金用,点击这里立即领取:9i0i.cn/qcloudquan

    (福利推荐:你还在原价购买阿里云服务器?现在阿里云0.8折限时抢购活动来啦!4核8G企业云服务器仅2998元/3年,立即抢购>>>:9i0i.cn/aliyun

    主要目的是提取纯文本方便 chatgpt

    https://gist.github.com/taowen/4ce9de62255ded695db106ded4aa18c1

    • pdf.js 可以提取所有的 TextItem 包括文本和包围盒
    • 根据包围盒可以大致判断一下是否换行了
    • 如果一行中包含了公式,那么一行会有很多个 TextItem ,这些行会称之为 complex 的行
    • 多个连续的 complex 行变成了 complex 块
    • 如果有 claude 3 haiku 的账号会对 complex 块做一次基于图片的 OCR 来清洗嘈杂的带公式的文本

    除了 pdf 还有几个纯浏览器的小工具方便用来提取纯文本

    2 条回复  ?  2024-04-13 23:45:38 +08:00
    buyno1
        1
    buyno1  
       19 天前
    油管那个总提示 复制了 0 字符
    不知什么原因
    taowen
        2
    taowen  
    OP
       19 天前
    @buyno1 你得先点一下 youtube 的 “内容转文字” 按钮
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2305 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 03:22 · PVG 11:22 · LAX 20:22 · JFK 23:22
    Developed with CodeLauncher
    ? Do have faith in what you're doing.


    http://www.vxiaotou.com