Github开源工具分享之PDF文档表格提取工具

介绍

Tabula是用于释放锁定在PDF文件中的数据表的工具。如果您曾经尝试使用PDF中提供的数据做任何事情,那么您就会知道它是多么痛苦-没有简单的方法可以从PDF文件中复制和粘贴数据行。通过Tabula,您可以使用简单易用的界面将数据提取到CSV或Microsoft Excel电子表格中。Tabula可在Mac,Windows和Linux上运行。

界面



下载并安装Tabula

Windows和Linux用户将需要安装Java的副本。您可以在此处下载Java。(Java包含在Mac版本中。)

  1. 下载适用于您的操作系统的Tabula版本:
  2. Windows: tabula-win.zip
  3. Mac OS X: tabula-mac.zip
  4. Linux / Other: tabula-jar.zip,在里面查看README.txt以获得指示
  5. 解压缩zip文件。(说明:Windows和Mac)
  6. 进入刚刚提取的文件夹。在其中运行“ Tabula”程序。
  7. 将打开一个网络浏览器。如果不是,请打开您的Web浏览器,然后转到http:// localhost:8080。有塔布拉!

如何使用

  1. 上载包含数据表的PDF文件。
  2. 浏览到所需的页面,然后通过单击并拖动以在表格周围绘制一个框来选择表格。
  3. 单击“预览并导出提取的数据”。Tabula将尝试提取数据并显示预览。检查数据以确保它看起来正确。如果缺少数据,则可以返回以调整选择。
  4. 点击“导出”按钮。
  5. 现在,您可以将数据作为文本文件或电子表格(而不是PDF)使用!(您可以在Microsoft Excel或免费的LibreOffice Calc中打开下载的文件)

注意:Tabula仅适用于基于文本的PDF,不适用于扫描的文档。

获取方式

在GitHub上搜索Tabula ,就可以去到Tabula的仓库中下载软件。如果你对下载使用软件有什么问题,可以给我留言哈,也可以关注公众号“Github开源工具”,更多有趣开源软件信息欢迎关注公众号。

有些工具或者工具的有些版本小编也没有一一试过,一般的功能应该都是支持的,不过也有意外原因导致工具使用的效果不是很好,希望大家也不要见怪,有问题可以评论私聊我,能解决的都会尽力帮大家解决的。

举报
评论 0