1.0.1 • Published 9 years ago

pdf-view v1.0.1

Weekly downloads
1
License
MIT
Repository
-
Last release
9 years ago

#pdf-view

该项目是更快的PDF在线预览方案的组成部分, 可以讲PDF文件按页拆分为图片并提取其中的文本信息, 提取出的文本信息以JSON的格式存储, 为页面上的下一步处理做准备.

安装

该项目依赖 graphicsmagick 和 nodejs.

1, nodejs安装不说 2, graphicsmagick 可以使用如下命令在mac上安装, 其他linux系统可以使用相应的方式安装

brew install graphicsmagick
brew install ghostscript

3, 安装该命令

sudo npm install pdf-view -g

使用

Usage: pv [options] <file>

Options:

    -h, --help             output usage information
    -V, --version          output the version number
    -I, --image <pattern>  image output pattern
    -T, --text <path>      text output path
   
  1. -T 声明用来提取文本信息, 参数之名json的保存地址
  2. -I 声明用来拆分图片, 参数为一个pattern, 必须包含'%d', 用来表示页码

示例:

$ pv -I ./page-%d.png -T demo.json demo.pdf 

Warning: Setting up fake worker.
pdf to json finish.
split to image finish.

$ ls

demo.json	demo.pdf	page-0.png	page-1.png	page-2.png