1.0.7 • Published 6 years ago

spider-website v1.0.7

Weekly downloads
5
License
MIT
Repository
github
Last release
6 years ago

网站爬虫(自动下载工具)

安装

安装node之后执行

npm install spider-website -g

命令行

spider weburl [--save folder]

下载 weburl 网站及相关链接到 folder目录下, 默认保存到spider目录

js使用说明

var Spider = require('spider-website');

// 下载起始网址
var index = 'http://laomu1988.github.io/index.html';

var spider = new Spider({url: index, saveTo: __dirname + '/save/'});


spider.on('loaded', function(file) {
    console.log('下载文件:',file.link);
});

spider.load();

config

  • url: 下载起始链接
  • saveTo: 保存文件目录

api

  • load() : 开始下载
  • stop() : 停止下载
  • clean() : 清空下载历史数据
  • update(link): 更新数据
  • remove(link): 移除下载链接
  • has(link) : 下载链接是否加入列表
  • get(link) : 取得下载对象

event

  • push_before 添加链接前触发,参数(file),将file.link置为空或者false将取消添加链接
  • push 文件加入下载列表时触发,参数(file)
  • load_before 下载文件前触发
  • loaded 下载成功触发, 参数(file,body,response)
  • load_fail 下载失败触发, 参数(file, response || err)
  • before_save 保存到本地前触发
  • load_finish 列表全部下载完毕后触发

spider

  • spider.config: 配置内容
  • spider.links: {link: file} 所有文件及其状态,改对象的key是文件的下载地址
  • spider.list: link,link,所有下载的或者未下载的文件列表

File对象

  • construnct(href|data, opts)
  • load() 下载数据
  • isHTML() 是否是html文件
  • isText() 是否是文本文件
  • getLinks() 获取文件中的链接
  • getBody() 获取body主体
  • 属性
    • link: 下载地址,不包含query和hash部分
    • href: 全部地址,包含query和hash
    • protocol: http:或者https:
    • host: 网址host
    • pathname: 网址路径
    • saveTo: 文件保存地址,不包括config.saveTo的部分
    • loadState: 文件下载状态,0:未下载,1:下载中,2:下载成功, 3:下载失败
    • reTryTime: 重试了多少次
    • hash: 文件内容的hash值,可用来判断文件是否改变

spider处理流程

  1. 计算页面保存位置等属性
  2. 将文件加入下载列表
  3. 从下载列表中取出一个要下载的文件
  4. 下载文件到保存位置
  5. 下载文件引用的地址,判断引用地址是否需要下载,假如需要下载则加入到下载列表
  6. 修改下载文件引用地址为相对地址(避免引用位置错乱)

todo

  • 使用es6 class改写spider
  • 命令行下载数据: spider website
  • 文件中绝对路径改为相对路径
  • 根据服务器返回编码,自动转换为utf8格式
  • 取消配置文件编码,当时gbk时下载文件完毕后自动转换为utf8格式
  • 下载地址为网站的某一个子目录下文件则默认配置为只下载该子目录下的文件,其他文件仍然指向原网址
  • 中断下载后继续下载
  • 本地数据库存储
    • 本次配置,配置是否变更
    • 要下载的文件列表
    • 文件状态更新
    • 是否存在未下载的文件
  • has 是否存在某个链接
  • remove 移除某个链接
  • 文件链接解析
    • html文件引入其他: html,js,css,img
    • css文件引入img
  • 判断文件变更: hash或者query变化
    • query变更
    • 文件内容变更
  • api
    • 取得所有文件
    • 输出当前进度
  • 事件
    • 下载完毕事件
    • 解析完毕事件

version

  • v1.0.7
    • fixbug: spider命令行修复
  • v1.0.6
    • fixbug: death依赖未加入package.json
1.0.7

6 years ago

1.0.6

6 years ago

1.0.5

7 years ago

1.0.4

7 years ago

1.0.3

7 years ago

1.0.2

7 years ago

1.0.1

7 years ago