1.0.3 • Published 8 years ago

node-crawler-tool v1.0.3

Weekly downloads
4
License
ISC
Repository
-
Last release
8 years ago

nodecrawler beta

--c r a w l e r--

安装

    npm install node-crawler-tool

使用

var Crawler = require('node-crawler-tool');
var localStore = require('./plugins/localstore'); //路劲 根据实际目录配置,也可以用自己的插件
var crawler = new Crawler({
  maxConection:1,   
  duration:200,
  plugins:[]
})

//url过滤规则  支持函数和正则表达式
crawler.addUrlFilter(function(url){
  return false;  //只爬种子地址的话,可以直接return false ,阻止所有链接。
});

//保存到本地(可选插件) 也可以实例化时在plugins理配置
crawler.addPlugin(localStore({
  dest:'./localstore'  //保存到本地的目录
}));

//事件  访问出错时触发
crawler.on('error',function(err){
  console.log(err);
})



crawler.initTask(['www.baidu.com']);  //入口种子url,可以多个
//主函数
crawler.on('response',function(body,task){
  //你的代码 task对象包含url的信息  body--网页文档(string)
  //--------
  //
  console.log(body);
})

crawler.start(); //开始