1.0.3 • Published 8 years ago
node-crawler-tool v1.0.3
nodecrawler beta
--c r a w l e r--
安装
npm install node-crawler-tool
使用
var Crawler = require('node-crawler-tool');
var localStore = require('./plugins/localstore'); //路劲 根据实际目录配置,也可以用自己的插件
var crawler = new Crawler({
maxConection:1,
duration:200,
plugins:[]
})
//url过滤规则 支持函数和正则表达式
crawler.addUrlFilter(function(url){
return false; //只爬种子地址的话,可以直接return false ,阻止所有链接。
});
//保存到本地(可选插件) 也可以实例化时在plugins理配置
crawler.addPlugin(localStore({
dest:'./localstore' //保存到本地的目录
}));
//事件 访问出错时触发
crawler.on('error',function(err){
console.log(err);
})
crawler.initTask(['www.baidu.com']); //入口种子url,可以多个
//主函数
crawler.on('response',function(body,task){
//你的代码 task对象包含url的信息 body--网页文档(string)
//--------
//
console.log(body);
})
crawler.start(); //开始