1.0.7 • Published 2 years ago

@35iter/spider-core v1.0.7

Weekly downloads
-
License
ISC
Repository
-
Last release
2 years ago

spider-core

使用 puppetter-cluster 的爬虫工具。

开发

启动编译环境:

# 安装依赖
yarn install
# 启动 tsc 环境
yarn dev

链接到 yarn 中:

yarn link

在测试项目中引入:

yarn link spider-core

安装

yarn install spider-core

使用方式:

import { openURL,destory } from 'spider-core'

await openURL({
  url: 'https://baidu.com',
  async task(page) {
    // do anything with page
  }
})

// 所有任务执行完成以后,关闭集群
destory()

API

openURL

function openURL(params: {
  url: string;
  task: TaskFunction<any, any>;
  /**
    * 页面是否加载完成的检查,对于前后端分离的页面有奇效
    */
  check?: (page: Page) => Promise<boolean>;
  /**
    * check 超时时间
    */
  checkTimeout?: number;
}): Promise<any | null>;

destory

function destory(): Promise<void>;

特殊说明

Timeout hit: 30000

puppetter-cluster 默认给每个 cluster 30 秒的使用时间,实际是不够用的,所以我将 timeout 设置为了最大值。在处理完所有任务以后,要记得手动关掉集群。

1.0.2

2 years ago

1.0.7

2 years ago

1.0.6

2 years ago

1.0.5

2 years ago

1.0.4

2 years ago

1.0.3

2 years ago

1.0.1

2 years ago

1.0.0

2 years ago