Weread-scraper NPM

WeRead Scraper

将微信读书书籍内容导出为 HTML 文件

v2 正在开发中，关于 v2 的讨论请查看：https://github.com/Sec-ant/weread-scraper/pull/27

使用方法

在 Tampermonkey 中安装这个脚本
在微信读书网页版选择你想要保存的书籍，通过开始阅读按钮浏览到书籍的首页（如：《永恒的终结》），或通过目录选择书中的某一页
左键单击 Tampermonkey 浏览器扩展图标，并点击弹出菜单中的 Start Scraping
等待内容抓取过程结束，结束后脚本将自动保存一份 HTML 文档到本地
点击 Cancel Scraping 可以取消当前的抓取过程
点击 Stop Scraping & Save 可以停止当前的抓取过程，并保存已抓取的内容
点击 Set Click Interval 可以设定自动翻页时间间隔，单位为毫秒（ms）
点击 Inline Images 可以设定是否将图片内联至文档，即是否可以在离线情况下加载图片。其中 ✔ 表示该功能开启，✘ 则表示该功能关闭
点击 Display Annotations 可以设定是否显示书籍内容注释。其中 ✔ 表示该功能开启，✘ 则表示该功能关闭

本地构建

git clone https://github.com/Sec-ant/weread-scraper.git
cd weread-scraper
npm i
npm run build

常见问题

是否支持 ViolentMonkey？
本脚本使用了 webRequest API 监听相关网络请求，由于 ViolentMonkey 不支持 webRequest API，因此本脚本不支持使用 ViolentMonkey 安装。
翻页时间间隔是不是越短越好？
翻页时浏览器会向腾讯服务器发起内容获取的请求，如果一本书页数很多且翻页时间间隔过短，则有可能触发反爬机制，从而导致一段时间内无法再获取书籍内容，所以这个时间间隔要根据实际情况调整。
为什么将翻页时间间隔设为 0 时还会有等待时间？
除了花费在网络请求上的时间之外，为了尽可能压缩文件体积，脚本同时还会对内容做 minification 处理，这个过程会占用一定的时间。
为什么获取到的书籍中没有注释、笔记等信息？
这部分信息和书籍的内容信息可以看成是不同“图层”中的信息，本脚本主要针对书籍内容这一“图层”，其它信息暂时未作处理，但欢迎贡献代码。
为什么要以用户脚本的形式发布，而不做成浏览器扩展或可执行文件？
用户脚本是用户安装成本非常低的一种分发形式。浏览器扩展需要处理上架的流程，本脚本功能决定了它上架难度很大，而以开发者模式离线加载则体验不够好；如果做成可执行文件需要额外处理账号登录问题，会增加工作量。
我该如何把 HTML 文件转换为 PDF 文件？
推荐使用火狐浏览器打开保存下来的 HTML 文件，并通过浏览器的打印功能将其打印为 PDF 文件。其他浏览器也可以尝试，但是火狐浏览器在打印大量页面时速度表现会更出色，不容易出现卡顿。你也可以尝试使用 Pandoc，它支持非常多样的文档格式转换。
可以抓取付费内容吗？
这个脚本能抓取到的是可以浏览的内容，如果内容是付费的，那么需要先付费获取书籍内容后才能抓取。
需要额外安装字体吗？
这个脚本用网络字体的方式提供了一些必要的字体（它们在这里），所以即使你没有在系统中安装这些字体，你也能够得到渲染正常的结果，但注意网络字体会有一定的加载延迟。
我可以将这个脚本用于商业化活动中吗？
这个脚本以 MIT 许可证分发，MIT 许可证允许你自由地使用和分发这个脚本的源代码和构建结果，只要你在分发中包含原始版权和许可声明即可。但在使用过程中对微信读书上的书籍以及字体（见《汉仪字库的个人非商用通知》）产生的任何侵权行为，均是使用者的个人行为，与本脚本无关。虽然许可证不对这些行为做限制，但作者不鼓励商业化分发本脚本，也不鼓励利用本脚本售卖盗版书籍盈利。
这个脚本的工作原理是什么？
微信读书在渲染书籍页面内容时，会先将文字内容排版到一个容器中，然后再将其绘制在 \<canvas> 上变为图片格式，并删除原来的存有文字、已排版好的容器。这个脚本会在合适的时机截获这个容器，并保存其中的内容。
我也想参与开发、贡献代码，但是每次在微信读书页面打开浏览器开发者工具就会无限触发 debugger 断点，我该怎么办？
你可以禁用浏览器的断点，但这样你就没办法根据自己的需要打断点调试了。更推荐你查看我的另外一个仓库 a2d2-firefox，这个仓库利用了 GitHub Actions 持续拉取最新版的火狐浏览器源码，将 debugger 关键字替换为另外的关键字，并自动编译和发布适用于 Windows/Linux/macOS 平台的火狐浏览器。使用这些浏览器调试时不会触发 debugger 断点，且可以自定义断点位置。
这个仓库只有构建前的源代码，我在哪里可以下载到已经构建好的脚本文件？
jsDelivr: https://cdn.jsdelivr.net/npm/weread-scraper@latest/dist/weread-scraper.user.js
Greasy Fork: https://greasyfork.org/scripts/450169@latest/code/weread-scraper.user.js