跳至主要內容
RSS 进阶篇:Huginn - 真·为任意网页定制 RSS 源(PhantomJs 抓取)

烧制网页 RSS 源,主要有 FEED43Huginn 两种方法。

  • FEED43:简单免费,六小时抓取一次,每次抓取 20 条静态页面。
  • Huginn:自由度高,能自定义抓取频率、内容结构、js 结果、输出样式等;需要搭建服务器,学习 Huginn 抓取规则。

Huginn 准备工作

  • 准备 NAS 或 Debian/Ubuntu 环境的服务器;

  • 参考 deploy Huginn inside of Dockerinstallation guide for Debian/Ubuntu 来搭建 Huginn。

  • 注册 PhantomJs Cloud ,然后将 API key 保存在 Huginn 的 Credentials 中。很多网站是用 JS 加载动态内容,因此需要 PhantomJs Cloud 来抓取页面 JS 缓存。免费版每天限制抓取 500 次页面,需求不大可建立多个账号使用不同 API key,足够个人使用。


...自动化Huginnrss大约 3 分钟
雇个机器人帮你干活

机器人会取代你工作!
计算云会取代你工作!
AI 会取代你的工作!

我相信科技终究有一天会消灭所有工作,但我们这代人的无奈就是很难等到这一天。

作为懒人、宅男,等不及了怎么办?

既然还没被取代,那就雇个机器人帮你干活

我每天第一件事是去各个网站看热门新闻、行业资料。以前是用 RSS,但 RSS 被视为落后,越来越多的网站不再提供 RSS 源。离开 RSS,我就一直没找到更合适的方法去将内容聚合起来,不得不在一个个网站间疲于奔命,逐渐不再看内容。


...自动化Huginnrss大约 2 分钟