RSS 入门篇:Feed43&FeedEx-为静态网页定制 RSS 源
迷上 IFTTT 等自动化应用后,我需要为各种不同的网页定制 RSS 源。其中,最容易入门的工具是 FEED43。本文是一篇介绍如何使用 FEED43 定制 RSS 源的入门指南。
► 开始烧制属于自己的 feed
1. 进入网页
FEED43 不需要注册,点击「Create your own feed」即可使用。
2. 选定 RSS 网页
在「Step1. Specify source page address (URL)」中输入目标网址,将 Page Source 中的内容复制到 txt 文档中,以便之后编写抓取规则。
如果 Page Source 显示为乱码,可将 Encoding 设置为 UTF-8 。
3. 定制 RSS 抓取规则
「Global Search Pattern」是选择要搜索的范围,建议不填此项,这样会搜索整个页面。「Item (repeatable) Search Pattern」这部分最重要,是我们要抓取的内容。
仔细查看上方获取到的 Page Source,找到需要抓取的元素,输入到「Item (repeatable) Search Pattern」。
测试网址:http://news.163.com/special/0001386F/rank_whole.html
。
需要抓取的源代码:
<tr>
<td class="red">
<span>2</span
><a href="更时尚更运动 车展实拍解析红旗 H5"
>更时尚更运动 车展实拍解析红旗 H5</a
>
</td>
<td class="cBlue">11211615</td>
</tr>
抓取规则:
<tr>
{*}
<td class="{*}"><span>{*}</span><a href="{%}">{%}</a></td>
{*}
<td class="cBlue">{*}</td>
{*}
</tr>
点击 Extract,进行抓取。
4. 整理 rss 输入格式
「Define output format」是 Feed 的属性,通常前三项会被自动抓取一,后三项将之前获取的 item 里面的元素填入即可,{%1}
对应的是链接,所以填入「Item Link」,{%2}
对应标题则填入到「Item Title」。
然后点击「preview」,完成制作,同时可以查看预览效果。
如果注册了 FEED43 的账号,可以修改 RSS 地址,但链接不能使用中文,否则会导致 RSS 出错。
5. 获取 RSS 地址
点击 Feed URL 可得 RSS 地址,样例是 https://www.feed43.com/dianji.xml。
在阅读器中的效果如下:
6. 全文抓取
FEED43 导出的条目需要点击链接才能查看内容。要在 RSS 中展示全文,需要通过 FeedEx 再转换一次。注意:FEED43 免费用户过多,需要在浏览器中打开一次才能获得真实链接(一般为 http://node2.feed43.com
)。FeedEx 需要使用真实链接,一般 3 分钟内转换完毕。
FeedEx: https://feedex.net/
Feeds43 的免费版每 6 小时抓取一次,最多显示最新的 20 条内容。如果网页源更新较频繁,建议使用 RSSHub 和 Huginn。
RSS 合集
汇总的 RSS 永久订阅 feeds 均通过 RSSHub 和 Huginn 制作。如果有兴趣自制 RSS,可参考以下教程。