V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
pockry
V2EX  ?  问与答

爬 RSS 设置多长的时间间隔比较好?

  •  
  •   pockry · 2019-04-28 14:40:59 +08:00 · 2275 次点击
    这是一个创建于 1834 天前的主题,其中的信息可能已经有所发展或是发生改变。

    腾讯云最新优惠活动来了:云产品限时1折,云服务器低至88元/年 ,点击这里立即抢购:9i0i.cn/qcloud,更有2860元代金券免费领取,付款直接抵现金用,点击这里立即领取:9i0i.cn/qcloudquan

    (福利推荐:你还在原价购买阿里云服务器?现在阿里云0.8折限时抢购活动来啦!4核8G企业云服务器仅2998元/3年,立即抢购>>>:9i0i.cn/aliyun

    写了个 rss 爬虫练练手,想问问爬 rss 一般设多长的时间间隔比较好?

    RSS 官网文档好像建议一个小时一次,不过我比较注重实时性,像 cnbeta 这种一小时更新十几篇的,如果 rss 只输出 10 篇,我都不一定能爬的全。

    像某些 rss reader 好像会根据 rss 的更新频率自动设置一个抓取频率,这个需要一定的历史数据量,我也搞不起。

    所以一个比较礼貌又比较实用的 rss 抓取频率设置为多少为好? 5 分钟一次会不会被 ban ?

    4 条回复  ?  2019-04-28 18:02:38 +08:00
    Ultraman
        1
    Ultraman  
       2019-04-28 15:05:25 +08:00   ?? 1
    反正是练手,抓取到的内容并不重要,换个更新没那么频繁的网站抓去
    jifengg
        2
    jifengg  
       2019-04-28 15:18:05 +08:00   ?? 1
    rss 协议里面有个下次获取时间(之类的),不过我看了一些 rss 服务,有的没有这个值,有的这个值比较大。
    我自己是 500 秒获取一次,目前没有出现被 ban 的
    airyland
        3
    airyland  
       2019-04-28 16:02:26 +08:00   ?? 1
    rss 会返回 ttl 定义,http://www.w3school.com.cn/rss/rss_tag_ttl.asp 。如果不定义,5 分钟是一个还可接受的频率。
    agagega
        4
    agagega  
       2019-04-28 18:02:38 +08:00 via iPhone
    RSS 里一个 xml 的条目最大数量有规范么?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2586 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 09:20 · PVG 17:20 · LAX 02:20 · JFK 05:20
    Developed with CodeLauncher
    ? Do have faith in what you're doing.


    http://www.vxiaotou.com