您所在的位置: 首页>建站知识>菏泽网站建设定制采集频率及采集工具

菏泽网站建设定制采集频率及采集工具

发表于:2021-11-18 阅读:0 关键词: 采集频率及采集工具

采集频率的确定需要考虑网站的更新速度和网页内容的重要程度,一般认为自动获取每半年采集一次比较合适。“对于更新频率高的网站要提高采集频率,如新闻网页、社交媒体网络;对于更新频率较低的且信息量稳定的网站可以延长采集频率,如机构的官方网站。”

        。采集频率的确定需要考虑网站的更新速度和网页内容的重要程度,一般认为自动获取每半年采集一次比较合适。“对于更新频率高的网站要提高采集频率,如新闻网页、社交媒体网络;对于更新频率较低的且信息量稳定的网站可以延长采集频率,如机构的官方网站。”

        采集频率的高低还与采集范围的确定密切相关。完整型采集范围广、内容多、耗费时间长,因此采集频率较低;选择型采集范围小、内容少,因此采集频率相对较高。英国的UKWA项目每年至少完成一次对英国所有网站的自动收集任务,但是对一些重要的网站(通常是新闻网站)会进行更频繁的采集活动,有时甚至一天一采集。

        在采集工具的选择上面,大部分网页档案项目都会运用到网络爬虫技术,在此基础上设计的Heritrix和HTTrack是使用较多的两种采集工具。