深度优先搜索和广度优先搜索是网络爬虫的基本爬取策略,在这两种策略基础上可以根据采集信息和网站结构等具体需求,结合页面权重或大站优先等抓取策略原则,改进和优化网络爬虫的采集效果。
深度优先搜索和广度优先搜索是网络爬虫的基本爬取策略,在这两种策略基础上可以根据采集信息和网站结构等具体需求,结合页面权重或大站优先等抓取策略原则,改进和优化网络爬虫的采集效果。基于深度优先搜索的递归爬虫可以了解,由于是串行的爬虫,所以采用多线程提高爬虫速度并不合适,因为深度优先的链接是逐个获取,在获取之前不知道下一个页面有多少链接,调用多线程的队列并不能带来太多速度提升。
多线程配合广度优先搜索比较合适,因为广度优先的遍历以层次为顺序,每层上所有链接都遍历到后才向下一层搜索,每层都可以有大量链接能够在队列里分配给多线程搜索,所以能够显著。
可能您还想看