网络爬虫主要有两个阶段:一, URL库初始化然后开始爬取;二, 爬虫读取没有访问过的URL, 来确定它的工作范围。
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫。网络爬虫主要有两个阶段:一, URL库初始化然后开始爬取;二, 爬虫读取没有访问过的URL, 来确定它的工作范围。其中, 对于所要抓取的URL链接, 进行以下步骤。(1) 获取URL链接
(2) 解析内容, 获取URL及相关数据
(3) 存储有价值的数据
(4) 对新抓取的URL进行规范化
(5) 过滤掉不相关的URL
(6) 将要抓取的URL更新到URL库中
(7) 重复步骤2, 直到终止条件为止。
可能您还想看