教育行业A股IPO第一股(股票代码 003032)

全国咨询/投诉热线:400-618-4000

聚焦爬虫工作原理介绍

更新时间:2020年09月18日15时43分 来源:传智播客 浏览次数:

与通用爬虫相比,聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接,并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止,如图1所示。

聚焦爬虫工作原理

相对于通用网络爬虫,聚焦爬虫还需要解决三个主要问题:

(1) 对抓取目标的描述或定义。我们需要根据爬取需求定义聚焦爬虫的爬取目标,并进行相关的描述。

(2) 对网页或数据的分析与过滤。

(3) 对URL的搜索策略。


猜你喜欢:

python爬虫视频教程

Python高级程序员培训课程

0 分享到:
和我们在线交谈!