更新时间:2023-05-09 来源:黑马程序员 浏览量:
通用网络爬虫
通用网络爬虫(General Purpose Web Crawler)又称全网爬虫(Scalable Web Crawler),是指访问全互联网资源的网络爬虫。通用网络爬虫是“互联网时代”早期出现的传统网络爬虫,它是搜索引擎(如百度、谷歌、雅虎等)抓取系统的重要组成部分,主要用于将互联网中的网页下载到本地,形成一个互联网网页的镜像备份。进用网络爬虫的目标是全互联网资源,数量巨大且范围广泛。
这类网络爬虫对爬行速度和存储空间的要求是非常高的,但是对抓取网页的顺序的要求相对较低。
聚焦网络爬虫
聚焦网络爬虫(Focused Web Crawler)又称主题网络爬虫(Topical Web Crawler),是指有选择性地访问那些与预定主题相关的网页的网络爬虫。它根据预先定义好的目标,有选择性地访问与目标主题相关的网页,获取所需要的数据。
与通用网络爬虫相比,聚焦网络爬虫只需要访问与预定主题相关的网页,这不仅减少了访问和保存的页面数量口而且提高了网页的更新速度。可见,聚焦网络爬虫在一定程度上节省了网络资源,能满足一些特定人群采集特定领域数据的需求。
【AI设计】北京143期毕业仅36天,全员拿下高薪offer!黑马AI设计连续6期100%高薪就业
2025-09-19【跨境电商运营】深圳跨境电商运营毕业22个工作日,就业率91%+,最高薪资达13500元
2025-09-19【AI运维】郑州运维1期就业班,毕业14个工作日,班级93%同学已拿到Offer, 一线均薪资 1W+
2025-09-19【AI鸿蒙开发】上海校区AI鸿蒙开发4期5期,距离毕业21天,就业率91%,平均薪资14046元
2025-09-19【AI大模型开发-Python】毕业33个工作日,就业率已达到94.55%,班均薪资20763元
2025-09-19【AI智能应用开发-Java】毕业5个工作日就业率98.18%,最高薪资 17.5k*13薪,全班平均薪资9244元
2025-09-19