網絡爬蟲的分類有哪幾種?你了解嗎?

更新時間： 2020-07-29 16:54:36來源：粵嵌教育瀏覽量：15205

　如果說對于python有過了解的學員的話肯定就是對于python就是有了解的了，爬蟲是python的一部分了，在系統結構中網絡爬蟲的分類是要分為多少種的呢?大家對于這些網絡爬蟲是否真的了解呢?今天粵嵌科技就來和大家一起了解下網絡爬蟲的分類。

　　1.通用網絡爬蟲(General Purpose Web Crawler)

　　爬取目標資源在全互聯網中，爬取目標數據巨大。對爬取性能要求非常高。應用于大型搜索引擎中，有非常高的應用價值。

　　通用網絡爬蟲的基本構成：初始URL集合，URL隊列，頁面爬行模塊，頁面分析模塊，頁面數據庫，鏈接過濾模塊等構成。

　　通用網絡爬蟲的爬行策略：主要有深度優先爬行策略和廣度優先爬行策略。

　　2.聚焦網絡爬蟲(Focused Crawler)

　　將爬取目標定位在與主題相關的頁面中

　　主要應用在對特定信息的爬取中，主要為某一類特定的人群提供服務

　　聚焦網絡爬蟲的基本構成：初始URL,URL隊列，頁面爬行模塊，頁面分析模塊，頁面數據庫，連接過濾模塊，內容評價模塊，鏈接評價模塊等構成

　　聚焦網絡爬蟲的爬行策略：

　　基于內容評價的爬行策略

　　基于鏈接評價的爬行策略

　　基于增強學習的爬行策略

　　基于語境圖的爬行策略

　　關于聚焦網絡爬蟲具體的爬行策略

　　3.增量式網絡爬蟲(Incremental Web Crawler)

　　增量式更新指的是在更新的時候只更新改變的地方，而未改變的地方則不更新

　　只爬取內容發生變化的網頁或者新產生的網頁，

　　一定程度上能保證所爬取的網頁，盡可能是新網頁

　　4.深層網絡爬蟲(Deep Web Crawler)

　　表層網頁：不需要提交表單，使用靜態的鏈接就能夠到達的靜態網頁

　　深層網頁：隱藏在表單后面，不能通過靜態鏈接直接獲得，是需要提交一定的關鍵詞之后才能夠獲取得到的網頁。

　　深層網絡爬蟲重要的部分即為表單填寫部分

　　深層網絡爬蟲的基本構成：URL列表，LVS列表(LVS指的是標簽/數值集合，即填充表單的數據源)爬行控制器，解析器，LVS控制器，表單分析器，表單處理器，響應分析器等

　　深層網絡爬蟲表單填寫有兩種類型：

　　基于領域知識的表單填寫(建立一個填寫表單的關鍵詞庫，在需要的時候，根據語義分析選擇對應的關鍵詞進行填寫)

　　基于網頁結構分析的表單填寫(一般是領域只是有限的情況下使用，這種方式會根據網頁結構進行分析，并自動的進行表單填寫)

　　網絡爬蟲的分類粵嵌科技就和大家講解這么多了，不管是你是對網絡爬蟲感興趣還是你對于python感興趣，粵嵌科技都歡迎大家來我們公司的Python培訓班進行實地考察，也可以來免費體驗我們的python免費試聽課程，獲取的方式可以點擊我們文章下面的獲取試聽資格按鈕來獲取。

免費預約試聽課