推56論壇

 找回密碼
 立即注冊(限中文)

QQ登錄

只需一步,快速開始

    查看: 1812|回復: 0
    打印 上一主題 下一主題

    [淘寶客推廣] 搜索引擎蜘蛛的工作原理和工作流程

    [復制鏈接]
    跳轉到指定樓層
    樓主
    發表于 2017-6-14 17:21:13 | 只看該作者 回帖獎勵 |倒序瀏覽 |閱讀模式
    搜索引擎用來爬行和訪問頁面的程序被稱為蜘蛛(spider),也叫機器人(bot)。
    一、搜索引擎蜘蛛的基本原理
    搜索引擎蜘蛛Spider,是一個很形象的名字,把互聯網比喻成一個蜘蛛網,那么Spider就是在網上爬來爬去的蜘蛛。
    網絡蜘蛛是通過網頁的鏈接地址來尋找網頁,從網站某一個頁面開始,讀取網頁的內容,找到在網頁中的其它鏈接地址,然后通過這些鏈接地址尋找下一個網頁,這樣一直循環下去,直到把這個網站所有的網頁都抓取完為止。
    如果把整個互聯網當成一個網站,那么網絡蜘蛛就可以用這個原理把互聯網上所有的網頁都抓取下來。
    對于搜索引擎來說,要抓取互聯網上所有的網頁幾乎是不可能,從目前公布的數據來看,容量最大的搜索引擎也不過是抓取了整個網頁數量的百分之四十左右。
    因此,許多搜索引擎的網絡蜘蛛只是抓取那些重要的網頁,而在抓取的時候評價重要性主要的依據是某個網頁的鏈接深度。
    對于網站設計者來說,扁平化的網站結構設計有助于搜索引擎抓取其更多的網頁。
    二、追蹤鏈接
    由于搜索引擎蜘蛛為了能夠抓取網上盡量多的頁面,它會追蹤網頁上的鏈接,從一個頁面爬到下一個頁面,就好像是蜘蛛在蜘蛛網上爬行那樣,這就是搜索引擎蜘蛛這個名稱的來因。
    整個互聯網網站都是相互鏈接組成的,也就是說,搜索引擎蜘蛛從任何一個頁面出發最終都會爬完所有頁面。
    三、搜索引擎蜘蛛工作中的信息收集
    信息收集模塊包括“蜘蛛控制”和“網絡蜘蛛”兩部分,“蜘蛛”這個稱呼形象的描述除了信息收集模塊在網絡數據形成的“web”上進行信息獲取的功能。
    總體而言,網絡蜘蛛從種子網頁出發,通過反復下載網頁并從文檔中尋找未曾見過的URL,達到訪問其他網頁得以遍歷WEb的目的。


    推56論壇 - 論壇版權1、本主題所有言論和圖片純屬會員個人意見,與推56論壇立場無關
    2、帖子作者須承擔一切因本文發表而直接或間接導致的民事或刑事法律責任
    3、本帖部分內容轉載自其它媒體,但并不代表本站贊同其觀點和對其真實性負責
    4、如本帖侵犯到任何版權問題,請立即告知本站,本站將予與清除侵權內容或刪除該帖子并致以最深的歉意
    5、推56論壇管理員和版主有權不事先通知發貼者而刪除本文

    本版積分規則

    關閉

    推56站長論壇推薦上一條 /1 下一條

    站長QQ
    在線咨詢
    咨詢熱線
    QQ:405327411

    QQ|免責聲明|小黑屋|站長論壇 ( 豫ICP備11018337號-5 )

    推56論壇(www.fuibch.live)站長論壇 SEO論壇 網絡營銷論壇 新手站長論壇 網絡推廣論壇 站長社區 站長網

    Powered by Discuz! X3.4 Licensed

    ©2001-2013 Comsenz Inc.

    快速回復 返回頂部 返回列表
    3分赛车计划软件 熊猫棋牌破解版 中国*开奖结果查询 足球比分网怎么样 辽宁11选5助手 中国体育顶呱刮中奖图 星悦内蒙麻将下载苹果 体彩6十1开奖时间查询结果 600221股票 澳洲ACT快乐8 如何下载捕鱼达人3 星悦陕西麻将官方版 今天快3走势