搜索引擎蜘蛛如何爬取網(wǎng)站內(nèi)容

作者：龍鼎網(wǎng)絡(luò)發(fā)布時間：2014-12-14 16:29:47瀏覽次數(shù)：15386文章出處：晉城自適應(yīng)網(wǎng)站制作

爬行是指搜索引擎的蜘蛛在網(wǎng)頁上找到鏈接前進頁面，然后“爬”搶過去的抓取頁。蜘蛛發(fā)現(xiàn)新年的頁面后，如瀏覽器打開網(wǎng)頁，把HTML代碼存儲在數(shù)據(jù)庫中。在英文中兩個概念通常是爬行或蜘蛛（在這里是動詞）說，根據(jù)上下文來區(qū)分一下。

顯然，爬行和抓取是交織在一起的。抓取是一個過程，實際發(fā)生的我們可以觀察到，在原來的日志，蜘蛛有完整的記錄，如：準確把握時間，狀態(tài)代碼，捕獲文件，吸引了更多的文件等。蜘蛛抓取的頁面和瀏覽器讀取的文件是完全相同的。

而爬行是一個形象的比喻，實際上不存在，蜘蛛抓取的文件中找到的鏈接，然后立即跟蹤過去這一過程。存儲在數(shù)據(jù)庫中的蜘蛛抓取的文件，程序解析文件將存儲在網(wǎng)頁中鏈接的URL地址存入數(shù)據(jù)庫，然后蜘蛛從庫中的地址，根據(jù)一定的規(guī)則選擇的URL捕獲。蜘蛛不是在訪問頁時看到一個RUL就爬上去。

索引指的是各種精加工的URL信息，如去除重復(fù)，分割等，然后把URL信息存儲在數(shù)據(jù)庫中，稱為索引數(shù)據(jù)庫。真正的搜索是倒排索引，未來將有機會探討。注意，關(guān)于URL信息庫中的指標不僅是關(guān)鍵詞和頁面的內(nèi)容構(gòu)成特征（位置，格式），和鏈接，更新信息。在英語單詞就是index。

收錄是SEO最關(guān)心的最常用的詞，事實上，是4個最模糊的概念。被包含的意思是我們可以找到的網(wǎng)頁是搜索引擎的索引庫。但是，稍后我們將看到，在索引庫的URL不能抓，這和SEO有直覺可能是不一樣的。

當然，準確把握概念對理解和處理許多SEO問題都有幫助。這里有幾個例子。

收錄不了的原因是什么？網(wǎng)頁不收錄是SEO最頭痛的問題，不收錄就沒有排名和流量。太多的人問問網(wǎng)頁將不收錄在博客論壇，什么原因，也給域名，但問題是沒有答案的，甚至愿意花時間去診斷不能回答（除非你列出所有可能的原因，等于沒回答），因為缺了一關(guān)鍵：頁面抓取了嗎？只檢查原始日志知道，看到網(wǎng)站是看不出來的，檢查流是查不出來的。理解前面的概念就知道了，被抓取不一定被包收錄，不收錄，并不一定意味著是不抓取。

如果頁面上卻沒有索引和收錄，往往是內(nèi)容有問題（原創(chuàng)？采集？所謂的偽原創(chuàng)？敏感的內(nèi)容或產(chǎn)品？復(fù)制的方向內(nèi)容找到原因？）。網(wǎng)站的結(jié)構(gòu)應(yīng)該沒有太大問題，搜索引擎是在看到了不適合包含的內(nèi)容。如果頁面沒有被抓取，它應(yīng)該去的網(wǎng)站的鏈接結(jié)構(gòu)，搜索引擎友好的技術(shù)壁壘，域名權(quán)重等去找。

晉城龍鼎網(wǎng)絡(luò)為您解答。

關(guān)注微信公眾號 關(guān)注官方微博 Rss訂閱本站信息 在線咨詢

上一篇：晉城龍鼎教你如何面對網(wǎng)站被封
下一篇：做優(yōu)化需要知道的七大要點

建站百科

客戶評價

非常好的一次合作。溝通很耐心！價格很實惠！真的非常推薦哦。我們的很多要求在和設(shè)計師的持續(xù)溝通后得到了完美的解決，挺專業(yè)的一家公司，以后會繼續(xù)合作～2019/12/11
一個企業(yè)網(wǎng)站要多久可以做完呢，響應(yīng)式網(wǎng)站是什么意思呢？2019/2/21
網(wǎng)站相當實惠，而且排版設(shè)計也不錯，后臺搭建簡單明了，修改、發(fā)布、信息上傳也很方便。特別是售后，任何相關(guān)問題不懂的都可以問，很不錯的公司。有好幾次，因為自己不是太懂，所以中間弄錯了幾個地方，技術(shù)很負責(zé)任，都幫我又調(diào)好了。簡單易學(xué)，服務(wù)到位，都要和他們成為朋友了，哈哈，推薦推薦。2019/12/12
我們想做一個網(wǎng)站，找一家北京網(wǎng)站建設(shè)公司，你們是網(wǎng)站外包公司嗎？都做個哪些案例呢？2019/4/25
工作認真負責(zé)，全程專人負責(zé)溝通，不停的完善細節(jié)，值得推薦！2019/12/12
我想做一個企業(yè)網(wǎng)站，你們做網(wǎng)站多少錢，我要做響應(yīng)式的網(wǎng)站，請問網(wǎng)站建設(shè)怎么收費呢？2019/2/19
性價比挺高的定制網(wǎng)站！確實超出我們的預(yù)期.2019/12/11
我們想建一個網(wǎng)站，請問你們做網(wǎng)站多少錢，我們想做一個企業(yè)官網(wǎng)。2019/3/4
你們做的網(wǎng)站案例都很不錯，請問做一個網(wǎng)站多少錢。2019/2/21

專業(yè)的網(wǎng)站建設(shè)、響應(yīng)式、手機站微信公眾號開發(fā)

注冊號：140502200020561

公眾號微信聯(lián)系

進入手機版

網(wǎng)站建設(shè)

搜索引擎蜘蛛如何爬取網(wǎng)站內(nèi)容

最新資訊

最新方案

最新案例

建站百科

客戶評價