爬行是指搜索引擎的蜘蛛在網(wǎng)頁上找到鏈接前進頁面,然后“爬”搶過去的抓取頁。蜘蛛發(fā)現(xiàn)新年的頁面后,如瀏覽器打開網(wǎng)頁,把HTML代碼存儲在數(shù)據(jù)庫中。在英文中兩個概念通常是爬行或蜘蛛(在這里是動詞)說,根據(jù)上下文來區(qū)分一下。
顯然,爬行和抓取是交織在一起的。抓取是一個過程,實際發(fā)生的我們可以觀察到,在原來的日志,蜘蛛有完整的記錄,如:準確把握時間,狀態(tài)代碼,捕獲文件,吸引了更多的文件等。蜘蛛抓取的頁面和瀏覽器讀取的文件是完全相同的。
而爬行是一個形象的比喻,實際上不存在,蜘蛛抓取的文件中找到的鏈接,然后立即跟蹤過去這一過程。存儲在數(shù)據(jù)庫中的蜘蛛抓取的文件,程序解析文件將存儲在網(wǎng)頁中鏈接的URL地址存入數(shù)據(jù)庫,然后蜘蛛從庫中的地址,根據(jù)一定的規(guī)則選擇的URL捕獲。蜘蛛不是在訪問頁時看到一個RUL就爬上去。
索引指的是各種精加工的URL信息,如去除重復(fù),分割等,然后把URL信息存儲在數(shù)據(jù)庫中,稱為索引數(shù)據(jù)庫。真正的搜索是倒排索引,未來將有機會探討。注意,關(guān)于URL信息庫中的指標不僅是關(guān)鍵詞和頁面的內(nèi)容構(gòu)成特征(位置,格式),和鏈接,更新信息。在英語單詞就是index。
收錄是SEO最關(guān)心的最常用的詞,事實上,是4個最模糊的概念。被包含的意思是我們可以找到的網(wǎng)頁是搜索引擎的索引庫。但是,稍后我們將看到,在索引庫的URL不能抓,這和SEO有直覺可能是不一樣的。
當然,準確把握概念對理解和處理許多SEO問題都有幫助。這里有幾個例子。
收錄不了的原因是什么?網(wǎng)頁不收錄是SEO最頭痛的問題,不收錄就沒有排名和流量。太多的人問問網(wǎng)頁將不收錄在博客論壇,什么原因,也給域名,但問題是沒有答案的,甚至愿意花時間去診斷不能回答(除非你列出所有可能的原因,等于沒回答),因為缺了一關(guān)鍵:頁面抓取了嗎?只檢查原始日志知道,看到網(wǎng)站是看不出來的,檢查流是查不出來的。理解前面的概念就知道了,被抓取不一定被包收錄,不收錄,并不一定意味著是不抓取。
如果頁面上卻沒有索引和收錄,往往是內(nèi)容有問題(原創(chuàng)?采集?所謂的偽原創(chuàng)?敏感的內(nèi)容或產(chǎn)品?復(fù)制的方向內(nèi)容找到原因?)。網(wǎng)站的結(jié)構(gòu)應(yīng)該沒有太大問題,搜索引擎是在看到了不適合包含的內(nèi)容。如果頁面沒有被抓取,它應(yīng)該去的網(wǎng)站的鏈接結(jié)構(gòu),搜索引擎友好的技術(shù)壁壘,域名權(quán)重等去找。
晉城龍鼎網(wǎng)絡(luò)為您解答。