超鏈分析
搜索引擎通過(guò)對網(wǎng)頁(yè)鏈接的分析,得出網(wǎng)頁(yè)相關(guān)度的計算。就像賣(mài)東西一樣,所有賣(mài)東西的都會(huì )夸自己的東西好,網(wǎng)頁(yè)也是一樣,如果只通過(guò)網(wǎng)頁(yè)自身表現的情況來(lái)判斷網(wǎng)頁(yè)排名,肯定不能十分準確。
因此搜索引擎希望通過(guò)網(wǎng)頁(yè)以外的標準來(lái)衡量網(wǎng)頁(yè),而網(wǎng)頁(yè)以外的標準中,最利于搜索引擎掌握的就是超鏈接,每個(gè)網(wǎng)頁(yè)的外部超鏈接數量質(zhì)量以及網(wǎng)頁(yè)導出鏈接情況都反應網(wǎng)頁(yè)的質(zhì)量和關(guān)鍵詞的相關(guān)度。
這樣的鏈接分析技術(shù)在所有的搜索引擎中都存在,其中最為知名的超鏈分析就是谷歌的PR技術(shù),國內的百度李彥宏提出的超鏈分析技術(shù),其他搜索引擎也都有自己的超鏈分析技術(shù),只是在具體側重方向有些許差別。
具體的超鏈分析技術(shù)是十分復雜的,但是最主要的原則有導入鏈接數量、導入鏈接網(wǎng)頁(yè)質(zhì)量、導入鏈接錨文本等。例如,網(wǎng)頁(yè)A有導人鏈接40個(gè),其中以“SEO”為錨文本的鏈接30個(gè);而網(wǎng)頁(yè)B有導入鏈接30個(gè),以“SEO”為錨文本的鏈接20個(gè),一般情況下,網(wǎng)頁(yè)A在關(guān)鍵詞“SEO”的排名結果中更理想。
由于超鏈分析的計算量非常龐大、計算時(shí)間很長(cháng),因此在建立倒排索引時(shí),超鏈分析已經(jīng)完成,并對索引結果的排名產(chǎn)生影響,這樣也可以提高搜索引擎返回結果的速度。
數據整合搜索引擎經(jīng)過(guò)處理網(wǎng)頁(yè)文件將各種格式的文件數據進(jìn)行整理,然后進(jìn)行分類(lèi)存儲。由于網(wǎng)絡(luò )文件的類(lèi)型有很多種、如html、PPT、Word、Txt、Jpg、Bmp、Swf、Mp3等格式,其中文字格式的網(wǎng)頁(yè)文件能很好地被搜索引整識別處理。但其他富媒體格式的文件,如視頻、音樂(lè )、圖片等往往只能通過(guò)其說(shuō)明性文字進(jìn)行處理,然后整合各種類(lèi)型的數據,存于搜索引擎的數據庫中。
不同的數據格式被分別存儲,但是在建立索引以及排序時(shí),往往又會(huì )聯(lián)系到與數據相關(guān)的內容,以判斷其相關(guān)性與重要性,然后形成最終的一個(gè)有利于搜索排名的數據庫。
|