• <dd id="98y3c"><pre id="98y3c"></pre></dd>
    <em id="98y3c"></em>

    <em id="98y3c"></em>

    發新帖

    優化思路:搜索引擎算法之復制網頁

    1599 5
    引擎斷定復制網頁一般都基于這么一個思惟:


    為每個網頁計算出一組信息指紋(Fingerprint),若兩個網頁有必定命量雷同的信息指紋,則認為這兩個網頁的內容重疊性很高,也就是說兩個網頁是內容復制的。


    很多引擎斷定內容復制的辦法都不太一樣,主如果以下兩點的不合:


    1、枷⒚鹋息指紋(Fingerprint)的算法;


    4、MD5(Con(Ti))=MD5(Con(Tj))并且Wi-Wj的平方除以Wi和Wj的平方之和小于某個闕值a,則認為兩者是復制網頁。
    2、斷定信息指紋的類似程度的參數。


    在描述具體的算法前,先說清跋扈兩點:


    1、什么是信息指紋?


    以上肯定無法覆蓋一個大年夜型引擎復制網頁的所有方面,他們必定還有一些幫助的信息指紋斷定,本文作為一個思路,給做引擎優化的一個思路。


    信息指紋就是把網頁瑯綾擎正文信息,提取必定的信息,可所以關鍵字、詞、句子或者段落及其在網頁瑯綾擎的權重等,對它進行加密,如MD5加密,大年夜而形成的一個字符串。信息指紋如同人的指紋,只要內容不雷同,信息指紋就不一樣。


    2、算法提取的信息不是針半數張網頁


    3、MD5(Sort(Ti))=MD5(Sort(Tj)),兩個網頁前n個關鍵詞一樣,權重可以不一樣,也認為是復制網頁。


    而是把網站瑯綾擎合營的部分如導航條、logo、版權等信息(這些稱之為網頁的&ldquo;噪音&rdquo;)過濾掉落后剩下的文本。


    分段簽名算法


    這種算法是按照必定的規矩把網頁切成N段,對每一段進行簽名,形成每一段的信息指紋。如不雅這N個信息指紋瑯綾擎有M個雷同時(m是體系定義的闕值),則認為兩者是復制網頁。


    這種算法對于小范圍的斷定復制網頁是很好的一種算法,然則對于像google如許海量的引擎來說,算法的復雜度相當高。


    基于關鍵詞典復制網頁算法


    像google這類引擎,他在抓取網頁的時刻都邑記下以下網頁信息:


    1、網頁中出現的關鍵詞(中文分詞技巧)以及每個關鍵詞典權重(關鍵詞密度)。


    2、提取meta descrīption或者每個網頁的512個字節的有效文字。


    關于第2點,baidu和google有所不合,google是提取你的meta descrīption,如不雅沒有萌芽關鍵字相干的512個字節,而百度是直接提取后者。這一點大年夜家應用過的都有所領會。


    在以下算法描述中,我們商定幾個信息指紋變量:


    Pi表示第i個網頁;


    該網頁權重最高的N個關鍵詞構成集合Ti={t1,t2,...tn},其對應的權重為Wi={w1,w2,...wi}


    摘要信息用Des(Pi)表示,前n個關鍵詞拼成的字符串用Con(Ti)表示,對這n個關鍵詞排序后形成的字符串用Sort(Ti)表示。


    以上信息指紋都用MD5函數進行加密。


    基于關鍵詞典復制網頁算法有以下5種:


    1、MD5(Des(Pi))=MD5(Des(Pj)),就是嗣魅摘要信息完全一樣,i和j兩個網頁就認為是復制網頁。


    2、MD5(Con(Ti))=MD5(Con(Tj)),兩個網頁前n個關鍵詞及其權重的排序一樣,就認為是復制網頁。


    5、MD5(Sort(Ti))=MD5(Sort(Tj))并且Wi-Wj的平方除以Wi和Wj的平方之和小于某個闕值a,則認為兩者是復制網頁。


    關于第4和第5的那個闕值a,主如果因為前一個斷定前提下,照樣話芐很多網頁被誤傷,引擎開辟根據權重的分布比例進行調節,防止誤傷。


    這個是北大年夜天網引擎的去重算法(可以參考:《引擎--道理、技巧與體系》一書),以上5種算法運行的時刻,算法的效不雅取決于N,就是關鍵詞數量標拔取。當然啦,選的數量越多,斷定就會越精確,然則誰知而來的計算速度也會減慢下來。所以必須推敲一個計算速度和去重精確率的均衡。據天網實驗結不雅,10個閣下關鍵詞最恰當。


    跋文


    請作者接洽本站,及時附注您的姓名。接洽郵箱:edu#chinaz.com(把#改為@)。

    精彩評論5

    排名第二
    6i0g1   學習于  2016-7-1 19:22:03
    好帖就是要頂
    排名第三
    jn7   學習于  2016-7-1 19:11:20
    真心頂樓主可否給我的網站做優化
    排名第四
    6i0g1   學習于  2016-7-1 19:50:41
    難得一見的好帖教會我如何優化網站
    排名第五
    qsgpd   學習于  2016-7-1 19:43:13
    怎么優化網站說的非常好
    排名第六
    68ue   學習于  2016-7-1 19:17:50
    LZ真是SEO的人才
    99久久免费热在线精品,久久爱,偷拍久久国产视频,久久成人视频,