• <dd id="98y3c"><pre id="98y3c"></pre></dd>
    <em id="98y3c"></em>

    <em id="98y3c"></em>

    發新帖

    Google搜索引擎原理

    2350 5
    1.2 Google:


                                                                   

    這篇文┞仿中,我們介紹了google,它是一個大年夜型的引擎(of a large-scale search engine)的原型,引擎在超文本中應用廣泛。Google的設計可以或許高效地抓網頁并建立索引,它的萌芽結不雅比其它現有體系都高超。這個原型的全文和超連接的數據庫至少包含24&prime;000&prime;000個網頁。我們可以大年夜http://google.stanford.edu/ 下載。


    設計引擎是一項富有挑釁性的工作。引擎為上億個網頁建立索引,個中包含大年夜量迥然不合的詞匯。并且天天要答復成千上萬個萌芽。在收集中,盡管大年夜型引擎異常重要,然則學術界卻很少研究它。此外因為技巧的快速成長和網頁的大年夜量增長,如今建立一個引擎和三年前完全不合。


    1.3.1進步質量我們的重要目標是進步Web引擎的質量。
    本文具體介紹了我們的大年夜型引擎,據我們所知,在公開揭橥的論文中,這是第一篇描述地如斯具體。除了把傳統數據技巧應用到如斯大年夜量級網頁中所碰到的問題,還有很多新的技巧挑釁,包含應用超文本中的附加信息改進結不雅。


    本文將解決這個問題,描述若何應用超文本中的附加信息,建立一個大年夜型實用體系。任何人都可以在網上隨便宣布信息,若何有效地處理這些無組織的超文本集合,也是本文要存眷的問題。


    關鍵詞 World Wide Web,引擎,信息檢索,PageRank, Google


    1 緒論


    Web給信息檢索帶來了新的挑釁。Web上的信息量快速增長,同時賡續有毫無經驗的新用戶來體驗Web這門藝術。人們愛好用超等鏈接來網上沖浪,平日都以象Yahoo如許重要的網頁或引擎開端。大年夜家認為List(目次)有效地包含了大年夜家感興趣的主題,然則它具有主不雅性,建立和保護的價值高,進級慢,不克不及包含所有深奧的主題;陉P鍵詞典主動引擎平日返回太多的低質量的匹配。使問題更遭的是,一些告白為了博得人們的存眷想方設法誤導主動引擎。我們建立了一個大年夜型引擎解決了現有體系中的很多問題。應用超文本構造,大年夜大年夜進步了萌芽質量。我們的體系定名為google,取名自googol的通俗拼法,即10的100次方,這和我們的目標建立一個大年夜型引擎不約而同。


    1.1收集引擎&mdash;進級換代(scaling up):


    1994年,第一個Web引擎,World Wide Web Worm(WWWW)可以檢索到110,000個網頁和Web的文件。
    1994-2000 引擎技巧不得不快速進級(scale dramatically)跟上成倍增長的web數量。
    到1994年11月,頂級的引擎聲稱可以檢索到2&lsquo;000&prime;000(WebCrawler)至100&lsquo;000&prime;000個收集文件(來自 Search Engine Watch)。
    可以預感到2000年,可檢索到的網頁將跨越1&lsquo;000&prime;000&lsquo;000。同時,引擎的拜訪量也會以驚人的速度增長。
    在1997年的三四月份,World Wide Web Worm 平均天天收到1500個萌芽。
    在1997年11月,Altavista 聲稱它天天要處理大年夜約20&prime;000&prime;000個萌芽。跟著收集用戶的增長.
    到2000年,主動引擎天天將處理上億個萌芽。我們體系的設計目標要解決很多問題,包含質量和可進級性,惹人進級引擎技巧(scaling search engine technology),把它進級到如斯大年夜量的數據上。


    跟上Web的辦法(Scaling with the Web)建立一個可以或許和當今web范圍相適應的引擎會見臨很多挑釁。抓網頁技巧必須足夠快,才能跟上彀頁變更的速度(keep them up to date)。存儲索引和文檔的空間必須足夠大年夜。索引體系必須可以或許有效地處理上千億的數據。處理萌芽必須快,達到每秒能處理成百上千個萌芽(hundreds to thousands per second.)。跟著Web的賡續增長,這些義務變得越來越艱苦。然而硬件的履行效力和成本也在快速增長,可以部分抵消這些艱苦。還有幾個值得留意的身分,如磁盤的尋道時光(disk seek time),操作體系的效力(operating system robustness)。在設計Google的過程中,我們既推敲了Web的增長速度,又推敲了技巧的更新。Google的設計可以或許很好的進級處理海量數據集。它可以或許有效地應用存儲空間來存儲索引。優化的數據構造可以或許快速有效地存。▍⒖4.2節)。進一步,我們欲望,相對于所抓取的文本文件和HTML網頁的數量而言,存儲和建立索引的價值盡可能的。▍⒖几戒汢)。對于象Google如許的集中式體系,采取這些辦法獲得了令人知足的體系可進級性(scaling properties)。


    1. 3設計目標


    1994年,有人認為建立全索引(a complete search index)可以使查找任何數據都變得輕易。根據Best of the Web 1994 &mdash; Navigators ,&ldquo;最好的導航辦事可以使在Web上任何信息都很輕易(當時所有的數據都可以被登錄)&rdquo;。然而1997年的Web就迥然不合。比來引擎的用戶已經證實索引的完全性不是評價質量的獨一標準。用戶感興趣的結不雅往往湮沒在&ldquo;垃圾結不雅Junk result&rdquo;中。實際上,到1997年11月為止,四大年夜貿易引擎中只有一個可以或許找到它本身(本身名字時返回的前十個結不雅中有它本身)。導致這一問題的重要原因是文檔的索引數量增長了好幾個數量級,然則用戶可以或許看的文檔數卻沒有增長。用戶仍然只欲望看前面幾十個結不雅。是以,當集合增大年夜時,我們就須要對象使結不雅精確(在返回的前幾十個結不雅中,有關文檔的數量)。因為是大年夜成千上萬個有點相干的文檔中選出幾十個,實際上,相干的概念就是指最好的文檔。高精確異常重要,甚至以響應(體系可以或許返回的有關文檔的總數)為價值。令人高興的是應用超文本鏈接供給的信罕見助于改進和其它應用。尤頗昵啻接構造和鏈接文本,為相干性的斷定和高質量的過濾供給了大年夜量的信息。Google既應用了鏈接構造又用到了anchor文本(見2.1和2.2 節)。


    1.3.2引擎的學術研究跟著時光的流逝,除了成長敏捷,Web越來越貿易化。


    1993年,只有1.5%的Web辦事是來自.com域名。到1997年,跨越了60%。同時,引擎大年夜學術范疇走進貿易。到如今大年夜多半引擎被公司所有,很少技公開術細節。這就導致引擎技巧很大年夜程度上仍然是暗箱操作,并偏向做告白(見附錄A)。Google的重要目標是推動學術范疇在此方面的成長,和對它的懂得。另一個設計目標是給大年夜家一個實用的體系。應用對我們來說異常重要,因為現代收集體系中存在大年夜量的有效數據(us because we think some of the most interesting research will involve leveraging the vast amount of usage data that is available from modern web systems)。例如,天天有幾切切個研究。然而,獲得這些數據卻異常艱苦,重要因為它們沒有貿易價值。我們最后的設計目標是建立一個別系構造可以或許支撐新的關于海量Web數據的研究。為了支撐新研究,Google以緊縮的情勢保存了實際所抓到的文檔。設計google的目標之一就是要建立一個情況使其他研究者可以或許很快進入這個范疇,處理海量Web數據,獲得知足的結不雅,而經由過程其它辦法卻很難獲得結不雅。體系在短時光內被建立起來,已經有幾篇論文用到了 Google建的數據庫,更多的在起步中。我們的另一個目標是建立一個宇宙空間實驗室似的情況,在這里研究者甚至學生都可以對我們的海量Web數據設計或做一些實驗。

    精彩評論5

    排名第二
    68ue   學習于  2016-7-9 07:34:14
    這篇seo文章很不錯
    排名第三
    SEO服務   學習于  2016-7-9 06:57:05
    好帖就是要頂
    排名第四
    c8sv   學習于  2016-7-9 07:35:36
    頂頂多好,多學點優化技巧
    排名第五
    SEO優化   學習于  2016-7-9 07:17:55
    真心頂樓主可否給我的網站做優化
    排名第六
    5800   學習于  2016-7-9 07:14:55
    不錯不錯這下會優化網站了
    99久久免费热在线精品,久久爱,偷拍久久国产视频,久久成人视频,