當前位置:萬佳範文網 >

工作報告 >調查報告 >

搜索引擎調查報告探測大眾心中的祕密隱私大綱

搜索引擎調查報告探測大眾心中的祕密隱私大綱

二月初,珍妮·傑克遜(janetjackson)因為走光事件上升為yahoo搜索的人氣冠軍,其搜索請求達到總數的20%,創下了yahoo搜索關鍵詞的歷史最高記錄。這一數字是豔星parishilton曾經所創記錄的60倍,是歌星小甜甜布萊妮的80倍。

搜索引擎調查報告探測大眾心中的祕密隱私大綱

互聯網上的搜索引擎已經成為反映大眾趣味和關注焦點的最好工具,

也許比任何其他調查統計都更為真實。

高頻詞與社會熱點

縱觀歷史,熱門詞彙反映了短期內大眾關注的焦點,長期來看可以連綴出世事的發展脈絡。美國康奈爾大學的研究人員jonkleinberg曾經做過一項調查,通過統計1790年後每年的美國國情諮文的用詞,發現了不同歷史時期的熱門詞彙。例如美國獨立戰爭期間出現頻率最高的是“民兵”和“英軍”;而在1947年到1959年這段時間內,“原子彈”則被反覆地提起。

如今,搜索引擎聲稱自己知道大眾心中的祕密。搜索引擎不只是被動地答疑解惑;事實上,各大搜索引擎提供了包羅萬象的統計數據,這些結果也許十分有趣。keinberg認為:雖然計算機並不懂歷史,但是可以通過統計blog(網頁訪問記錄)、e-mail和網頁中的文本“學習”到相關的背景知識,從而更好地理解搜索請求的含義。此外,這些統計數據還可以幫助社會學者和營銷人員發現某些正在顯露出的大眾趨勢,為他們的研究或者經營提供參考信息。

在國內,搜索引擎甚至藉助這種反映大眾趨向的能力,向更廣的商業領域主動出擊。XX年2月12日,百度搜索和光線傳媒共同發佈了“XX年全球華人明星人氣榜”。熱門詞彙周杰倫、《無間道》、《天龍八部》、代言人、緋聞和黑幕等榜上有名。在此之前的1月8日,百度搜索還與胡潤聯手發佈了“XX中國大陸百富人氣榜”。

但是,搜索引擎有時也會不知所措。比如嘗試使用google搜索哈姆雷特的名言“tobeornottobe”,會發現google竟然答非所問,羅列在頁面上的是gnu’snotunix官方網站、hotornot交友網站……就是不見莎士比亞的影子。這個經典的例子引出了搜索技術的一個術語—停止詞(stopword)。

顧名思義,計算機的一切能力都是以計算為基礎,即使閲讀也不例外。搜索引擎瀏覽分佈在各個角落的網頁的同時,還在後台不停地統計詞語的出現頻率。有一些詞語出現率極高,帶來巨大的統計成本,卻不包含太多的具體意義,比如漢語的“的、是、了”和英文單詞“the、and”之流。如果要得出包含該詞的全部結果,實在是過多了。例如遇到哈姆雷特名言中的那些高頻詞彙,經常導致搜索“引擎”突然熄火,因此這些單詞得名“停止詞”。在google“閲讀”哈姆雷特的名言時,遇到了四個停止詞,出於無奈,所以它只好對頻率最低的“not”進行搜索,得到了一些有關“not”的流行網站。

如果將此名言括上引號,google便會突然開竅,順利地尋找到相關的網站。這一功能被稱作短語搜索(phrasesearch)。不過,比google更智能的是alltheweb,它已將這句名言列入搜索目錄,在結果頁面中直接提供了相關鏈接。

搜索如何實現

“已向英特網搜索geraldsalton。共有5,430項查詢結果,這是第1~10項。搜索用時0.06秒。”0.06秒,體現着以google為代表的搜索引擎的快捷和高效。這一切,又是如何實現的呢?

通常情況下,一間機房只能擺放10台服務器,但是google的機房內可以容納80台服務器,因為它們都是拆掉了機殼和部分零件的裸機。larrypage和sergeybrin他們將機器的外殼拆掉,再卸下沒用的芯片和零件使整機體積縮小,而且容易維護,當然也節省了租用機房的花銷。google使用了超過一萬台的服務器,並將其分散到五個不同地區的機房內,用以應付浩如煙海的網絡信息。

為了對每一次搜索請求做出快速的反應,搜索引擎在前期下足了功夫。它們在後台不停地重複三步操作。第一步,搜索引擎會不斷的利用爬蟲(crawler)程序蒐集互聯網上所有可達的網頁,無論是公開的還是隱藏的—只要曾被訪問過,就會招致“爬蟲”上身。這樣,定期外出的“爬蟲”就為搜索引擎囤積起一個海量數據庫。由於“爬蟲”外出遵循一定的週期,有時可能跟不上網頁更新的速度,所以google的“網頁快照”會出現與目標頁面不盡相同的情況。第二步,另一個程序會統計出緩存網頁(cachedpage)中各個字詞出現的頻率。第三步,根據詞頻概括出頁面的中心思想和段落大意,再按照不同的關鍵詞提煉出索引目錄。用户的每一次搜索請求都是基於這些索引計算而得,因此響應異常迅速。

無論google的pagerank專利技術,還是百度全球獨有的“超鏈分析”技術,其大致想法都差不多:統計每個網頁被其它網頁鏈接指向的情況,次數越多則級別越高,排名也就越靠前。有的搜索引擎專家指出,搜索算法上usedrank比pagerank更為準確。usedrank指的是根據用户點擊搜索結果而再次做出的統計。有的頁面可能通過開始的計算被排在結果的第八頁,但是通過查看每條鏈接的屬性,引擎可以將用户點擊多而且瀏覽成功的頁面提到前面來。alltheweb、yahoo和百度等搜索引擎都老老實實地統計了每一次點擊,而google則非常直接,不做任何再次統計。

很多服務網站認同這樣一個觀點,用户是懶惰的。根據點擊情況做出的統計,很多用户一般只看完搜索結果的第一頁,並不瀏覽後續頁面。因此一些網站把更多的搜索結果顯示在第一頁上,比如yahoo,它的“第一頁”有20項。而新浪則把“和盤托出”的服務形式發展到了登峯造極,在情人節當天搜索“鮮花”,一下子就跳出了78個網站鏈接。但是google、alltheweb和百度等搜索引擎依然堅持簡潔的作風,每頁只顯示10條搜索結果。

除了搜索算法的不同,各家搜索引擎也在細化服務,推出了日趨豐富的搜索功能,比如大家鍾愛的google圖像搜索。其實,alltheweb的圖像功能也十分優秀,它還同時支持音頻、視頻以及下載站點的搜索。

整合搜索引擎

那麼,用户是否不得不逐一訪問每個搜索引擎以得到最好的搜索結果呢?也許不必。搜索整合技術可以一次性地提供儘可能多的信息。

搜索整合(metasearch)如果譯作“後搜索”,可能聽起來更時髦一些,不過這就無法體現其重新梳理搜索結果這一標誌性的功能。通常的搜索是從龐雜的網絡資源中按照某個線索分門別類的提取信息,而metasearch則是在其他搜索引擎的發現結果之上進行再加工,可謂是搜索的搜索。

當用户向搜索整合引擎輸入關鍵詞之後,它即向若干個獨立工作的搜索引擎同時發送搜索請求,並從它們的網頁數據庫中檢索出所需的信息。搜索整合引擎沒有建立自己的網頁數據庫,它的一切數據都來自其他的搜索引擎;所以,整合的結果也不會比其他任何一家搜索引擎的結果更好。但是,它可以將用户從重複性勞動中解放出來,同時提供更有條理的搜索結果—這也是metasearch研發之初的理想。

目前搜索整合引擎大致以兩種方式進行工作。比較流行的做法是將搜索結果分析整合,刪除重複的條目,進而針對主題實現聚類操作。這類網站中的佼佼者有vivisimo、metacrawler和dogpile等。另一類搜索整合網站面向治學嚴謹的研究者,如surfwax和copernicagent。它們提供關鍵詞的邏輯運算功能,在提供大量搜索結果的同時,協助用户挖掘信息,從而做出更深入的專題研究。第二類網站相當專業,一般需要繳費,在普通用户中並不流行。

關於搜索引擎的數據

●在互聯網的應用排名中,搜索僅次於e-mail而位居第二;

●人均每次輸入關鍵詞數量為1.3個;

●網頁上的高頻詞彙出現率約佔總字數的1/3,在實際搜索中幾乎不起作用;

●使用搜索引擎高級功能的用户低於0.5%,其中一部分是圖書館管理員。他們向讀者提供其無法搜索到的信息,利用的工具還是搜索引擎,不過是高級功能;

●XX年,百度被7800萬中國網民使用了110億次,其中有近7億次搜索與華人明星有關。

  • 文章版權屬於文章作者所有,轉載請註明 https://wjfww.com/baogao/diaocha/8nvdp6.html
專題