Search Engine, Information Agent, and Web Crawler .docVIP

下载本文档

1
0
约 15页
2016-10-13 发布于重庆
举报
版权申诉

Search Engine, Information Agent, and Web Crawler .doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Search Engine, Information Agent, and Web Crawler

國立臺灣大學電腦網路導論學期專題 Search Engine, Information Agent, and Web Crawler 資訊工程學系二黃振修 ABSTRACT 隨著網際網路(Internet)的快速發展，各種資訊爆炸性的呈現在我們面前，如何能在最短的時間內找到我們所需要的資料已經成為資訊網路社會上的一項重要指標，而搜尋引擎(search engine)便是此種需要下的產物。本專題先簡單介紹搜尋引擎的原理，以及各種搜尋引擎的差異性並列舉幾個現今網路上常見的搜尋引擎，並實作出一個全文檢索式搜尋引擎。在發展搜尋引擎的過程中，一種叫做web crawler的程式扮演了非常重要的角色，我把這個程式取了個名字叫做dorphin。 dorphin 搜尋引擎的執行畫面 dorphin最主要的任務就是在廣大的網際網路上漫遊，將所收集到的資料經過索引之後傳回伺服器主機上。如果沒有限制的話，dorphin通常會在不到一個小時的時間內爬過半個地球，而這樣的程式通常也叫作網際網路流浪漢，或者是網際網路蠕蟲，而這種 web crawler 程式也就是一個搜尋引擎後端很重要的一部份。我覺得dorphin十分的有趣，並且由其中發現這種程式的另外一種潛在的應用，在資訊爆炸的今天，所謂的『資訊代理人(Information Agent)』比起搜尋引擎更進一步貼近使用者的需要，提供一種使用者自主性的資訊擷取方式，相信在不久的將來，自然語言處理(Natural Language Processing) 的研究有更長足的進步之後，那時的資訊代理人將更聰明，更人性化，並且帶來網際網路的新思維。 INTRODUCTION 在本專題中我先從搜尋引擎作為切入點，介紹一個搜尋引擎的三個主要的部分：後端資料收集，隨後將資料分析建立索引之後存入資料庫中，最後是撰寫前端的 CGI (Common Gateway Interface) 查詢程式，即完成一個簡易的搜尋引擎。搜尋引擎架構示意圖(取自 openfind 網站) 擔任後端資料收集工作的即是我們的 dorphin，在專題中會說明他的工作原理，以及解釋其採用的程式語言以及發展平台。在中間部分的資料分析索引部分因為牽涉到許多自然語言處理的領域，還包括中文雙位元文字的處理，這部分已屬於資料檢索(Data Mining)的領域，不在專題的討論範圍內，也不是我能力所及的範圍，所以只採用最簡單的方式處理。 SEARCH ENGINE 在我著手進行這項專題之前，為了避免不必要的浪費精力，而且搜尋引擎已經是發展已久的網路技術，於是我決定到網路上去尋找相關的資料。經過一番搜尋的結果，我發覺就一般而言我們並沒有對search engine這個字作很明確的定義，以至於像是對伺服器本地端的檔案系統所做的搜尋也可以稱為搜尋引擎，也就是說我們平常在Windows的開始資料夾點選的尋找也可以算是一個搜尋引擎，只不過這個引擎的馬力小了些。以下是我在參考過一些網路資料之後對搜尋引擎所做的分類及解說：本地端檔案系統搜尋像這樣的搜尋系統正式一點的名稱應該是indexing and query system，也就是說他是針對檔案系統進行索引之後，以另一種結構化的組織方式將資料的索引儲存下來(或是丟到資料庫中)。另有一個查詢程式找出關鍵字對應的索引，再連結到資料的實際位置，著名的軟體有 Glimpse (/) 遠端web資料搜尋這類行搜尋引擎所搜尋的資料由本地端移至眾多遠方的伺服器端，利用web crawler對遠方的伺服器主機進行資料收集，搜尋引擎所在的伺服器可視為一個各方資訊的集中站，儲存上千萬的資料等待使用者搜尋。分類目錄式登錄搜尋將由web crawler蒐集回來的資料建立關鍵字索引，由一組團隊進行分類工作，同時也提供一般網站登錄他們的資料。這類型的搜尋引擎通常都會發展成為入口網站 (portal site)，著名的像是 Yahoo ()、kimo (.tw)。全文檢索式廣泛搜尋這類的搜尋引擎就是針對抓回來的資料作全文檢索，並不將收集到的資訊作目錄式的分類，所以每次使用者查詢任一關鍵字符合的項目幾乎高達幾十萬筆。不過該搜尋引擎會對資料進行符合程度的計算，會把符合程度越高的排在越前面，對於未知資料的搜尋威力十足，最著名的有 AllTheWeb ()。 WEB CRAWLER 原理簡介 Web crawler 的工作原理非常簡單，就像一般使用者上網路一樣，例如我們連到臺灣大學的首頁，我們第一步會先看看首頁上面有什麼內容，找找看有沒有我們要的東西（文字或是圖片、影像），如果沒有的話就再看看旁邊的連結，找到相關的連結點選滑鼠連進去觀看，就這樣反覆的直到找到我們