- 1、本文档共21页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
利用语意分析模型分析谷歌部落格搜寻引擎效能-崇越论文大赏
TOPCO 崇越論文大賞
論文題目 :
利用語意分析模型分析谷歌部落格搜尋
引擎效能
報名編號 : I0018
利用語意分析模型分析谷歌部落格搜尋引擎效能利用語意分析模型分析谷歌部落格搜尋引擎效能
利用語意分析模型分析谷歌部落格搜尋引擎效能利用語意分析模型分析谷歌部落格搜尋引擎效能
摘要摘要
摘要摘要
部落格搜尋引擎是ㄧ種類似於谷歌的搜尋引擎,因為它們會自動收集來自網
路上大量的資訊,並利用免費的介面讓一般人能搜索它們的資料庫。兩者之間的
差異在於,部落格搜尋引擎主要是針對部落格進行索引並篩選掉一般的網頁,這
個功能讓部落格搜尋引擎增加了一些特殊和獨特性。首先,每個部落格都有一個
發佈日期,而部落格搜尋引擎可以顯示文章的發佈日期,相比一般搜尋引擎只能
顯示最後更新日期,有時這些日期卻是不可靠的。其次,部落格搜尋引擎能抓取
部落格文章發佈日期,相較於一般的搜尋引擎雖然有進階的搜索選項可以顯示日
期,但這些都僅限於網頁的最後修改日期。
本論文中,我們使用四種語意模型分析谷歌部落格引尋引擎:潛在語意分析
(LSA) 、機率潛在語意分析(PLSA) 、潛在狄利克里分配(LDA) 、關係主題模型
(RTM) 。另外,我們提出一個利用時間參數來改良RTM的變形模型。根據實驗的
結果,改良的 RTM模型結合時間參數能提高谷歌部落格引擎效能。
關鍵字:論潛在語意分析、機率潛在語意模型、潛在狄利克里分配、關係主關鍵字
關鍵字關鍵字
題模型、谷歌部落格搜尋
1
利用語意分析模型分析谷歌部落格搜尋引擎效能
壹、壹 、緒論緒論
壹壹 、、緒論緒論
根據創市際發佈的分析數據創世際( 2014) ,2014 年 10月台灣有 1,353萬位使
用者透過桌上型電腦與筆電上網,總共花費 266億 1000萬分鐘在使用網路上,並
且一共瀏覽 452億 700萬個網頁,平均每位使用者上網時間約為 1,966 分鐘、瀏覽
3,340個網頁。所以許多廠商以新聞的方式把部落格當作廣告增加能見度,而民眾
則利用部落格來記錄自己的生活,並通過寫作表達自己的心情 (Nardi et al. 2004) 。
線上部落格文件係由部落客 (Blogger)藉由部落格服務所發表的文章,這些發表的
文章可能具有相近的主題、或由同一人或同一群人所撰寫。傳統的部落格文件內
容通常充斥著超連結,但現今的部落格文章以描述生活記事、個人評論為主;亦
即部落格文件與傳統網頁文件最主要的差異在於呈現的方式為自由格式 (Free
format)(Jeong Oh 2012) 。
隨著科技進步,部落客們越來越常利用智慧型手機上網發表新的文章,根據
痞客邦統計每天產出的文章數高達 35萬篇,累計至今超過 3億篇的文章和 4億多
的照片 ( 余至浩 2014) 。所以透過部落格搜尋引擎找出想要的文章就顯得相當重
要,目前幾個知名的部落格搜尋引擎,例如 Google Blog Search 、Bloglines 和
Technorati 等,其中Google Blog Search是目前最流行的部落格搜尋引擎。
部落格搜尋引擎主要索引的文件為部落格文件,由於部落格文件型態與一般網頁
文件性質存在一定的差異,其主要原因在於部落格文件是由網路使用者所自行輸
入,難免會有許多隱含的資訊無法被搜尋引擎
文档评论(0)