- 0
- 0
- 约1.1万字
- 约 19页
- 2018-02-24 发布于河南
- 举报
部落格本文自动萃取机制
部落格本文自動萃取機制
摘要
在部落格快速發展的時代,部落格上的資訊越來越多且具有參考價值,部落格文字內容探勘已成為網頁探勘研究的重要分支。要能自動化讀取部落格的文字內容,必須快速且正確的找出描述本文的網頁標籤。本研究使用網頁標籤文字相對比例法,找出最有可能的本文標籤,此技術運用文件物件模型(DOM; Document Object Model)的概念並透過java爬行器。經過實驗說明,本研究所提供的部落格本文自動萃取機制,能正確且快速的萃取本文。
關鍵詞:部落格文章、資訊擷取、文字探勘、文件物件模型
An Automatic Blog Text Extraction Mechanism
Abstract
In the era of blog, more and more useful information is shared on blogs. Mining text on blogs has become one of important and novel research directions in the filed of web mining . For an automatic blog text mining system, it is necessary to locate the tags which describe the main concepts of blog text effectively and efficiently. This research uses the technique of relative proportion of text and tag in order to find the most possible tag for main blog text. More particularly, we use the concept of DOM (Document Object Model) through the java crawler to analyze the relationship between text and tag. According to our experiments, our automatic blog text extraction mechanism is able to extract the main text of blog effectively and efficiently.
Keywords: Blog Text, Information Extraction, Text Mining, Document Object Model
壹、緒論
隨著大量的資訊能夠在網路上被查閱,網際網路已經成為最流行以及最重要的資訊獲取方式(Geng et al., 2007),也因為大量的資訊,當人們在這麼多資訊中尋找所需的資料時,會出現許多干擾與混亂。在這個以知識為訴求的資訊時代,期望能在最少的時間內有效的取得所需的資訊,而用來減少搜尋時間的一個有效工具就是資訊的擷取與過濾(吳志宏, 2003)。
近年來,部落格的風行,人們喜歡在部落格中分享自己的生活經驗,無論是學習經驗、旅遊經歷等,都在部落格中無私的分享,因此消費者最真實的一面往往都會完整的記錄在部落格中(黃高彬, 2008)。除了個人的經驗分享外,在企業上也利用部落格來帶動企業內部虛擬社群的凝聚力,以及推動部落格來進行企業知識分享(侯嘉昌, 2009),對於企業在進行競爭對手以及產業環境的部落格中蒐集相關資料,使得企業能夠判斷企業處境及未來的趨勢變化,這些資訊都可能出現在部落格的本文中。Web2.0觀念的興起,造就了部落格呈現一種豐富而複雜的社會現象,也因為如此部落格產生了許多社會科學領域所關心的資訊 (Kumar et al., 2004),如何自動化資訊擷取與過濾,必須從每個部落格中萃取正確的本文資訊,才得以分析。
根據統計資料顯示,2004年約有一千萬個以上的部落格(Henning, 2004),但部落格網頁中往往都會有許多雜訊,如部落格邊欄所刊登的廣告、對於部落格本文所給予的回覆等,這些雜訊都會影響到之後研究分析的正確性。藉此本研究發現,目前的部落格原始碼中都能套用許多網頁樣式,如串樣式列表(CSS; Cascading Style Sheets),在原始碼本文部分通常都會給與名稱獨一無二的HTML(Hyper Text Markup Language)標籤,得以讓網頁瀏覽器辨別本文位置,套用使用者所需要的特定樣式,若要利用人工的方式找出本文標籤,是需要耗費一定的時間,且研究人員也必須真正了解HTML標籤所代表的意義,才能執行這樣的動作。
因此本研究針對部落格本文的萃取
您可能关注的文档
- 农业遗传资源之流通与利益.doc
- 醌类化合物(120题).doc
- 21我们的财富--准主顾卡.ppt
- MLB PLAY BALL!2011年全国青少年棒球发展计划联赛(广州赛区)成绩册.doc
- 2-肺癌的诊断和治疗.ppt
- 乳制品 商标.doc
- 信息处理课程设计报告.doc
- 塔筒安装图.doc
- 客户培训-农行期货部分.ppt
- 微机原理加法器课程设计1.doc
- 2026广东深圳市儿童医院杰青团队诚聘博士后备考题库及答案详解(易错题).docx
- 2026广东深圳市儿童医院杰青团队诚聘博士后备考题库有完整答案详解.docx
- 人事行政部行政内勤入职培训.pptx
- 2026广东深圳市儿童医院杰青团队诚聘博士后备考题库及答案详解参考.docx
- 2026广东深圳市儿童医院杰青团队诚聘博士后备考题库及答案详解(考点梳理).docx
- 2026广东深圳市儿童医院杰青团队诚聘博士后备考题库及完整答案详解一套.docx
- 2026广东深圳市儿童医院杰青团队诚聘博士后备考题库及答案详解一套.docx
- 《虚拟商业社会环境》_项目一 2).pptx
- 2026广东深圳市公安局招聘750人备考题库完整答案详解.docx
- 2026广东深圳市公安局招聘750人备考题库及答案详解(夺冠系列).docx
原创力文档

文档评论(0)