- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
李信贤2010胡姝涵-淡江大学
* 精確:程式擷取過多 召回:程式擷取太少 * * 實驗與評估(6/6) 精確率 中文日期:易與發文日期產生混淆 英文地點:同樣的地點出現在網頁中的兩個位置 召回率 中文日期:日期有變更會多選 英文地點:正確的地點描述較完整 * 結論(2/2) 數據比較[精確率/召回率](單位:%) 欄位\研究 史嘉淋(2008) 李信賢(2010) 胡姝涵(2006) 本研究 研討會名稱 86.9 ~ 90.9/ 80.0 ~ 90 無 83 / 74 中:93 / 91 英:88 / 93 研討會日期 83.3 ~ 89.0/ 80.0 ~ 83.0 無 83 / 81 中:86 / 85 英:90 / 90 截稿日期 無 無 88 / 86 中:94 / 94 英:82 / 83 研討會地點 87.2 ~ 90.9/ 80.0 ~ 85.0 無 81 / 81 中:93 / 89 英:78 / 77 研討會主題 88.0 ~ 91.7/ 81.0 ~ 89.0 93 / 84 無 中:89 / 90 英:81 / 80 研討會原網址 無 無 無 中:93 / 92 英:94 / 94 * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 利用搜索引擎協助查詢研討會訊息系統之實作 淡江大學資訊管理學系 魏世杰、陳康毅 * 報告大綱 動機與目的 文獻探討 問題定義 方法介紹 系統架構 系統實作 結論與未來發展 * 簡介 研究背景與動機 研討會資訊尚未有自動整合的機制 以人力查閱各個研討會網站 研究特色 利用Google搜尋引擎擴大資料來源 藉由人工規則分析純文字的前後關係萃取欄位 自動彙集研討會投稿資訊供排序列印 * 文獻探討(1/3) 研討會網頁資訊擷取 胡姝涵等人,2006 使用Sliding Windows分割文字片段 加入機器學習,判別適當特徵擷取名稱、開會日期、截稿日期、地點 史嘉淋,2008 使用VIPS視覺基礎網頁分割演算法(Cai 等人, 2003) 加入人工規則,擷取名稱、日期、地點與主題 李信賢,2010 使用VIPS視覺基礎網頁分割演算法(Cai 等人, 2003) 加入機器學習判別適當特徵,擷取主題區塊 * 文獻探討(2/3) 網頁文字探勘(B. Liu, 2007) 分析資料來源 依網頁架構、標籤結構進行分析 依頁面的文字內容進行分析 分析方法 機器學習 人工歸納 * 資料來源 方法 文字內容 網頁標籤 人工歸納 本研究 史嘉淋,2008 機器學習 胡姝涵等人 ,2006 李信賢,2010 文獻探討(3/3) HTMLUnit Java為基礎撰寫的套件 表單參數的設置與提交 頁面重新導向 正則表示式(Regular Expressions) 匹配一系列符合某個句法規則的字串 檢索或替換符合某個模式的文字 * 問題定義 輸入:搜尋引擎找回的研討會網頁 輸出:研討會的六個摘要資訊 研討會名稱 研討會日期 截稿日期 研討會地點 研討會主題資訊 研討會原網址 * 方法介紹(1/9) 分析流程 * 序號 正則表示式 類型 1 “.*[0-9]{2,4}.*(論文徵稿|會議|研討會|發表會).*” 短文字 2 “[^,。]{4,}(研討會|論文徵稿|徵稿通知|會議|論文發表會) (\\s*|。)?” 長文字 3 “.{4,}(研討會|研究討論會|論文發表會).*” 且 “.*(徵稿|[cC]all [Ff]or [Pp]aper[sS]?).*” 短文字 4 “[0-9]{2,4}.{6,}(研討會|論文徵稿|論文發表會).*” 且 非 “.*(.{1,8}(年|月|(日|號))){2,4}.*” 短文字 5 “.*call for paper.*” 且 “.*(conference|symposium|workshop).*” 短文字 6 “.*[0-9]{4}.*(conference|symposium|workshop).*” 短文字 7 “[^\\.]*(conference|symposium|workshop) on[^\\.]*” 長文字 方法介紹(2/9) 擷取研討會名稱 資訊檢索與使用者行為研討會 【徵稿啟事】2011 第六屆數位教學研討會 * NSS 5th International Conference on Network and System Security 方法介紹(3/9) 擷取研討會日期、截稿日期、地點與原網址 A.短文字片段擷取流程 會議、開會、研討會、舉行、舉辦、發表、活動 “([0-9元一二三四五六七八九十\\s]{1,6}(年|月|/)){1,2}({1,10}(日|號)|[
原创力文档


文档评论(0)