基于Web之商家景点撷取与资料库建置Pointsof-ACLAnthology.PDFVIP

  • 0
  • 0
  • 约3.19万字
  • 约 16页
  • 2018-03-14 发布于天津
  • 举报

基于Web之商家景点撷取与资料库建置Pointsof-ACLAnthology.PDF

基于Web之商家景点撷取与资料库建置Pointsof-ACLAnthology

The 2015 Conference on Computational Linguistics and Speech Processing ROCLING 2015, pp. 180-195  The Association for Computational Linguistics and Chinese Language Processing 基於Web 之商家景點擷取與資料庫建置 Points of Interest Extraction from Unstructured Web 高霆耀 Ting-Yao Kao 國立中央大學資訊工程學系 Department of Computer Science and Information Engineering National Central University kao800208@ 莊秀敏 Hsiu-Min Chuang 國立中央大學資訊工程學系 Department of Computer Science and Information Engineering National Central University showmin1205@ 張嘉惠 Chia-Hui Chang 國立中央大學資訊工程學系 Department of Computer Science and Information Engineering National Central University chia@.tw 摘要 隨著行動裝置的普及,區域搜尋成為了一項新興的熱門服務。然而區域搜尋要能提供完 整的服務,必須要讓使用者能夠準確地搜尋到附近的興趣點(Point of Interest, POI) ,如 餐廳、旅館、巴士站、卡拉OK 、圖書館、藥局等包含食衣住行育樂的地點。為此我們 要建構一個完整的 POI 資料庫供使用者查詢 。另外由於網際網路的盛行,越來越多的 使用者會在他們的部落格或是社交網路上分享旅遊經驗或是 POI 的資料,同時也有更 多的商家或組織建立官方網頁,並且在網頁上詳細的介紹他們的資料。隨著這類型網頁 的數量累積,整個網際網路成為了最大的POI 資訊來源。 在本篇論文中我們提出一個基於Web 資訊的POI 建置系統,系統可以分為兩大部分, 第一部分為包含地址網頁(Address-bearing Page, ABP)的爬取,目的在透過網頁中的地址 找尋可能的POI 以及可用來做為檢索的POI 相關描述訊息。第二部分為POI 擷取系統 , 透過條件隨機域(Conditional Random Field, CRF)作為學習演算法產生的中文組織名稱 辨識模型及中文地址辨識模型,找出網頁中所有出現的地址和組織名稱,接著再將地址 與組織名稱配對成POI 資料,最後再為每一個POI 擷取其相關資訊。 Abstract With the increased popularity of mobile devices, local search has become a new popular service. Therefore, we need a power

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档