- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web ページからの人物に関する位置情報の抽出
高守 雄也† 上田 洋‡ 村上 晴美§
†§ ‡
大阪市立大学大学院創造都市研究科 大阪市立大学大学院工学研究科
1. はじめに 本研究では, 該当人物に最適な位置情報ラベルと
近年のblog やSNS の普及によりWeb 上で情報発 位置座標を付与するために, Web ページに含まれる
信する人々が飛躍的に増加している. それに従い, 住所やランドマークを抽出して, Yahoo!ローカルサ
Web 上に登場する同姓同名人物の数も多くなってき ーチ API(以下, Yahoo!ローカルサーチ)を用いる.
ている. Web 上の人名検索において同姓同名人物を 主要なアイディアは, ランドマークへの着目, 語間
識別する問題は重要となってきている. このような 距離と検索順位の利用である.
背景から, Web 上の同姓同名人物の識別に関する研 提案手法は, (1) 住所・ランドマーク候補リスト
究が盛んに行われている. それらの多くは, [1]の の作成, (2) 位置情報の取得, に大別される. 図 1
ように人名検索結果である Web ページを人物毎に に提案手法の概要を示す.
クラスタリングする研究である. しかし,ただクラ 2.1 住所・ランドマーク候補リストの作成
スタに分類するだけでは各クラスタが誰であるのか 2.1.1 住所・ランドマーク候補の抽出
認識するためには, 人物毎に分類された Web ペー 氏名による検索結果の上位10件のWebページを対
ジずつ閲覧しなければならず, ユーザにとって負荷 象として Mecab により形態素解析を行い, 以下の処
が高い. ユーザが求める人物を簡単に選択するため 理にて抽出する.
には, ただ Web ページを分離するだけではなく, 同 (1) 住所候補抽出
姓同名人物を識別するための簡単なインタフェース (a), (b), (c)の条件が 2回以上連続している場合
が必要である. に接続して抽出する.
本研究では, 氏名による Web 検索の結果, 同姓 (a) 品詞名に地域, 括弧開, 括弧閉, 形容動詞語幹
同名人物毎に分けられた Web ページ群に対して該当 を含む
人物を表すオブジェクトを地図上に表示することを (b) 候補語自体が日本語であり「地域」ではない
目的とする. そのために, 該当人物に適切な位置情 (c) 品詞名に地域が無い場合, 候補語が「高専」「大
報(本研究では位置情報ラベルと位置座標の組とす 学校」 「通り」「大字」「小字」「東」「西」「南」「北」
る)を一つ付与することを目的とする. 「-」であるか, 品詞名に接尾または数がある
本稿の構成は以下のとおりである. 2 節で提案手 (2) ランドマーク候補抽出
法について述べる. 3 節では提案した手法の評価実 (a), (b), (c)の条件がすべて満たされている場
験について述べる. 4節では関連研究と比較する. 合に抽出する.
2. 提案手法 (a) 品詞名に組織が含まれている
(b) 品詞名に地域, 人名が 含まれていない
文档评论(0)