国会図书馆件名标目连想検索-东京大学.ppt

国会図书馆件名标目连想検索-东京大学.ppt

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
国会図书馆件名标目连想検索-东京大学

* * * * 国会図書館件名標目連想検索 平成22年6月15日 図書系職員のための アプリケーション開発講習会 文章か キーワード入力 画面イメージ 文章か キーワード入力 入力から「連想」する国会図書館件名標目とそのスコアを表示 (Ajax使用) 画面イメージ 国会図書館件名標目2008 国会図書館のサイト(以下)から非営利目的なら入手可能 http://www.ndl.go.jp/jp/library/data/ndlsh_download.html 拙作のPerlモジュール”MARC::NDLSH”も提供中 https://mbc.dl.itc.u-tokyo.ac.jp/MARC-NDLSH/ 自然文から 国会図書館件名標目を検索 国会図書館件名標目には、 それに結びついた文章がない…. だから、テキストマイニングができない? 文章がなければ、自分で文章を用意すればいいのに 国会図書館件名標目と 国内学術Webサイト 国会図書館件名標目に文章を結びつけ Yahoo! のWeb検索を使う 日本語の個々の件名(標目形)について、国内学術Webサイト(ドメインac.jpのサイト)を検索 トップ100件、スニペット(抜粋)のみ使用 件名を付与された書籍タイトルや その目次情報を使うことも考えられる 当初はニューラルネットを 当初はニューラルネットワークを使い、用語から「国会図書館件名標目」を推薦する仕組みを考えていた 面倒そうなので途中でとりやめ R言語のニューラルネットワーク Perlのニューラルネットモジュールの利用 Python(「集合知プログラミング」のサンプルコード) GETAssocを使って楽することに 単語?文書行列 単語の関連を調べるには「単語の共起」(同コンテンツで同時に出現する)を求めるのがセオリー 単語?文書行列(ベクトル空間法)を使うのがよくある手法だが… 文書A 文書B 文書C 単語A 0 1 0 単語B 1 1 0 単語C 0 0 1 件名標目?単語行列 ちょっと邪道(?)だが、「件名標目?単語行列」を作成 特に工夫せず、形態素解析器”和布蕪”により抽出した単語(形態素)と、TF*IDFを使用 件名A 件名B 件名C 単語A 0 1 0 単語B 1 1 0 単語C 0 0 1 国会図書館件名標目の 特色を生かす(1) 比較すべき対象 Wikipedia(専門用語もありかなり有力) もともと用語と解説文が結びつけれている 「想-Imagine」等にて実現すみ 日本語WordNet 国会図書館件名標目連想検索と同様の仕組みを作成できるが… 国会図書館件名標目の 特色を生かす(2) 国会図書館職員の件名選択の特色 上位語と下位語などの関連を生かす 国会図書館の分類記号を使う 国会図書館十進分類がついている PORTAの件名検索と連携させる 手間がかかるので、とりあえず保留中! 試行公開 東京大学情報基盤センター図書館電子化部門主催「図書系職員のためのアプリケーション開発講習会」のサイトで試行公開中 https://mbc.dl.itc.u-tokyo.ac.jp/NDLSH_assoc// * * * * * * * * * * * * * * * * * * * *

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档