- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
icationofWebQueryIntentUsingEncyclopedia基于百科知.docx
Classification of Web Query Intent Using Encyclopedia基于百科知识的查询意图获取
Bingquan Liu, Ming Liu, Gang Hu
Harbin Institute of Technology
Outline
Meaning
Seed term extraction
Intent category
Experiments results
Meaning
Improve performance of retrieve system by searching user’s intent
Classical category methods need adequate training corpus, whereas, it’s unavailable in retrieve situation.
Classical category methods mostly focus on long-text, contrastingly, query is quite short-text.
Seed term extraction
Semantic similarity calculation between words based on HowNet.
Lexical construction to indicate text’s topic.
Markoff Random Walk to extend seed term set.
intent category
Training corpus formed by Baidu Zhidao daily log.
Intent category based on SVM classification.
Experiments results
Testing corpus crawled from Sogou company.
意图类别
人工抽取开放分类
种子词条
导航类
门户网站、博客、微博、电子商城、贴吧、论坛、在线……
17958
人名类
明星、专家、运动员、伟人、现代人物、古代人物……
366411
下载类
电影、歌曲、小说、软件、故事片、战争片、计算机软件、杀 毒软件、系统工具……
96700
Table 1 Seed terms extraction
意图类别
百度百科
人工标注
P
R
F
P
R
F
导航类
87.62
76.53
83.58
88.31
75.66
83.65
人名类
89.43
74.69
83.91
91.28
76.25
85.65
下载类
83.37
79.31
81.97
82.94
77.90
80.99
Table 2 Classification results
文档评论(0)