- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
丹青不知老将至,贫贱于我如浮云。——杜甫
领域本体的藏文主题爬虫搜索策略研究
高红梅;仁青诺布;普次仁
【摘要】Aiming at the situation that there is no general Tibetan research
engine at present,the thesis puts forward a domain ontology-based topic-
oriented Tibetan information search strategy.The strategy first judges the
Tibetan Web and carries out mapping transform according to the features
of Tibetan and Tibetan coding.Then through constructing domain
ontology it calculates the concept similarity,and obtains the correlation
webpages of domain topics.Experimental results indicate that the method
can automatically find the topic-related resources in the domain,and can
get better recall rate and precision rate than the keywords-based Tibetan
webpages information search. Therefore,it can be used as the reference for
the study of Tibetan Web semantics search.%针对目前没有通用藏文搜索引擎
的情况,提出一种基于领域本体的面向主题的藏文信息爬取策略。策略首先根据藏
文和藏文编码的特点,判断出藏文 Web 并进行映射转换。然后通过构建领域本体,
进行概念相似性计算,得到领域主题相关性网页。实验结果表明,该方法能够自动
发现领域内的主题相关资源,并且比基于关键词的藏文网页信息搜索能得到更好的
查全率和查准率,可以作为藏文 Web 语义搜索研究的参考。
【期刊名称】《计算机应用与软件》
【年(卷),期】2015(000)009
【总页数】4 页(P68-71)
一寸光阴一寸金,寸金难买寸光阴。——《增广贤文》
人之为学,不日进则日退,独学无友,则孤陋而难成;久处一方,则习染而不自觉。——《顾炎武》
【关键词】本体;相似度计算;藏文网页;主题发现
【作者】高红梅;仁青诺布;普次仁
【作者单位】西藏大学工学院 西藏 拉萨 850000;西藏大学工学院 西藏 拉萨
850000;西藏大学工学院 西藏 拉萨 850000
【正文语种】中 文
【中图分类】TP391
藏文字作为一种古老的文字,文献资源丰富,不仅我国藏族地区使用,尼泊尔、不
丹、印度、蒙古等国也有一部分人使用。藏文信息化工作一直得到国家高度重视,
1997 年颁布了藏文编码字符集国际标准,2003 年颁布了国家扩充集标准(扩充集
A) ,2007 年微软公司发布了全球范围内第一个全面支持藏文的 Windows Vista
操作系统。同时藏文字处理的发展也取得了一定成绩,如键盘布局、字体、输入法、
编码等。随着互联网的普及和藏文信息处理技术的发展,藏文网站数量和规模发展
都非常迅速 ,而藏文 Web 信息提取等应用系统缺口却比较突出。主题爬虫能够迅
速获取网络上特定主题的大量信息,满足对某一主题的个性化服务的需求 ,如旅游、
信息安全、政府相关政策情报智能检索、藏文网络舆情分析等的研究 ,它对藏文
Web 数据挖掘具有重大价值。王兰成 [1]通过分析 URL 链接关
文档评论(0)