- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
叙词表多表联合标注系统设计与实现
本期话题
http: //
叙词表多表联合标注系统设计与实现*
□ 李鹏 朱礼军 刘亚洁 / 中国科学技术信息研究所 北京 100038
辛之海 / 开源旗帜软件(北京)有限公司 北京 100125
摘要:通用叙词表提供了普遍意义的概念,具有普适性、协调性与兼容性的特点,而不同的专业叙词表提供了
领域内关注的不同侧重点。叙词表多表联合标注能够从多视角下揭示文档的语义。文章提出了叙词表多表联合标
注系统的设计方案,介绍了叙词表文本标注等功能模块以及设计中应该注意的问题,并以皮肤病领域下文档标注
为例进行了研讨,总结了多表联合标注可能的应用场景。多表联合标注系统为挖掘不同视角下文档的意义提供了参
考,并为文档的语义检索奠定了基础。
关键词:叙词表,标注,语义
DOI :10.3772/j.issn.1673—2286.2013.11.005
[5]
1 引言 属性或某个方面的叙词所进行的联 方面,杨贺 等基于海量文献人工
合标引,其结果可以形成一个专指 标引,运用计量分析法对多年来积
标引是对文献的内容及其他有 概念。例如:“信号模拟器稳定性” 累的人工标引词从词频、词长、词
检索意义的特征进行分析、描述并 可用“信号模拟器”与“稳定性”组 类型、词共现等多方面进行分析,
用检索标识记录下来,作为存取依 配,即用事物及其性质来表达专指 运用字面相似度计算词间关系来
据的文献处理过程,它又分为分类 概念。 建立适用于机标和后控词表的自然
[2] [6]
标引和主题标引。标引不仅是信息 在自动标引方面,李素建等 语言词表的过程。朱嘉贤等 为支
过滤的必要组成部分,也是对原信 利用最大熵模型进行自动标引的研 持We b 资源内部信息的检索,研
息的精炼与提升,可以使检索更有 究,通过建立最大熵模型的特征集 究多粒度语义标注,即按树根结
效率,更为精准。曾经一度,因为全 合,提出分类试验、正例试验、打分 点、分支结点、叶子结点及资源信息
文索引逐渐被人采用,对于标引的 试验三种试验,总结了最大熵模型 元为粒度单位对Web资源进行组织
需求下降,导致研究减少。但随着 的优点在于可以灵活地选择各种特 管理,并在此基础上探讨基于本体
研究的深入,尤其是面对海量信息 征,结合大量的特征到模型中去。 的搜索技术。
[3]
的检索与挖掘,如自动摘要、文本 章成志 为了有效利用标引对象的 从以上关注标注方面的研究和
分析、主题检索等的需要,标引显 特征,并考虑到抽词标引可以转换 设计可知,标注是一个相对主观和
得愈发重要[1] 。 为序列标注问题,提出基于条件随 灵活的行为。本文主要着重相关实
通用叙词表提供了普遍意义的 机场的自动抽词标引模型,认为是 现,包括自动标注与手工标注,提出
概念,具有普适性、协调性与兼容 到目前为止解决序列标注问题的最 了叙词表多表联合标注系统的设计
[4]
性的特点,而不同的专业叙词表提 好方法。程传鹏 针对微博文本的 方案。
供了领域内关注的不同侧重点。单 特点,根据微博文本中的名词或动
表标引相对作用有限,但是叙词表 词之间语义相似度构造图的邻接 2 多表联合标注系统整
多表联合标注能够从多视角下揭示 矩阵,再利用Pagerank算法思想来 体设计
文档的语义。例如,将一个表示事
文档评论(0)