基于文本结构解析动态共词方法研究.docVIP

下载本文档

7
0
约4.66千字
约 11页
2018-05-15 发布于福建
举报
版权申诉

基于文本结构解析动态共词方法研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于文本结构解析动态共词方法研究

基于文本结构解析动态共词方法研究　　[摘要]实施共词分析的核心在于设定共现分析的窗口。在标记文献内容结构的前提下，动态共词方法具有三个主要特征：多阶段的文本切分、按位置加权的短语频次、动态调整的共现统计范围。共同结果能更贴切地反映文献集内的主题关联，为情报研究人员提供质量更高的分析结果。　　[关键词]共词分析　DT方法　文本结构解析　共现　动态共词法　　[分类号]G350 　　　　1　引言　　　　随着世界各国在科技领域的高额投入，各类科技文献产出量越来越大。为了发掘文献中的有用知识，图情领域的专家们常常利用引文分析法来描绘学科内的核心研究领域。不过，由于无法直接揭示文献内容，且某些类型的文献(如科技报告)没有引文库，所以引文分析有时也会“力不从心”。而共词分析法直接处理文献内容，可以识别学科领域的主题结构、探索研究空白点和可能的创新点等，因而得到了广泛应用。经过30余年的发展，共词分析法在科研政策评估、专利分析、领域主题结构揭示以及科技文献知识发现等多个方面都有了成功应用。　　据冯璐博士研究，共词分析法已经发展了三代，最新一代是由原任职于美国海军研究总署(ONR)的Kostoff博士于1992年提出的数据库内容结构分析(Database Tomography)，简称“DT方法”。该方法将计算语言学融入科研评估领域，可以分析自由文本、自动统计抽取多词短语、实施邻近共现分析，并请领域专家来判断以提高选词质量，可以获得更有意义的发现。近些年来，国内图情领域和医学领域的学者对共词方法的研究和应用越来越多，虽也有对DT方法的介绍，但并未涉及方法的细节。本文在深入研究DT方法的基础上，结合对文献内容结构的识别，提出以文本结构解析为前提，视语境动态调整共现范围的优化思路，以求提高共现词语的质量和分析结果的可解释性，也进一步拓展该方法的应用领域。　　　　2　DT方法概述　　　　1992年，Kostoff提出了“DT方法和系统”的专利申请，此后便将其用于多个科技领域的分析和评估。自2001年起，他逐渐将DT方法与引文分析法结合，并统称为“文本数据挖掘”；2008年以后，DT作为其“文献相关的知识发现”体系中的自由短语分析模块，已不再进行专门论述。　　　　2.1　DT方法的核心思想　　DT方法主要有三个步骤：先从科技文本中识别出核心主题短语，再确定核心主题之间及其与相关子主题间的定量和定性关系，然后追踪其相互间的关联关系随时间的演变。　　该方法的核心思想在于处理“共现分析窗口”的策略，主要包含三个方面的内容：分析窗口的位置，即分析时选择什么以及怎样选择核心短语用作共词分析起点；窗口大小指分析时在核心短语周围设定多大的分析界限抽取共现短语；窗口内容，即分析时应该抽取哪些技术短语作为有效短语。　　对于窗口内容(即共现短语)的统计，DT方法采用两种方式：一种是核心短语共现(NonZoom)，即仅统计所选出的核心短语之间的共现数量关系，这也是国内多数学者采用的方式；另一种是自由短语共现(zoom)，即统计范围内所有找到的短语。相对来说，后者对分析更为有效，但必须另外采取措施过滤共现后的短语。　　　　2.2　DT方法的关键环节　　2.2.1　多词短语统计抽取DT方法首先过滤文本中的停用词，但并不归并单词形式。因为Kostoff认为：采用Porter算法之类的词形合并方法会导致重要内容信息的丢失。随后，自动抽词算法会遍历文本集，顺次抽取位置相邻的一、二、三个单词作为单词短语、两词短语和三词短语，统计其各自的出现频次。进一步，分别为三种短语设定阈值，过滤掉低频短语；再请领域专家从保留下的高频短语中选出感兴趣的短语。两轮筛选后，从三种词语中根据实际情况按比例选出频次较高的作为“核心主题短语”，用作深入分析的起点。不过，从Kostoff的多个研究报告中看，多数核心短语是两词短语，少数是单词短语，三词短语很少。　　2.2.2　邻近共词分析　　以核心主题短语为起点，DT方法限定共现统计范围为核心短语前后各M/2个单词(M表示距核心短语的单词数量)。容易理解，当M较小时，所得共现短语在句法上会与核心短语更相关，但可能难以发现主题间的潜在关联；若M较大，则所得共现短语数量多，可能包含的潜在主题关联也更多，但同时干扰因素也会更多。　　Kostoff试验发现，当M值在20～30之间时，强关联短语会得以较好地体现；在40～50之间时，较低频次的“两词短语”能获得有意义的统计频次。可以预计，许多不相关短语会被频次阈值过滤掉。综合考虑之下，他将DT方法的共现分析窗口(M)设为50。　　2.2.3　共现短语筛选及关联描述通过邻近共词分析获得共现短语后，DT方法使用等价指数(Eij)和包容指