基于文本挖掘形态分析方法关键问题.docVIP

基于文本挖掘形态分析方法关键问题.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于文本挖掘形态分析方法关键问题

基于文本挖掘形态分析方法关键问题   [摘要]基于文本挖掘的形态分析方法是在传统方法基础上融入文本挖掘的手段,是国内外学者对形态分析方法的一次有益的探索与改进。改进后的方法减轻对领域专家的依赖,并且增加分析过程中客观数据的支持,提高方法的效率和科学性。基于文本挖掘的形态分析方法包括形态结构定义、特征词选择、形态表示、形态分析等4个关键问题,这4个问题解决方案的优化对整个方法的分析效率和质量的提高有关键作用。   [关键词]形态分析技术预测特征选择形态构建形态关联   [分类号]G350   应用于科技规划与管理、科技政策制定的技术预见、预测等研究已经在许多国家和机构广泛开展,并在支持各层面的科技决策活动中发挥了重要作用,这些面向未来的技术分析活动受到越来越多的关注。   形态分析以参数分解和问题构建为基础,是一种引导构造性发明的非定量建模方法。在Alan Porter总结的13类面向未来技术分析方法中,形态分析属于矩阵类方法。形态分析方法最早可追溯到13世纪,但“形态分析”名称的正式出现是在20世纪40年代。20世纪70年代,Wissema首次系统阐述了形态分析在技术预见研究中的应用方法,他将应用于技术预见的形态分析方法分解为4个步骤:①识别主题的基础属性;②发现基础属性的可能值;③各基础属性值的排列组合;④识别已出现的排列组合,发现未出现的组合。   1基于文本挖掘的形态分析方法   传统形态分析中形态结构定义、形态属性值的发现过程完全依赖领域专家的知识和经验,缺乏客观数据的支持。因此,有学者提出基于文本挖掘的形态分析方法,借助文本挖掘工具从数据集的文献标题、摘要、全文等信息中抽取关键词,通过计量、咨询专家等手段从关键词中筛选能够反映形态结构和形态属性值的特征词。   针对产品开发和技术机会发现问题,2004年Yoon等人提出文本挖掘与形态分析相结合的方法。他们使用文本挖掘工具从专利文献中抽取关键词,然后借助领域专家筛选特征词、定义技术形态结构、表现技术形态,进行形态分析,并通过LED专利技术的实证分析证明基于文本挖掘的形态分析方法的可行性及其优势。Lee等人将这种方法扩展到多种形态的关联分析,他们分别从IT服务专利文献和《联合国中心产品分类》巾抽取特征词组成IT服务的技术形态和概念形态,并使用形态同现矩阵对两种形态进行关联分析。面向不同的应用需求,基于文本挖掘的形态分析方法都取得不错的效果,这种方法增加了分析过程中客观数据的支持.减少了对领域专家的依赖,提高了形态分析效率。   基于文本挖掘的技术形态分析方法的主要步骤如图1所示:①构建领域数据集;②借助文本挖掘手段从数据集中扶得特征词集;③以特征词集辅助领域专家定义形态结构;⑧表现主题形态;⑤形态分析。      2基于文本挖掘的形态分析方法的关键问题   基于文本挖掘的形态分析方法可以概括为两方面的4个关键问题第一个方面是主题形态构造,包括特征词选择、形态结构定义、形态表现3个关键问题;第二个方面的问题是形态分析。   2.1特征词的选择   关键词能够反映文献主题的实际内容,可以代表文献主题的形态属性值。特征词选择是关键词的精选过程,主要方法包括计量法和混合法。   计量法的前提是阋频反映了关键词重要程度,计量法通过同频统计等计量手段赋予关键词权值,选择权值满足条件的关键词作为特征词。混合法以计量手段辅助领域专家选择特征词,主要步骤是:①通过文本挖掘获得关键渊集;②通过汁量方法对关键词集进行过滤;③领域々家从剩余关键中筛选特征词。   计量法以词频为依据,忽略了词间关系影响,选词准确性、可靠性较差。混合法在计量基础上融人领域々家意见,在提高选词效率的基础上保证了较高的准确性和可靠性。   2.2形态结构定义   形态结构是组成主题的基础属性及其等级结构,形态结构定义方法包括专家法和混合法。   专家法定义形态结构完全依赖研究者或领域专家的知识和经验。Yoon、Phaal等人在手机机产品技术路线图方法研究中,通过咨询领域专家整理了type、Careera、Input Equipment、Antenna等7个产品形态属性和lo-cati’on、Shape、Band、Material等6个技术形态属性。混合法以情报分析辅助专家定义形态结卡勾,主要思路是:①通过共现、聚类等手段分析特征词重要性并建立特征词关系网;②领域专家以特征词关系网为依据定义主题形态结构。   专家法定义形态结构准确、可靠、规范,但受々家知识范围和主观意识影响,方法效率受到限制,昆合法中融人情报分析,增加客观数据对形态结构定义的支持,减轻了对领域专家的依赖,提高了形态结构定义的效率。   2.3主题的形态表现   形态分析以科技文献为分析基础,每篇文献主题都有

文档评论(0)

3471161553 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档