网络科技信息结构化监测的思路方法-中国科学院文献情报中心.doc

网络科技信息结构化监测的思路方法-中国科学院文献情报中心.doc

网络科技信息结构化监测的思路方法-中国科学院文献情报中心.doc

网络科技信息结构化监测的思路和技术方法实现* 本文得到国家自然科学基金项目“基于语言网络的文本主题中心度计算方法研究”(批准及中国科学院文献情报能力建设专项“网络科技信息自动监测系统二期建设”项目(编号院1306)的支持。 张智雄 张晓林 刘建华 邹益民 谢靖 钱力 王颖 中国科学院国家科学图书馆,北京 100190 摘 要:网络科技信息由于开源、发布及时等特点,目前已经成为战略情报监测的重要资源,然而这类资源具有非结构化、无语义描述等特点,因此在自动的网络科技信息监测中,如何将Web信息从非结构的自由信息转为可分析的结构化语义化信息成为需要解决的一个重要问题。在对网络科技信息特征和战略情报团队需求充分调研的基础上,笔者提出了结构化监测的思路和技术方法实现。具体而言,对于每一条从网络上采集到的科技信息资源(如HTML页面、PDF文件、WORD文档等),笔者首先通过知识抽取技术,从这些网络信息资源中抽取出嵌在其中的知识对象以及对象间的相互关系,将自由文本转换为结构化的可计算的知识单元,在此基础上,构建各类监测模型(如重要内容判断、热点监测、重要对象跟踪等),进而实现对研究领域的态势监测。基于这一思路,笔者设计和开发了适用于领域监测的“网络科技信息自动监测系统”,并基于监测数据所形成的语义资源,进行了基于对象计算的监测目标态势分析实验。本文主要针对网络科技信息结构

文档评论(0)

1亿VIP精品文档

相关文档