电子政务中中文文本分类技术的运用.docVIP

电子政务中中文文本分类技术的运用.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
电子政务中中文文本分类技术的应用 电子政务是指政府机构运用现代计算机技术和网络技术,将其管理和服务职能转到网络上去完成,同时实现政府组织机构和工作流程的重组优化,超越时间和部门分隔的制约,向社会提供高效、优质、规范、透明和全方位的管理和服务。电子政务建设的实质就是“以网络为工具,以用户为中心,以应用为灵魂,以便民为目的”,而电子政务建设的核心部分就是电子政务信息资源共享。这种共享是建立在政府资源信息化的技术之上的,大量的政府业务将以信息的形式存在和产生效益。由此可见,信息已成为现代社会资源的重要部分,如何建设和管理信息资源,如何有效地共享和利用信息资源,是当前电子政务建设的重点问题和面临的新挑战。 (一)电子政务信息的特点 ? 当前,我国党政系统的信息80%以上都是以文档形式存在,其中公文占绝大多数,据统计,90%以上的用户目前都是应用OFFICE或是WPS应用系统,而公文在信息标引上又具有其自身的特点。 1、具有严格的格式要求。从字体、大小、排版格式都有严格的要求。特别是对公文的主题词的定义上。主题词在我国党政机关中的应用最早可以追溯到1985年。1991年,中办《公文主题词表》通过了“七五”国家重点科技攻关项目有关课题的技术鉴定,1993年9月和1994年1月,中办、国办先后规定:凡报送中办、国办的正式文件,均需标注主题词。1997年12月和1998年8月,国办和中办先后修订了各自的《公文主题词表》。随着电子政务的兴起,国家有关方面意识到,主题词是整个政务信息资源库内信息资源组织,与管理以及库际资源管理与交换的基础。是指导各类政务信息采集、加工、整合和有效使用的统帅与核心,是沟通信息孤岛的桥梁。通过主题词严格的语义内涵和位属关联,建立所有资源在主题层的映射关系,可以实现全库资源的加工规范化、标识有序化以及信息共享化,从而为电子政务知识管理奠定坚实的基础。尽管主题词如此重要,但其标引工作长期以来只能通过言传身教、依靠经验来完成,熟练掌握标引主题词所用时间相当漫长。另外,人工标引的公文主题词又会产生因人而异、因时而异、因地而异的缺点,主题词的规范性、标准性和科学性难以得到有效保证。上述两个因素在现实中同时存在,制约了公文在党政机关档案整理、辅助决策、知识管理等工作中的效果和效率。 2、公文中主题词所处位置不同造成其信息价值不同。一是该词的词频,另一个是该词在网页中出现的位置,在网页中不同位置出现的语词的价值是不同的。正如张琪玉教授指出:“如果从针对文献整体的检准率的角度看,文献题名中的词最为有效。其次为文献中的小标题或者章节名、文献摘要。最后为文献中的词。”丁璇等人随机抽取了300篇经济类网页,对这些网页进行人工自由标引、人工打分、词频统计,并进行统计数据的分析、研究,得出了网页内容主题与网页题名、文章标题、第一段首句、第一段尾句、第二段首句、第二段尾句、第三段首句、第三段尾句、首段、尾段、HTML标记等12个标引源的主题表达能力的先后顺序。得出的结论是首段文章标题HTML标记第一段首句网页标题第一段尾句第二段首句第二段尾句尾段第三段首句其它第三段尾句。并建议它们的加权值为5:5:5:4:4:4:2:2:2:2:2:2。 3、公文具有行业性比较明显。由于党政机关的职能分工不同,其公文信息的具体含义有别于部门之间的差异,主题词的应用频率各有所侧重。比如,组织部门中,使用“党的建设”、“人才队伍”、“执行力”等主题词相对频率比较高,而政府的粮食部门,“质检”、“配额”、“谷物”等词相对较高。因此,部门的主要职能给主题词带来了相对集中的特点。 4、主题词的标引具有失真性。在公文制作过程中,主题词的一些标引细则容易造成公文的具体信息失真:一是一般公文主题词的标引是引用专用词表中的正式词汇,当没有专指性的词时,可以选用概念相交、概念限定关系的词组配;二是若词表中无合适词进行组配时,应选用直接上位主题词标引;三是若无直接上位主题词标引时,可选用自由词进行标引。 从以上可以看出,公文有其自动标识的关键词汇——主题词,但其仅能反映出公文的大致内容和意思的表达,但对具体内容很难表达准确,因而,为弥补和克服以上情况所带来的不足,在考虑分类时,不能硬性地仅以主题词来进行分类,还要充分考虑文本中的关键词、词的位置权重等一些因素。 (二)中文文本分类技术 文本自动分类是指计算机将一篇文章自动地分派到一个或多个预定义的类别中去,它属于信息检索IR和机器学习ML的交叉学科。在国外大致经历了三个发展阶段:第一阶段(1958~1964)主要进行自动分类的可行性研究,第二阶段(1965~1974)进行自动分类的实验研究,第三阶段(1975至今)进人实用化阶段??。 我国文本自动分类的研究工作始于20世纪80年代初,大体上经历了从可行性探讨——辅助分

文档评论(0)

1honey + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档