- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
ofthe3“Wodd on Controland Procccdiags CongressIntelligent AutomationJune 2.2000,He诧i,P.R.China 28—0uIy ofAutomation forChineseArchives TheResearch IndexingSystem 札Xia02 Wang,Xinl Zhang,Xiaoting‘ InstituteofPost&Telecommunication l:ChangChun CharIgchunt30012 Force 130022 2:TheSecondAeronauticalofAir Institute ChangChun ofautomation TheautIlop3 themethod for archives havemadesome Abstract;Theintroduees Chinese paper indexing researchonthe of andclassification functionof and indexing indexing algorithmsubject indexing.Theweight descriptors isusedinthe of of are relmion classification thethesaurus reasonab耻Thc indexing keywords·descriptorsorganized fuzzy archives. ofNatural Processing Language Keywords:SubjectIndexing,ClassificationIndexing,the 文书档案自动著录系统的研究 王欣 于晓 长春邮电学院计算机系 长春130012 空军_二航院计算机教研室长春130022 张晓婷 长春邮电学院长春130012 摘要:本文介绍了文书档案自动著录方法.主要针对主题标引.分类标引算法进行了研究,培出了标引主题词 的加权函敷,合理构造了词典.利用模糊关东对档案进行分类标引. 关键词:主题标引。分类标引,自然语言处理
一、引言 二、主题词典和主题词抽取算法 档案著录是编制档案检索工具时.对案卷或文 主题词典是计算机辅助标引的中心,通过关键
件的内容和形式特征进行分析、选择和记录,以形 词——主题词的转换和词典的生成及维护来完成
成档案条目的过程。所谓档案的内容。是指文件或 的。它的作用是在输入文献文本信息后.通过与之
卷宗论述的主题内容:所谓档案的形式.是指文件 匹配抽出主题词。在此我们主题标引的依据是‘中
或卷宗的实体形式、文字表达形式.物质载体以及 国档案主题词表》,该主题词表对每个主题词提供了 史件的时间、数量、责任者等有关记载。文件级# 如下描述:
片式条目著录格式如下表l: Y:正式主题词 D:非正式主题词 衰 F:分项 概念下位词 S:属项 上位词 C:参项 其中分项、属项及参项在计算机检索 时可用于缩检、扩检与相关检索。 分类号 档案馆代号 对于任意一篇给定的文书档案,主题词抽取的 档号 缩微号 正题名 并列题名:副题名及说明题名文字:文件 大致步骤如下: 编号/第一责任者:其它责任者一文本一密级. 1.将文献转换为机内表示。采用单汉字标引法.以 保管期限一文件形成时间、数量及单位:规格+附件 ASCII码形式读取文件.通过对标点符号的判断将 主题侧 字的使用情况用一个五元组表示: 文章号,段 摘要 号.句号,分句号,字号 ,并将其存入对应于该 字的外部文件中,完成机内表示。为了积累背景 通过分类号和主题词可以进行档案标引,为查 知识,而又节省存储空间,机内表示数据库中保
找档案提供依据。赋予文件或案卷以分类号标识的。 留5000篇文章,超过时将最早的五元组删除。
称为档案分类标引:赋予主题词标识的.称为档案 2.候选主题词切分。我们采用逐字搜索,前方一致,
士题标引。档案著录中.分类标引、主题标引是工 最长匹配,删除停用词,再识别关键词,得到候
作姑最人的.目前仍以人t为主。人]:著录是高智 选主题词的方法。
能活动,对J:作人员要求很高.但速度和一致性却 选出的候选主题词记入“候选主题词表”,结构如
很低,面对庞大的信息量,传统的手r著录显得无 表2:
能为力,这就迫切提出了档案自动著录这个论题。 2736 0002000IEEE. O-7803-599J-X.|00/$10 其中“词频”为该主题词在文本中出现的次数。 中文信息 Al 0.3 词位置是指“标题”、“段首、段尾句”、“其它位 A2 0.5 置”等,表明该词出现在文本何处
您可能关注的文档
最近下载
- 高压液氧泵原理、结构及检修、结构及检修课件.pptx VIP
- 内蒙古版五年级上册综合实践活动全册教学设计教案.pdf
- 抗战胜利80周年党课:铭记历史担使命,砥砺奋进新征程(附文稿).pptx VIP
- 2025年基本医疗保险管理.pptx VIP
- 千岛湖汽车客运北站发车时刻表.doc VIP
- 跟动物学“智慧”..ppt VIP
- 理事会理事候选人会员代表推荐表.docx VIP
- 人民医院被服库采购、驻店及配送服务项目(2包:巾单辅料等被服类) 投标方案(技术标).doc VIP
- 环保行业管道直饮水行业解读与项目盈利性分析:自来水的消费升级.docx VIP
- 2025粤港「组装合成」模块化建筑跨境贸易指南.pdf VIP
文档评论(0)