- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
高校精品课程知识管理中的分词和标引-白城师范学院
高校精品课程知识管理中的分词和标引
摘要 :分词是汉语文献处理的第一步目前,在多种分词算法中正向最大匹配算法最为简洁、易于实现、日常应用也最为广泛。我们主要运用理论知识剖析算法中的优缺点,着重研究这种分词算法切分词语的速度,并进一步优化和改进这种分词算法,提出可行性改进方案,最终提高算法切分词语的效率和准确率。高校精品课程的知识管理可以尝试采用基于词表的最大匹配法进行分词,可建立有关词表。在此基础上,可提出一套高校精品课程知识管理的标引方法。
关键词:知识管理;分词;正向最大匹配算法;歧义切分
Abstract: Word is the first step in dealing with Chinese literature. At present, in a variety of segmentation algorithms are the biggest match in the most simple algorithm and easy to achieve, the most extensive day-to-day applications. The main application of theoretical knowledge, we analyze the strengths and weaknesses in algorithms, focusing on this word Segmentation algorithm terms of speed, and further optimize and improve the segmentation algorithm, put forward to improve the viability of the program, the final word segmentation algorithm to improve the efficiency of the And accuracy. College Courses of knowledge management can try to form words based on the best method to carry out sub-Matching words can be related to the establishment of the term sheet. On this basis, can be put forward a set of fine colleges and universities curriculum knowledge management method of indexing.
???? Key words: Knowledge Management; participle; being the largest matching algorithm; segmentation ambiguity
引言
现有的高校精品课知识管理中的分词在字词和规则上同普通文献相比并没有特别的限制。但是,精品课程建设是高等学校教学质量与教学改革工程的重要组成部分,关系到人才培养的质量,所以,高校精品课程知识管理尤为重要。知识作为现代世界的一种重要的资源,应该被合理的利用从而创造出新的价值。而要实现对知识的合理利用就必须有效解决知识获取的长期性、系统性以及知识组织的合理性问题。我们可以在高校精品课知识管理中找到其有别于其他文献的特性。如用词方面,高校的各学科课程名称的词汇出现的频率明显较高。高校的学科分类较多,有文科、理科、工科;理科还分有各专业学科。这为计算机处理设置了相当多的问题。但是,无论是高校的学科分类还是专业学科都有规律可寻,或者说是已经规定好的内容。所以很容易进行分析归纳,文献的层次类别比较容易进行逻辑划分。例如计算机科学与教育专业包含以下的专业课程:软件方面—VF、VB、C、编译原理等;硬件方面—模拟电子、数字电子、单片机原理、微机原理、汇编语言等。因此,可以采用一些针对性强的方法,建立高效实用的高校精品课知识管理标引系统。
2.分词
字是汉语的基本独立单位,但是词是具有一定语义的最小单位。词由单个或多个字构成,一般常用的是二字词,其次就是单字词,另外还有一些多字词。词数量多。词使用灵活、变化多样,容易产生歧义。例如同样的两个连续汉字,在有的句子里构成一个词,而在另外的句子却是单字,最常见的“中国人”可以组词成:中国/人、中/国人、中国人。语言环境不同,组词的情况也不同,这给计算机的词法分析带来了极大的困难。在汉语系统中,书写是以句子为单位,句子之间有标点符号隔开。在句内,字和词则是连续排列的,它们之间没有任何分隔符。这样,如果要
原创力文档


文档评论(0)