关键词自动抽取系统.PDF

关键词自动抽取系统

关键词自动抽取系统 现有的检索系统中对关键词的抽取主要采用人工操作的方法,由 于该方法存在非常多的无法克服的问题,所以一直没有被广泛应用。 其主要的问题在于: 1)成本太高。其一是每一篇文献需要专业技术人员处理,对人 员的素质要求很高;其二是效率很低,每一篇文献需要全文浏览才能 有高质量的关键词抽取。 2 )标准难于制定。一篇文献中哪些是关键内容,哪些是次要内 容很难有明确的标准,更难于用规则将其确定下来。 3 )标准执行难于统一。由于是人工处理,每个人对标准的理解 的不统一;每个人认真程度的不统一都会影响到对标准的执行。 4 )处理能力僵化,无法适应专利文献量的变化。由于专利文献 的量是有变化的,而人员需要长时间培训,所以难于及时变化。 5 )抽取的关键词对检索帮助有限。由于抽取的关键词是给人看 得,而计算机是无法理解抽取出来的关键词的。而随着计算机能力的 提高,目前全文检索已经非常普遍,所以现有的通过人工抽取关键词 的方法是不会比全文检索在性能上有很大提高的。 而正是了解到这些缺陷,patentics 基于具有自主知识产权的智能 语义检索技术而开发了关键词自动抽取系统。该系统能够实现完全自 动的从整个专利文献中抽取最能代表该文献意思的关键词。统一的标 准,全自动操作,高效,准确。并且抽取的关键词计算机可读可理解。 从而赋予了抽取出的关键词很多扩展属性。 1 Patentics Application Note.12 (一)基本原理 从信息论的观点来考察矢量空间模型 (VSM )下的文本向量, 很容易注意到每一篇文档就像一个独立的信息源。观察者通过观察此 信息源所发出的各个特征的次数,来积累关于此信息源的信息。算法 所要处理的文本矢量对这些信息源的观测数据。实际上,正是因为 VSM 的局限性,观察者进行聚类或分类只能依据文档的两种信息: 文档中每个特征词出现的频率。 文档的长度。 由于文章的长度与文章所属的类别之间的关系不是很大,所以下 面假设所有的文章都已经经过归一化处理,长度都是N 。 这样,对于文档矢量d 即可以用特征词出现的频率来表示 d = (f 1 ,f 2 ,Λ ,f i ,Λ ,f M ), ∑f i = 1 i ,也可以用归一化之后的特征词频数来表 d = (t ,t ,Λ ,t ,Λ ,t ), ∑t = N 1 2 i M i 示即 i 。这所传达的信息是相同的。 这样表示的信息源实际上是一个离散无记忆信源,因为这里并 不存在任何特征出现的次序信息。为了获得一个聚类的目标函数,需 要进一步考察文档类。每一个文档类c 是一个文档的集合,一个合理 的类别应该能够尽可能的体现集合中各个文档的共性。而且类别的划 分越细致类别内文档的共性越多,相异性越少。通过定量的描述类别 的共性及类别与文档的相异性,可以给出一个合理的优化目标。 我们将文档考虑为一个离散无记忆信源,那么文档类就是一个 信源的集合。如果从外部的观察者考察这个信源集合的输出,我们无 法区别特征的某一次出现是那个信源发出的,整个集合被看作一个单 2 Patentics Application Note.12 一的信源。我们将每一个文档类看作一个信源,显然此信源仍然是一

文档评论(0)

1亿VIP精品文档

相关文档