关键词自动抽取系统
关键词自动抽取系统
现有的检索系统中对关键词的抽取主要采用人工操作的方法,由
于该方法存在非常多的无法克服的问题,所以一直没有被广泛应用。
其主要的问题在于:
1)成本太高。其一是每一篇文献需要专业技术人员处理,对人
员的素质要求很高;其二是效率很低,每一篇文献需要全文浏览才能
有高质量的关键词抽取。
2 )标准难于制定。一篇文献中哪些是关键内容,哪些是次要内
容很难有明确的标准,更难于用规则将其确定下来。
3 )标准执行难于统一。由于是人工处理,每个人对标准的理解
的不统一;每个人认真程度的不统一都会影响到对标准的执行。
4 )处理能力僵化,无法适应专利文献量的变化。由于专利文献
的量是有变化的,而人员需要长时间培训,所以难于及时变化。
5 )抽取的关键词对检索帮助有限。由于抽取的关键词是给人看
得,而计算机是无法理解抽取出来的关键词的。而随着计算机能力的
提高,目前全文检索已经非常普遍,所以现有的通过人工抽取关键词
的方法是不会比全文检索在性能上有很大提高的。
而正是了解到这些缺陷,patentics 基于具有自主知识产权的智能
语义检索技术而开发了关键词自动抽取系统。该系统能够实现完全自
动的从整个专利文献中抽取最能代表该文献意思的关键词。统一的标
准,全自动操作,高效,准确。并且抽取的关键词计算机可读可理解。
从而赋予了抽取出的关键词很多扩展属性。
1 Patentics Application Note.12
(一)基本原理
从信息论的观点来考察矢量空间模型 (VSM )下的文本向量,
很容易注意到每一篇文档就像一个独立的信息源。观察者通过观察此
信息源所发出的各个特征的次数,来积累关于此信息源的信息。算法
所要处理的文本矢量对这些信息源的观测数据。实际上,正是因为
VSM 的局限性,观察者进行聚类或分类只能依据文档的两种信息:
文档中每个特征词出现的频率。
文档的长度。
由于文章的长度与文章所属的类别之间的关系不是很大,所以下
面假设所有的文章都已经经过归一化处理,长度都是N 。
这样,对于文档矢量d 即可以用特征词出现的频率来表示
d = (f 1 ,f 2 ,Λ ,f i ,Λ ,f M ), ∑f i = 1
i ,也可以用归一化之后的特征词频数来表
d = (t ,t ,Λ ,t ,Λ ,t ), ∑t = N
1 2 i M i
示即 i 。这所传达的信息是相同的。
这样表示的信息源实际上是一个离散无记忆信源,因为这里并
不存在任何特征出现的次序信息。为了获得一个聚类的目标函数,需
要进一步考察文档类。每一个文档类c 是一个文档的集合,一个合理
的类别应该能够尽可能的体现集合中各个文档的共性。而且类别的划
分越细致类别内文档的共性越多,相异性越少。通过定量的描述类别
的共性及类别与文档的相异性,可以给出一个合理的优化目标。
我们将文档考虑为一个离散无记忆信源,那么文档类就是一个
信源的集合。如果从外部的观察者考察这个信源集合的输出,我们无
法区别特征的某一次出现是那个信源发出的,整个集合被看作一个单
2 Patentics Application Note.12
一的信源。我们将每一个文档类看作一个信源,显然此信源仍然是一
原创力文档

文档评论(0)