关键词自动抽取系统.PDF

下载文档

68
0
约8.44千字
约 8页
2018-09-07 发布于天津
举报
保障服务

关键词自动抽取系统.PDF

关键词自动抽取系统

关键词自动抽取系统现有的检索系统中对关键词的抽取主要采用人工操作的方法，由于该方法存在非常多的无法克服的问题，所以一直没有被广泛应用。其主要的问题在于： 1）成本太高。其一是每一篇文献需要专业技术人员处理，对人员的素质要求很高；其二是效率很低，每一篇文献需要全文浏览才能有高质量的关键词抽取。 2 ）标准难于制定。一篇文献中哪些是关键内容，哪些是次要内容很难有明确的标准，更难于用规则将其确定下来。 3 ）标准执行难于统一。由于是人工处理，每个人对标准的理解的不统一；每个人认真程度的不统一都会影响到对标准的执行。 4 ）处理能力僵化，无法适应专利文献量的变化。由于专利文献的量是有变化的，而人员需要长时间培训，所以难于及时变化。 5 ）抽取的关键词对检索帮助有限。由于抽取的关键词是给人看得，而计算机是无法理解抽取出来的关键词的。而随着计算机能力的提高，目前全文检索已经非常普遍，所以现有的通过人工抽取关键词的方法是不会比全文检索在性能上有很大提高的。而正是了解到这些缺陷，patentics 基于具有自主知识产权的智能语义检索技术而开发了关键词自动抽取系统。该系统能够实现完全自动的从整个专利文献中抽取最能代表该文献意思的关键词。统一的标准，全自动操作，高效，准确。并且抽取的关键词计算机可读可理解。从而赋予了抽取出的关键词很多扩展属性。 1 Patentics Application Note.12 （一）基本原理从信息论的观点来考察矢量空间模型（VSM ）下的文本向量，很容易注意到每一篇文档就像一个独立的信息源。观察者通过观察此信息源所发出的各个特征的次数，来积累关于此信息源的信息。算法所要处理的文本矢量对这些信息源的观测数据。实际上，正是因为 VSM 的局限性，观察者进行聚类或分类只能依据文档的两种信息：文档中每个特征词出现的频率。文档的长度。由于文章的长度与文章所属的类别之间的关系不是很大，所以下面假设所有的文章都已经经过归一化处理，长度都是N 。这样，对于文档矢量d 即可以用特征词出现的频率来表示 d = (f 1 ,f 2 ,Λ ,f i ,Λ ,f M ), ∑f i = 1 i ，也可以用归一化之后的特征词频数来表 d = (t ,t ,Λ ,t ,Λ ,t ), ∑t = N 1 2 i M i 示即 i 。这所传达的信息是相同的。这样表示的信息源实际上是一个离散无记忆信源，因为这里并不存在任何特征出现的次序信息。为了获得一个聚类的目标函数，需要进一步考察文档类。每一个文档类c 是一个文档的集合，一个合理的类别应该能够尽可能的体现集合中各个文档的共性。而且类别的划分越细致类别内文档的共性越多，相异性越少。通过定量的描述类别的共性及类别与文档的相异性，可以给出一个合理的优化目标。我们将文档考虑为一个离散无记忆信源，那么文档类就是一个信源的集合。如果从外部的观察者考察这个信源集合的输出，我们无法区别特征的某一次出现是那个信源发出的，整个集合被看作一个单 2 Patentics Application Note.12 一的信源。我们将每一个文档类看作一个信源，显然此信源仍然是一

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

关键词自动抽取系统.PDF