领域术语自动抽取方法研究.pptVIP

下载本文档

3
0
约 51页
2017-02-25 发布于上海
举报
版权申诉

领域术语自动抽取方法研究.ppt

1、本文档共51页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

领域术语自动抽取方法研究

领域术语自动抽取方法研究刘桃报告内容绪论课题研究的目的、意义及研究现状论文主体领域文本自动判别方法领域术语自动抽取方法在文本分类和问答式信息检索中的应用结论报告内容绪论课题研究的目的、意义及研究现状论文主体领域文本自动判别方法领域术语自动抽取方法在文本分类和问答式信息检索中的应用结论绪论研究目的为面向领域的应用提供可定制的领域文本自动判别方法和领域术语自动抽取方法研究意义对所有面向领域的应用都有重要意义垂直搜索文本自动分类语言建模词义消歧绪论：领域文本自动判别研究现状领域文本自动判别有监督文本分类方法文本表示：概率模型、向量空间模型特征选择：TF-IDF、互信息、期望交叉熵、信息增益等分类算法：Rocchio法、贝页斯分类法、K最近邻分类法、支持向量机、决策树、神经网络半监督文本分类方法产生式模型和期望最大化、直推式支持向量机、自助学习法、协同训练法、主动学习法基于正例的文本分类方法 PEBL、 Spy_EM、Roc_SVM、类别约束SVM（Biased_SVM）、 PNLH方法绪论：领域术语自动抽取研究现状中文词语的领域类别判定之前要进行中文新词发现中文新词发现启发式特征：构词力、构词模式、互信息、上下文依赖机器学习模型：隐马尔科夫模型、最大熵、最大熵马尔科夫模型、支持向量机、条件随机域绪论：领域术语自动抽取研究现状词语的领域类别判定基于语言学知识的方法英文的拼写线索、包含词缀等信息的术语要素词典、潜层语法分析、设定规则模版基于统计量度的方法基于类别的TFIDF(KFIDF)、领域相关性+领域一致性（DR+DC）、C-值、C/NC值机器学习方法基于自助学习法的半监督术语获取方法基于词语分类的术语获取方法绪论：研究现状领域术语自动抽取的评价人工评价：语言学家或者研究者通过个人判断来确定抽取的词语是否为领域术语对抽取结果有直观感受费时、费力受人主观性影响应用评价：看领域术语抽取模块在应用系统中的表现评测迅速完全面向应用，不同的应用系统可能会产生不尽相同的结果报告内容绪论课题研究的目的、意义、研究现状论文主体领域文本自动判别方法研究领域术语自动抽取方法研究在文本分类和问答式信息检索中的应用设计结论研究框架领域文本自动判别方法完整分类体系下的领域文本判别有监督文本分类方法需要为每个类别提供一定规模的训练语料实现了一个文本分类评测平台包括10种可定制的特征选择算法和4种可定制的分类算法特征选择算法：词频与倒文档频度（TFIDF）、期望交叉熵（ECE）、统计、互信息（MI）、文本证据权（WE）、信息增益（IG）、文档频度（DF）、KFIDF、DR+DC、NCD+NDD方法分类算法：简单贝叶斯（NB）、Rocchio、K最近邻（KNN）和支持向量机（SVM）领域文本自动判别方法非完整分类体系下反例集获取困难完整分类体系下训练某个类别的分类器时，其他类别训练语料的合集作为反例集非完整分类体系下获取某个类别的平衡反例集比较困难基于正例的文本分类方法不需要提供已标注的反例集需要使用大规模未标注样本基于正例的文本分类问题的传统方案步骤一：启发式样本标注 1-DNF,PNLH,spy,rocchio… 步骤二：建立分类器通过迭代建立一系列分类器只建立一个分类器传统方法存在的问题启发式样本标注中,高准确率和高召回率不可兼得 1_DNF：将U中不含全部正例特征的文档看作反例高准确率，低召回率 PNLH：定义正例参考值(PRP)，将PRP值小于U集全部文档PRP平均值的文档当作反例低准确率，高召回率不同途径得到的标注样本的置信度不一致，传统方法不加区别的使用所有样本势必导致分类准确率下降基于置信度加权的领域文本判别法多策略样本标注算法自动标注尽可能多的样本，即在保证样本标注召回率的前提下，按照标注样本的置信度对样本集进行划分加权支持向量机算法为不同置信度的样本赋予不同的权重不同标注策略的样本置信度实验三级反例及基于置信度加权对分类性能的影响实验对比实验报告内容绪论论文主体领域文本自动判别相关技术研究领域术语自动抽取相关技术研究基于局部最大算法的中文新词发现基于统计量度的术语抽取方法领域术语抽取自助学习法在文本分类和问答式信息检索中的应用设计结论传统中文新词发现方法的缺点启发式特征+经验阈值难以筛选合适的全局阈值统一抽取新词机器学习方法训练时间较长基于局部最大算法的中文新词发现中文词语是关联强度较大、结合较为紧密的字序列高内聚性可独立运用性利用平摊对称条件概率(SCP_F)衡量字序列的结合力