- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第29卷第4期 阜阳师范学院学报(自然科学版) Vo1.29.No.4
2012年 l2月 JournalofFuyangTeachersCollege(NaturalScience) Dec.2O12
基于共现词对的文档表示方法研究
史 科 ,宣国庆
(1.安徽广播电视大学省直分校,安徽 合肥 230001;2.合肥市庐阳中学 ,安徽 合肥 230041)
摘 要:提 出一种新的文档表示模型——基5-~E#J对的向量空间模型。模型以文档中共现的词对为基本考察对象,
通过统计学特征选择有代表性的词对来表示文档。基于覆盖算法的文本分类实验表明此模型有较强的文档表示效果,为
文本 自动化处理提供 了一条新思路 。
关键词:共现词对;文档表示;向量空间模型;特征选择
中图分类号:TP391.1 文献标识码 :A 文章编号:1004-4329(2012)04-060-04
Research ondocumentrepresentati0nbasedon
wordCO.occurrencemodel
SHIKe ,XUAN Guo—qing
(1.ShengzhiBranchSchoolofAnhuiOpenUniversity,HefeiAnhui230001,China;
2.He
. feiLuyangMiddleSchool,HefeiAnhui230041,China)
Abstract:Anewdocumentrepresentationmodel,avectorspacemodelbasedonwordCO—occurrence(VSMBWC)ispresen
tedinthisarticle,whichusestheco—occurringwordpalrsasthebasicinspectionobject,andselectstypicalwordpairstorepresent
documentinstatisticalmethod.Thetextclassificationexperimentsbasedoncrosscoveralgorithm show thatthismodelisbetterin
documentrepresentation,andprovideanew wayofthinkingfortextautomaticprocessing.
Keywords:wordCO—occurrence;documentrepresentation;VSM;featureselection
文本是信息的载体,现今社会信息呈爆炸化, Text)等。很多文献对于上述的选择方法进行了比
海量的信息充斥f网络,如何 自动化的对其进行归 较 ,通常情况下认为信息增益、互信息以及 x2
类、检索则表现的越来越重要。怎样在算法里表述 (CHI)效果要相对较好。
文档,是整个研究的基础,目前广泛使用的是向量 但由于VSM的考查是 以词为基础,单个的词
空间模型 (VectorSpaceModel,VSM)…。VSM 以 往往不能表述完整的意思,人类通常使用连续的词
词为基本考察单位,以词的出现频率 (或以词频为 组来表述完整的意图。在此思路下我们考虑到_『
基础的改进方法)为度量方法来描述文档。模型简 能否使用词组来表述文档 。综合考量多种方法后,
单,容易实现,在文本分类、检索等相关领域已经获 我们认为以一对词(2个)为基本单位相对合适,由
得广泛应用,也取得了不错的实验结果。文本分类 此引人词共现模型 。共现模型是一种统计方法
中经常使用的特征词选择方法有文档频率(Docu— 的自然语言处理研究领域的重要模型。词共现模
mentFrequency)、信息增益 (InformationGain) 、 型最早是应用于信息检索领域,它是基于这样的一
您可能关注的文档
- 月季遗传背景研究进展.pdf
- 轧机液压压下系统的综合分析及应用.pdf
- 战略转型期的宁镇扬新质旅游资源整体开发研究.pdf
- 站在学生身后的老师——美国课堂的启示.pdf
- 正极添加剂和固化条件对正极板结构的影响.pdf
- 正确看待和处理转型期的社会矛盾.pdf
- 支重轮中频淬火表面开裂的原因分析.pdf
- 植物导管和维管束标本的制作新方法.pdf
- 植物间种强化根际修复PCB NO.14污染土壤的研究.pdf
- 植物抗病激活剂的研究与开发.pdf
- 隐形变异作风问题的检视与整改培训讲座PPT课件.pptx
- 内蒙古自治区赤峰第四中学2023-2024学年高二下学期5月期中物理试题 含解析.docx
- 内蒙古自治区巴彦淖尔市第一中学2024-2025学年高一下学期4月期中考试 物理 含答案.docx
- 内蒙古自治区赤峰市第四中学2024-2025学年高二下学期4月月考试题 物理 含答案.docx
- 内蒙古自治区鄂尔多斯市达拉特旗达拉特旗第一中学2023-2024学年高一下学期7月期末考试物理试题 含解析.docx
- 新修订《代表法》五大亮点解读.pptx
- 幼儿园夏季防暑降温安全课主题活动PPT课件.pptx
- 2025年宜明昂科分析报告:CD47融合蛋白安全性及疗效优秀,市场空间广阔.pdf
- 2-数学_数学答案.pdf
- 幼儿园小学端午节习俗文化教育教学主题班会PPT课件.pptx
文档评论(0)