- 1、本文档共45页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文网页褒贬态度的机器评价 导师:俞士汶教授,孙斌副教授 硕士毕业生:苏玉梅 2004年5月 硕士学位论文答辩 中文网页褒贬态度的机器评价 引言 相关工作与工作基础 网页褒贬态度评价模块 实验结果及展望 引言 天网知名度系统 网页观察-机器评价视角下看中文网页类型 项目延伸-网页褒贬态度的机器评价 本实验的研究内容及意义 天网知名度系统 基础:天网搜索引擎,计算语言学技术 定位:用户定制查询,个性化网络检索服务 数据:75万中文网页,近300个名人实体 注册实体信息库 引言 天网知名度系统 网页观察-机器评价视角下看中文网页类型 项目延伸-网页褒贬态度的机器评价 本实验的研究内容及意义 网页观察-机器评价视角下看中文网页类型 强文字相关的信息类网页例如:个人简历型网页 弱文字相关的事件或事物展开型网页例如:事件报道,节目单 引言 天网知名度系统 网页观察-机器评价视角下看中文网页类型 项目延伸-网页褒贬态度的机器评价 本实验的研究内容及意义 项目延伸-网页褒贬态度的机器评价 网页是传递信息的。从效果上看,人们通过构建网页来传递信息,也可以进而表达态度和传递情感——即,网页所包涵的褒贬态度信息。 网页褒贬评价关系分析图 引言 天网知名度系统 网页观察-机器评价视角下看中文网页类型 项目延伸-网页褒贬态度的机器评价 本实验的研究内容及意义 本实验的研究内容及意义——项目延续 符合天网知名度系统个性化网络服务的立意 可以利用已有的数据基础和实验平台 此项实验具有研究和实验展开的可延续性 本实验的研究内容及意义——语言基础 网络是重要的信息传播媒介。 现实网页中的褒贬态度表达往往含有明确的目标、动机和效果期望,因此构造者会很重视语言知识这个交流手段。 网页中的褒贬态度表达也就是一个典型的修辞行为,所以实验可以充分利用修辞学的理论成果,具有理论指导基础。 本实验的研究内容及意义——创新价值 从语言学角度看,修辞涉及语言的附加意义,这区别于概念意义。因而此项实验具有丰富创新性研究价值。 中文网页褒贬态度的机器评价 引言 相关工作与工作基础 网页褒贬态度评价模块 实验结果及展望 相关工作与工作基础 语言手段 评价规范及标准 资源准备 系统基础 实验考察 实验考察与实验资源的对应分布 相关工作与工作基础 语言手段 评价规范及标准 资源准备 系统基础 资源准备 基础褒贬义词典 典型网页文本搜集 领域补充褒贬义词集 褒贬评价模板搜集 基础褒贬义词典 《常用褒贬义词语详解词典》 静态褒义、贬义词语,包括双音词,成语,惯用语,以及少数谦辞、敬辞。每个词条包括三部分内容:褒贬色彩,词性,释义,例句等;提示,重叠形式,同义解析等;近义,反义等。 仅选取了每个条目中的两项信息,例如(诚挚 +)和(草率 -),生成了褒贬评价系统使用的褒贬义电子词典。 典型网页文本搜集 典型网页文本示例 领域补充褒贬义词集样例 褒贬评价模板搜集样例 相关工作与工作基础 语言手段 评价规范及标准 资源准备 系统基础 天网知名度系统 天网知名度系统模块浏览 用户界面模块 用户注册 用户检索 指定文本内容的评价 主动推送服务 网页分析与索引模块 用户信息维护模块 网页相关度评价模块 中文网页褒贬态度的机器评价 引言 相关工作与工作基础 网页褒贬态度评价模块 实验结果及展望 网页褒贬态度评价模块 数据需求 数据需求 设计思想 语言手段是基础 话题的实体有关性 针对领域标准的褒贬评价 注:网页褒贬评价流程图 褒贬结构要素 褒贬结构识别模板表达式 U=A+P U=B+P U=C+P U=D+P U=A+A+P=F+P U=A+C+P=G+P U=A+D+P=H+P U=P U=P+E C=“和”|“与”|“,”|“、”|“且” P=W{+C+W2} 关键结构P p结构是褒贬结构的基本组成部分 识别策略是:使得由链接词语链接在一起的词序列中不允许出现褒贬互逆,同时需要满足,仅当词语本身具有褒贬含义,或者W本身不在褒贬词典中但该序列中其他词语有褒贬含义,此时才形成合法的P,同时把未在褒贬词典中出现但出现在结构中的这个词语抽取出来,并依照此序列中的已有褒贬含义按照一致性原则猜测,把这个未登录词语纪录为未证褒贬词语。 注:考虑到褒贬评价的领域性,这里的未证褒贬词语也是根据领域来分别记录的。 中文网页褒贬态度的机器评价 引言 相关工作与工作基础 网页褒贬态度评价模块 实验结果及展望 实验结果及展望 成批网页褒贬评价结果浏览 7 指定内容褒贬评价浏览7/test.htm 结果浏览示例实体 结果浏览示例实体 改进方向 更精细的褒贬评价模板(内容、
文档评论(0)