- 1、本文档共28页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第四章文本处理技术
* * * * 中文词法分析—歧义词切分 两种歧义结构 交集型歧义字段 研究生命的起源 研究/ 生命/ 的/ 起源 研究生/ 命/ 的/ 起源/ 组合型歧义字段 他从马上下来 他/ 从/ 马/ 上/ 下来/ 他/ 从/ 马上/ 下来/ 中文词法分析—未登录词识别 未登录词:未在词表中出现的词 人名、地名、机构名、时间、新词…… 歧义问题 “张朝阳”,“王国维” “邓颖超生前珍藏的书画作品” 未登录词的用字同正常用字混淆 “陈忠和率领的中国女排” “你到底是何居心” 中文词法分析—未登录词识别 解决策略 基于规则的方法 内部规律 中国人名:姓+名 地名:名+表示行政区的名称/自然地理实体的名称 外部规律 特定词语:人名+表明身份的称谓词 重复出现规律 基于统计的方法 中文分词系统实例—IRLAS 英文拼写检查——拼写错误 词语错误 Microsoft?- Mircosoft 语法错误 piece-peace 检索系统处理词语级拼写错误 为用户提供查询建议 英文拼写检查——拼写检查流程 形态还原 在词典中? N Y 正确 Word 在词典中? N Y 正确 相似度计算 修改建议 英文拼写检查——形态还原 形态还原 working, works, worked - work 去除词尾形态变化,还原为词的原形 原形≠词干 总结单词的形态变化规律,分别处理 动词的过去式、进行时、第三人称单数 名词的复数和所有格 形容词和副词比较级、最高级以及形容词转换为副词。 英文拼写检查——相似度计算 从词表中找出最相近的单词 距离越短,字符串越相近 计算字符串之间的相似程度 编辑距离:允许插入、删除和替代操作; 海明距离:只允许替代操作; Episode距离:只允许插入操作。 * * * * * * * * * * * * * * * * * * * * 信息组织、存储与检索 信息组织、存储与检索 信息组织、存储与检索 信息组织、存储与检索 信息组织、存储与检索 信息组织、存储与检索 信息组织、存储与检索 信息组织、存储与检索 信息组织、存储与检索 信息组织、存储与检索 信息组织、存储与检索 信息组织、存储与检索 第四章 文本预处理技术 语言问题 日语中同时使用多种类型的字母表 阿拉伯语通常从右到左书写,但是某些部分(如数字)是从左到右书写 ← → ← → ← 开始 ‘Algeria achieved its independence in 1962 after 132 years of French occupation.’ フォーチュン500社は情報不足のため時間あた$500K(約6,000万円) 片假名 平假名 汉字 罗马字母 英文词法分析 Tokenizer 词条流 Friends Romans Countrymen Linguistic modules 修改后的词条 friend roman countryman 待索引文档 Friends, Romans, countrymen. 词条化工具 语言分析工具 Indexer 倒排索引 friend roman countryman 2 4 2 13 16 1 英文词法分析 文档 重音符号或空格等 停用词 名词或词组 词干 自动或人工标引 结构识别 文本 结构 文本 +结构 全文本 标引词 文档逻辑视图:从全文文本到标引词集合 英文词法分析——断词(word tokeniztion) 断词也成为词条化 把文本字符序列转换为单词序列的过程 输入:Friends,Romans,Countrymen,lend me your ears; 输出:Friends Romans Countrymen lend me your ears 词条与词项 (Token VS Term) 对“to sleep perchance to dream”进行索引 词条为:to sleep perchance to dream 词项为: sleep perchance dream 断词——数字 考虑查询1978到1989年间车祸的死亡人数,数字不适合做标引词; 一些和字符组合的数字,如“510B.C.”,还有一些长数字,如身份证号、手机号,可能是非常好的标引词; 处理办法: 所有数字都去掉; 引入规则进行分析,包括对时间的识别和归一化,如:October 1978,Oct. 1978都要归一化成某个统一表。 断词——连字符 有些连字符中的词可以分开,如state-of-the-art变成
您可能关注的文档
最近下载
- 建筑施工企业如何加强工程造价管理 论文.doc VIP
- 课题申报书:异质性劳动力配置、技术空间扩散与资本跨区域流动研究.docx VIP
- 课题申报参考:基于汽车供应链绿色转型的协同机制设计与政策优化研究.docx VIP
- 2024年度民主生活会学校党总支书记对照检查材料.docx VIP
- 2025年鲜花市场分析及未来发展趋势报告.docx VIP
- 基于深度学习的实时手势识别方法及系统.pdf VIP
- 2025年中华传统文化知识竞赛试题库100题及答案(精品) .pdf VIP
- NFPA 72-2022 国家火灾报警和信号代码(中文翻译版).pdf VIP
- 2013_年甘肃省建筑与装饰工程预算定额.doc
- 2024年长沙民政职业技术学院单招数学考试试题及答案解析.docx
文档评论(0)