SegWord项目技术规划.doc

下载文档 降价啦

2
0
约8.15千字
约 10页
2019-04-13 发布于天津
举报
版权申诉
保障服务

SegWord项目技术规划.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

SegWord项目技术规划.doc

SegWord PAGE 1 SegWord项目技术规划修订历史版本号日期作者修订细节审批人审批日期 0.1 2006-1-4 percylee 初稿 0.2 2006-12-24 percylee 修改、添加部分示例与说明；以注释方式表明部分最新调研与讨论的结果。项目介绍 ??? SegWord是一个开放项目（权利要求暂缺），由其小组成员进行开发维护，稳定版本软件（包括程序与文档）将公开在网络上供参考与交流。下面是其简单介绍（权利要求暂缺） SegWord为一个分词系统，满足：??? （1）分词??? （2）获得义性分布??? （3）词表自调整??? 三个目的。其中?（1）表明该系统可对汉语文本进行分词；这是这个系统的基本属性之一。但是，设计者认为不能为分词而分词，故本系统的研究重点为目的（2）和（3）。?（2）更广泛的看，分词的实质是“组合”，即由小结构组合为大结构并对结构的属性同时进行组合与变换。也就是说，分词不仅要给出词的分割，也应给出这种结构所对应的属性，例如语法词性，语义选项，未登录词属性等，本系统统称为义性分布。这是后续处理的重点依据。?（3）一般而言分词依赖于一定的词表。但是，词表本身若由人来提供，总是存在一定的应用局限。考虑机器学习的运用，寻找词表自调整——通过机器学习的方式来获得新词以及词语概念的新的义性——的方法与思路。这也是本项目的难点。例如，对于输入：这是一种烤制猪排、羊排和牛排的方法。希望经SegWord处理后，可以获得切分方式：这是 [一种] [烤制] [猪排] 、 [羊排] 和 [牛排] 的 [方法]。同时，各个词语单位的义性可以自动习得，如“烤制”是v，“牛排”是n，若词库中没有收录“羊排”，计算机可以习得这是一个和“牛排”近似的结构，经一定的策略可以对词库进行更新；最理想的情况下，可以习得“猪排”、“羊排”和“牛排”都是一种食物，且能表示和“猪”、“羊”、“牛”的关系。综上，本分词系统将是一个挑战，也是对中文信息处理进行突破的一种新尝试。为什么要做分词为什么要做分词？这个问题的第一层意思，就是分词的必要性，对于中文信息处理而言。由于NLUNLP学科的发展，其应用的便利性和紧迫性已经深入人心，如信息检索、文本分类、自动问答、自动摘要、信息过滤等，尤其是在互联网发展的带动下，广泛而深入的影响着人们生活中的各个领域各个方面。对于中文而言，这些技术的发展都依赖于中文信息处理的发展。而中文信息处理中，分词又是至关重要的一步。有论述见论文《汉语分词在中文软件中的应用》微软亚洲研究院见论文《汉语分词在中文软件中的应用》微软亚洲研究院我们知道，汉语的中文信息处理就是要“用计算机对汉语的音、形、义进行处理。” [1]，我们还知道，“词是最小的能够独立活动的有意义的语言成分。”[2] 然而，汉语文本中词与词之间却没有明确的分隔标记，而是连续的汉字串。显而易见，自动识别词边界，将汉字串切分为正确的词串的汉语分词问题无疑是实现中文信息处理的各项任务的首要问题。这个问题的第二层意思，就是在目前的环境下，分词已经是得到深入开展、有各种成熟成果和应用的项目，是否有必要继续提出SegWord一切从头开始做？虽然已有相关大学、研究院或商业公司在这个问题上进行了比较成熟的探索，行业中也已经有了比较成熟可用的分词软件，但我们认为分词仍然是留有大量问题的领域，对于中文信息处理而言，有些思路需要从分词开始探索。例如，我们给出如下问题：分词对于中文信息处理而言，不仅仅是一个预处理过程，或第一步。分词的重点不仅在分，给出词的词性标注、语义和语用属性的识别，同时在语言的动态处理过程中，要探索各个应用领域的不同理解要求下分词在“中文信息处理”的整体计算上具有什么作用，如何进行交互？例如，一个很生活化的中文句子：明儿天气如何？要下大雨吗？我们现有的分词系统可能会给出类似如下的结果：明儿天气如何？要下大雨吗？明儿天气如何？要下大雨吗？我们如果用它去做搜索，我们需要哪些信息？或者，我们若是做问答系统，那么又有哪些信息更重要，是关注的焦点？换句话说，语言的语义关系和语用环境如何影响这句话的分词与知识标注？所分之词对后续短语处理或统计模型的计算有什么影响？在知识表达的符号集上针对各种应用是否有个工程意义上的完备集合？诸如此类，分词如果孤立的去看，最终将会影响中文信息处理；事实上，我们更愿意把分词看作一个连续的、对整体有着深远影响的处理阶段：分词系统的设计应该基于这方面的考虑，反映这方面的成果。但目前，我们没有看到现有的分词系统在这个问题上有什么系统的考虑或进展