- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第 10卷 第25期 2010年 9月 科 学 技 术 与 工 程 Vo1.10 No.25 Sep.2010
1671—1815(2010)25—6300—05 ScienceTechnologyandEngineering ⑥ 2010 Sci.Tech.Engng.
从 Web网页上获取一价事件常识的方法
杨 帆 孙 强
(江苏科技大学,镇江212003;91206部队,青岛266108)
摘 要 一价事件是以一价动词为核心构成的事件。为了提高查询的智能性和准确性,尝试用一价事件设计描述 了从 《实习
词表》中挑选一价动词,根据 《一价动词表》设计Google查询项,根据Google查询项从Web网页上获取大规模的语料。用特征
提取方法从Web语料中抽取事件上下文中的相关词,根据相关词评价Google查询项的优劣,并进行调整。得到与一价动词相
关的因果逻辑 ,丰富查询项,从而提高查询精度。
关键词 特征提取 文本 信息检索 分词算法
中图法分类号 TP391.3; 文献标志码 A
特征抽取又称特征提取,是指模式识别中,对 征或特征项,而特征项必须具备一定的特性:
某一模式的一组测量值进行变换 以突出该模式具 (1)特征项要能够确实标识文本内容;
有代表性特征的方法。是一种提取有效信息的方 (2)特征项具有将 目标文本与其他文本相区分
法。特征,通常指传感器某一通道反射率测量值。 的能力 ;
与某一模式有关的特征数 目称为其 “维数”。特征 (3)特征项的个数不能太多;
抽取的 目的就是从噪音巾分离出有用的信息以及 (4)特征项分离要比较容易实现。
减少数据的维数,以简化分类器巾所进行的计算。 1.2 特征选取的方式
特征提取(FeatureSelection)通常根据某个特征评估 (1)用映射或变换的方法把原始特征变换为较
函数计算各个特征的评分值,然后按评分值对这些 少的新特征;
特征进行排序,选取若干个评分值最高的作为特征 (2)从原始特征中挑选出一些最具代表性的
词。特征提取的对象是海量 、异构、分布的文档 特征;
(Web)…;文档内容是人类所使用的自然语言,缺乏 (3)根据专家的知识挑选最有影响的特征;
计算机可理解的语义。目前有关文本表示的研究主 (4)用数学的方法进行选取 ,找出最具分类信
要集中于文本表示模型的选择和特征词选择算法的
息的特征,这种方法是一种 比较精确的方法,人为
选取上。随着网络知识组织 、人工智能等学科 的发
因素的干扰较少,尤其适合于文本 自动分类挖掘系
展,文本特征提取将向着数字化、智能化、语义化的方
统的应用。
向深入发展,在社会知识管理方面发挥更大 阼用。
随着网络知识组织、人工智能等学科的发展,
1 特征提取方法 文本特征提取将 向着数字化 、智能化 、语义化 的方
向深入发展,在社会知识管理方面发挥更大的作用。
1.1 特征项的特性 1.3 三种特征提取方法
基于表示文本的基本单位通常称为文本的特 1.3.1 基于统计的特征提取方法
这类型算法通过构造评估 函数 ,对特征集合中
2010年5月27日收到
文档评论(0)