基于网页结构特征的中文命名实体识别和关联算法.pdfVIP

基于网页结构特征的中文命名实体识别和关联算法.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于网页结构特征的中文命名实体识别和关联算法

%??算 机 应 用? 《自动化技术与应用 》?????年第 ??卷第 ?期? ?????????????????????? 网页是通过 ????结构创 建 的。而 ????结 构是? 类型 。地址 类型 ?和 ? 的识别相对 更为 困难 。考虑 到? 由很多 不 同的标 签 组成 的 ,????标签 可 以用 作实 体? 这两 种类 型 的地 址里 ,总是 会 出现建筑 ,公司 等组织 机? 间的 自然 分 隔符 ,用 于 确 定 实体 边 界有 用 的特 征 。 即? 构名 称 ,因此在处 理过程 中 ,本文提 出首 先利用 组织结? 使 无法 识 别 出一个 网页 中的 所有 实 体 ,但 是考 虑 到 实? 构名称 识别算法 队候选 地址进行 识别 ,以发现候 选地址? 体在 网站 级别 和互 联 网级 别 ??】的重复 性 ,也 可 以达到 相? 中出现 的组 织结 构名 。 同时检查 在 这些 识别 出 的机构? 当 好 的召 回率 。 识别 结 果 的 交叉 验 证 是有 可 能 的 ,而? 名 前 后 是否 出现 指示 性 的词 语和 位置 补语 。其 中一 些? 且 在 识别 过 程 中非常 关 键 。通 过结 果 的交叉 验 证 ,错? 预 定 义 的提 示性 词和 位置 补语列 在表 ?中。? 误 的识 别 结果 可 以通 过在 同一 页面 或者 不 同 页面上 的? 表 ?? 识别 类别 ?和 ? 型地址 时用 到的? 正确 识 别结 果 来校 正 。本 文提 出 的候选 生 成算 法通 过? 一 些 特 征? 两 步描 述 :? ● 将 网页通过 ????解析转化 为 ??? 树结构 ,? 指示 性 词? 地 处 、位 于 、地 址 、座 落?等等? 在 ??? 树 中 ,叶子节 点只保存 文本 内容 信息 。? 位置补语? 附近 、前面,后面,等等? ●? 对每一 个 叶子节点 ,将其 包含 的文本进 一步 通? 过标点 符号 进行分 割 ,得到 一个短语 序列 。每 个短语 会? 被考 虑成 一个 候选 实体 ,并 由识 别算法 进一 步处 理 。? ? 命名 实体关联算法? 经过 候选实 体生 成阶段 ,网页被 转化为 ??? 树 形? 一 个 网页可 以通过一颗 ??? 树表示 。命名实体识?

文档评论(0)

***** + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档