- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于结构与内容的网页主题信息提取研究.ppt
基于结构与内容的网页主题信息提取研究 作者:吴鹏飞,孟祥增,刘俊晓,马凤娟 主要内容 前言 相关研究工作 系统分层流程图 映射表 网页结构分析 网页内容分析 实验结果 总结 * * 2006-7-21 山东师范大学传播学院 宣讲:吴鹏飞 邮箱:wupengfei_2000@163.com 前言 导航区 交互区 主题标签区 主题文本区 噪音区 相关研究工作—网页结构分析 * DOM网页标记树法 * 页面显示实体坐标位置法 * 基于映射表的网页结构内容分析法 提取层 识别层 分割层 解析层 顺序读文件 映射表 结构聚类 网页区域 解析器 区域特征提取 启发式规则 区域识别 语义区域 内容量化 滤除噪音 网页主题信息 网页主题信息提取分层流程图 HTML文档映射表主要是对头部和主体部分中文本条映射,即 头部映射、文本条内容映射、文本条属性(视觉、结构、语义)映 射。对HTML文档提取关键信息从而生成关于HTML文档的内容属 性映射表,即:f(Di ,i∈n)→Ti ,i∈n,其中Di为HTML文档集 ,Ti为对应的每个文档的内容属性映射表。 HTML网页映射表 表1 HTML网页映射表 Tab.1 Mapping table of HTML page 类型 字段名称 描述 头 ? 部 Title 网页标题 Keywords 关键词 Description 网页内容描述 ? 文 本 条 属 性 TextAtrributeId 属性标识号 TextStructure 文本条结构 TextIsAHref 有无超级链接 TextCharCount 文本条内字符的个数 TextCharFontType 文本条内字体的类型 文 本 条 内 容 TextContentId 文本条内容标识号与属性标识号一致 TextContent 文本条内容 TextAHref 文本条超级链接 HTML网页映射表 网页结构分析—结构生成 网页结构生成方法及表示形式 * 基于栈的网页结构生成方法 * 语义字符串分级表示 如A23123,其中A表示主体BODY中第一个表格TABLE,如果网页中还有其他同层次表格分别记为B,C,D等,2、3分别为第一个表格的内嵌行标记TR、单元格标记TD;1表示第一个表格A的嵌套表格,2、3分别为嵌套表格行标记、单元格标记。 ``` 网页结构分析—区域分割 ID 网页结构 网页内容 8 首页 9 关于我们 10 荣誉证书 11 产品展示 21 C23123123123 产品列表 22 C23123123123 摩托罗拉 23 C23123123123 诺基 24 C23123123123 索爱 51 C23123123123123 产品名称:三星SGH-W219 52 C23123123123123 产品型号:三星SGH-W219 53 C23123123123123 产地: 54 C23123123123123 付款方式:3860元 网页区域特征 根据网页的区域结构布局特征,设页面P=(A1,A2…An),其中网页区域Ai=(TextItemi1,TextItemi2 …TextItemij),TextItemij=(TextAbttributeMap,TextContentMap),TextAbttributeMap为文本条的结构、视觉和语义属性映射,TextContentMap为文本条内容映射。 在一个网页内,每个区域可以用5个变量来表达其语义特征: CountRatio:区域内有链接与无链接文本条内字符总个数的比值 LinkAvgCount:有链接文本条内字符的平均个数(均值) FormalDegree:字符的方差(方差) AvgCountDiff:无链接与有链接文本条内字符平均个数的差值 CharMaxCount:区域内文本条字符的最大个数。 启发式规则 IF CountRatio2 AND LinkAvgCount=6 AND FormalDegree=2 THEN Ai为导航区 ELSE IF CountRatio0.5 OR(0.5=CountRatio=2 AND CharMaxCount=15 AND AvgCountDiff=5) THEN Ai为
您可能关注的文档
最近下载
- 2024离心球墨铸铁管管模通用技术条件.docx VIP
- 交替传译实践教程(上)习题参考答案.pdf VIP
- 《施工企业安全生产管理规范》GB 50656-2019知识培训.pptx VIP
- 2025年中国低氧训练设备行业市场发展监测及投资前景展望报告.docx
- 2025最新高三英语高考高频短语搭配1000组.docx
- 2025至2030中国活性炭行业市场深度研究及发展前景投资可行性分析报告.docx VIP
- 农村基层医生的职业素养与医德医风建设.pptx VIP
- 2025年合肥科技农村商业银行校园招聘48名笔试参考题库附答案解析.docx VIP
- 2025金属型离心球墨铸铁管管模使用维护保养规则.docx VIP
- ERP,MES统介绍.pptx VIP
原创力文档


文档评论(0)