- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
附件4-市州信用门户网站信息发布规范 - 湖南省发改委
附件4:
一、制定背景
信用湖南门户网站的地市动态主要来源于各市州信用平台子网站。省级信用门户网站整合湖南省各市州信用子网站内容的手段主要有网上抓取、信息报送和网站链接等方式。其中网上抓取是“信用湖南”门户网站从各级子网站获取内容的主要方式之一。
网上抓取所面临的问题是,市州信用子网站缺乏统一的内容格式规范,网站内容的变动缺少统一格式的索引,不利于采集工具自动抓取和分析信息,部分属性缺少或不易准确提取。为了更准确地采集和分析下属子网站的信息,需要规范网站的页面内容格式,并为网站内容的变更添加统一的索引。市州子网站按照统一要求经过规范化设计后,信用湖南门户网站可以通过内容整合系统准确地实现网上信息自动抓取。
网站内容整合:本规范所指的网站内容整合,仅限于对湖南省各市州信用子网站发布的底层静态网页内容的抓取,不包含对信用信息发布、信用信息查询等应用服务系统中数据内容的整合。
RSS标准:RSS(“Rich Site Summary”或“Really Simple Syndication”的首字母缩写)中文称作“简易信息聚合”,是信息聚合的国际标准。
内容变更索引文件:记录网站每个小时内容变更情况的XML文件,标准格式为HNCREDIT_RSSYYYYMMDDhh.xml。当网站内容发生增、删、改等变化时,该时段的内容变更索引文件将同步更改。
本规范围绕信息采集和网页分析功能,在保持现有网站建设模式、不增加信息通道的前提下,使符合规范的网站发布的网页内容可被“信用湖南”门户网站内容整合系统自动识别、采集,并实现网页属性信息和内容字段信息的自动引用,最大限度减少人工介入。
本规范结合“信用湖南”门户网站内容整合系统,实现以下目标:
1、及时发现并收集网站的信息变更情况;
2、准确分析网页属性信息;
3、准确定位内容信息;
4、实现门户网站与子网站之间内容的自动同步;
为了实现上述目标,本标准制定了四方面条款,具体含义和作用说明如下:
1、内容字段信息规范:要实现内容整合,首先应明确每一类信息内容必须包含的字段,以及各字段所定义的各项内容的书写规范,确保内容的完整和格式的统一;
2、内容字段标注规范:对信息内容按规定的字段进行标注,使内容整合系统在抓取信息后,能将各字段下的信息准确定位到市州信用子网站对应网页的对应区域;
3、页面属性标注规范:一个内容网页中包含着标题、正文、作者、发表日期、正文、来源、唯一标识等基本属性,如果没有格式规范,内容整合系统很难确分析这些信息。通过制定统一的格式规范,可以实现网页属性信息的准确提取,并为分类检索打下基础;
4、索引文件发布规范:用于标记网站单位时间内信息变更情况,通过对索引文件的分析,可以使内容整合系统程序判断哪些内容需要抓取,并获得这些内容的链接地址。
本规范适用于湖南省各市州信用子网站,信用湖南门户网站内容整合系统将全面支持本标准,实现对符合标准的信用子网站的准确数据采集。
具体类别及内容界定如下:
机构设置:市州信用机构名称、联系方式、工作职能等;
法规文件:市州有关信用的法律、政府规章、规范性文件;
讲话文论:市州信用机构领导发表的重要讲话与文章;
规划公报:市州出台的或关于本市州信用的发展规划、政府公报
动态信息:市州发生的关于信用的重要动态信息;
公告公示:市州信用机构公开发布的公告或公示信息;
本规范结合了RSS标准的基本规则与信用湖南门户网站信息内容的特性。实现规范的基本方法是,在网页HTML中,嵌入特定意义的标识信息,用于标注各项有意义的内容,这些嵌入的标识信息采用HTML的meta和特殊注释语句置标,在实现属性标注功能的同时,不影响网页的显示效果。
构成网页的HTML文件逻辑上可以分为内容(Content)和页面展示(Style)两部分,内容部分包括网页的标题、日期、正文、作者等数据元素,它决定了网页所包含的信息;页面展示部分包括每个元素的位置、字体、大小、颜色等,它决定了网页在浏览器中的显示效果。HTML文件能够将内容和页面展示有机地结合为一体。
本规范的制定主要从网页内容标注入手,从内容层面对网页进行标注,而忽略页面展示层面。具体方法是,利用HTML文件的特性,在不影响网页展示效果的前提下,加入各类属性置标,规定网站发布内容必须包含的信息。例如,在网页中标注网站信息、栏目信息、标题、日期、作者、来源等元数据内容,从根本上保证其它应用对该网页属性的准确识别和提取。
6.1内容字段信息规范
说明:为第4部分“适用对象”中规定的信用信息定义基本的内容字段和信息填写格式,各子网站发布的相应内容,必须包含该类别的基本字段,并按规范格式填写。
用途:保证子网站与“信用湖南”门户网站内容的一致性,保证被整合的各类内容包含了门户网站所需的基本信息,且内容格式统一。
各信息类别包含的基本
您可能关注的文档
- 课堂达标争先锋.ppt
- 课程成绩查询 - 东财在线.doc
- 课题 第三单元复习1 课型 新授 课时 1课时 教学目标 认知目标 1概述 .doc
- 节能减碳,从“小”做起.ppt
- 请于比赛当天报到时缴交剧本6份(纸本) - 新化国小.ppt
- 诸葛亮和小皮匠().ppt
- 课题结项汇报.ppt
- 调查研究方法 - 云南师范大学实践教学平台.ppt
- 课程补充资料林瑞珍老师.doc
- 读秀学术搜索讲解.ppt
- 附件8:初审通过棉花品种简介 - 中国种业信息网.doc
- 附件2:设计资格预审文件和招标文件 - 遵义市公共资源交易中心.doc
- 附件三、科研减免税 - 电子科技大学计算机学院.ppt
- 附件二 - 金门县政府教育处.doc
- 附件二105-2学士班转学生、硕士班提早入学生注册 - 南华大学教务处.doc
- 附件3: 安全生产事故隐患排查检查指南 (危险化学品生产企业) 企业 .doc
- 附件(共2页) - 浙江政府采购.doc
- 附件: - 常州市技术创新网.doc
- 附件3、2017年农村危房改造项目绩效目标申报表 - 福建省住房和 .doc
- 附件: 中标标的基本信息: 项号 货物名称 生产厂家、品牌、规格型号 .doc
最近下载
- 全国计算机等级考试教程二级WPS Office高级应用与设计:为演示文稿添加效果PPT教学课件.pptx VIP
- 2023中国铁建股份有限公司所属单位岗位合集笔试备考题库及答案解析.docx VIP
- 中职物理考试题及答案.doc VIP
- DB21∕T 2449-2015 地理标志产品 西丰柞蚕丝.docx VIP
- 《居住空间设计》中级-多选230题(答案版).pdf VIP
- 智慧树 知到 大学生劳动就业法律问题解读(2024最新版) 章节测试答案.docx VIP
- 2025年菊花种植市场调查报告.docx
- 事业单位考试马克思主义哲学试题300道.pdf VIP
- 外墙保温及涂料施工方案样本.doc VIP
- 施工升降机基础及附着施工方案.docx VIP
文档评论(0)