- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于web房地产行业信息检索系统
基于web房地产行业信息检索系统
摘 要: 为适应房地产行业信息化发展的需要,在各地方政府商品房网上备案系统的基础上,使用基于模式的web数据抓取、基于XML协议的DOM数据解析、通用联动翻页抓取等方法和技术,设计实现基于商品房网上备案系统的房地产行业信息检索系统,实践应用表明,该系统能够为政府行业主管部门以及房地产企业提供全面准确的数据支持,促进行业决策的科学化和信息化的发展。
关键词: 房地产;备案系统;模式数据抓取;AJAX
中图分类号:TP393.9 文献标识码:A 文章编号:1671-7597(2011)1020174-02
0 引言
近年来,房地产行业在国民经济中的作用越来越重要,对经济和社会各方面影响越来越大。信息的准确及时对于政府市场调控、房地产企业决策具有重要意义。房地产行业信息主要来源于人工的搜集和房地产主管部门及统计机构固定的统计数据,在实际运用中还存在一些不足:1)信息反映不全面、不充分,比如,只有总量数据没有结构数据、只有增量数据没有存量数据;2)数据存在滞后性,满足不了行业决策支持的需求,不能全面、准确把握和判断市场形势变化。为此,利用web数据挖掘与集成技术,开发了基于商品房网上备案系统的房地产行业信息检索系统,并房地产行业的政府部门和开发企业推广应用,取得了显著的社会经济效益,促进了行业信息化的发展。
1 构建房地产行业信息检索系统的可行性
为保证房地产交易的公开、透明与安全,规范开发商的行为,避免商业欺诈行为的发生[1],各地房地产管理部门普遍采用商品房网上备案系统(以下简称备案系统)实现增量房(即新建商品房)和存量房(即二手房)销售合同网上备案监管,包括新建商品房的网上发布、查询,合同的签订、审核、备案和跟踪监管,存量房的挂牌管理、合同备案监管等[2]。房地产交易的数据通过备案系统实时在互联网上发布,只有在备案系统中登记的商品房交易才是合法交易,这一特征决定了备案系统中数据的准确性。房地产交易的确定是以开发商或其销售代理公司将销售信息在备案系统中网签,并由备案系统自动生成销售合同为标志的,这一特性决定了备案系统中数据的实时性。备案系统的使用如图1所示:
图1 备案系统使用示意图
目前没有全国统一的网上备案系统,已建备案系统的城市建成的系统各具特色,包括数据格式、软件开发平台、软件开发公司等各方面都截然不同,短期内不存在整合联网的可能。同时由于互联网的开放性以及国家政务公开的要求,备案系统的数据可以使用技术方法合法得到,因此有必要开发基于商品房网上备案系统的房地产行业信息检索系统,收集整合各地实时房地产交易信息,以强大的房地产信息数据库为基础,为决策者提供宏观、中观、微观三个层面的房地产综合利用平台,全面、精准、即时监测中国城市房地产市场的变化趋势。
2 系统总体设计
备案系统信息检索系统通过指定特定城市备案系统的网址、数据特征、数据更新频率等基本参数,周期性地获取该城市房地产交易数据,包括预售许可、房屋销售状态等,交易数据存入数据库,为信息发布、统计分析提供基础。系统由模式维护系统、网页联动系统、数据抓取系统、数据更新系统、运行设置系统5个子系统构成,如图2所示:
图2 系统功能模块划分
各子系统功能如下:
1)模式维护系统
设置、修改各城市备案系统的检索抓取模式,包括模式的录入、修改、删除、查询。
2)网页联动系统
控制各城市备案系统网站上的网页自动翻页到指定页面,包括网址顺序联动、JS脚本联动、JS脚本重定位联动、浏览器联动等。
3)数据抓取系统
备案系统信息采集,包括各类网页数据的提取、文件处理、数据导入导出等。
4)数据更新系统
备案系统更新数据处理,包括新增数据、修改数据、校验数据、自动匹配、统计分析、信息发布等。
5)运行设置系统
设置系统运行的状态及参数,包括网络设置、多进程设置、网址过滤设置、断点续抓设置、异常控制设置等。
3 系统关键技术的实现方法
3.1 基于模式数据抓取和集成方法
不同网站采用网页结构不同,数据结构也不相同,模式设定的目的是要统一不同网站的数据结构,采用统一的结构去识别不同的网站数据,通过归纳学习网页的属性特征设计出表格特征模式库,基于该特征模式库解析出表格的结构层次,而后与解析结果进行匹配,抽取出有用数据,并设计链接队列实现跨页批量地抽取不同页面上的表格数据,从而大大提高了系统的健壮性和实用性[3]。模式的主要内容包括网站的省份、城市、数据种类、网站网址、特征标志、保存字段、字段保存结构、保存文件名称、以及最后补充数据完整性等,根据每个备案系统网站数据特征进行设定,参数的内容保存在模式参数
您可能关注的文档
最近下载
- 2025【房地产企业财务风险与应对研究案例—以华夏幸福为例15000字(论文)】.doc
- 2025届浙江省杭州二中、湖南省长郡中学、江苏省南师附中高考模拟考试高三英语试题(含答案与解析).pdf VIP
- 城镇道路工程施工与质量验收规范CJJ1-2008验收表格_精品.pdf VIP
- WOLONG卧龙 WD100系列低压变频器使用说明书.pdf
- 考研高数【数学一】(默写版) .pdf
- 专题 勾股定理与全等三角形的综合运用( 基础题&提升题&压轴题 )(解析版).docx VIP
- 2024年版 手术室护理实践指南.docx VIP
- 文学理论期末考试试题库整理.pdf
- 1例腰椎椎管狭窄症合并糖尿病患者的围手术期护理体会PPT课件.pptx VIP
- 潜水泵伽利略Galileo用途连接方式结构图及价格.pdf VIP
文档评论(0)