面向电子交易的商品供应信息抽取模型.docVIP

下载本文档

2
0
约4.48千字
约 7页
2017-08-15 发布于重庆
举报
版权申诉

面向电子交易的商品供应信息抽取模型.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

面向电子交易的商品供应信息抽取模型.doc

摘　要: 随着互联网的普及和电子商务的发展，形成了大量的商品供应信息资源。从企业门户网站和电子市场的海量商品网页中抽取出供应信息资源，是电子交易迫切需要解决的问题。在分析信息抽取过程和商品网页结构的基础上，构建了基于网页DOM树的商品供应信息抽取模型。该模型由网页采集层、HTML文档解析层、信息抽取层和结果处理层组成，并重点对信息抽取层的抽取规则进行了探讨。关键词:电子交易;信息抽取模型;DOM;电子商务 Abstract: With the development of Internet and electronic commerce， there exists tremendous of product supplying informationresources. The crucial problem ofelectronic trading is the ability to extractuseful resources from the huge productpages ofenter prises portal and electronicmarketplaces. Based on the analysis of information extraction process and the structure ofproductwebpage， a product information extractionmodelbased onDOM tree is established. Thismodel is composed by page gathering layer，documentparsing layer， information extracting layerand resultprocessing layer. And the extraction rules of information extractinglayer is highlighted. Key words:electronic trading; information extractionmode;l DOM; electronic commerce 图1　商品信息抽取模型 1.3　HTML文档解析层 HTML文档解析层主要功能是将采集到的HTML文档解析成网页DOM树。该层由XHTML文档生成器和DOM树构造器这2个部分构成。XHTML文档生成器的作用将HTML文档转换为XHTML文档，并传递给DOM树构造器。如将换行标记“img”转换为“img /”，又如将“p重点段落em段落. /p/em”转换为嵌套正确的元素“p重点段落em段落/em. /p”。XHTML是XML的一个子集，文档转换作用可按照XML解析规则对HTML文档中的各个元素进行访问。DOM树构造器的作用是利用XHTML文档构造一个DOM树。DOM是W3C建立的一个API标准，通过这个API，应用程序可以任意访问和更改XML文档中的元素和数据[5]。DOM树是一个对象化的XML数据接口，一个与语言无关、与平台无关的标准接口规范，它定义的XHTML文档的逻辑结构，给出了一种访问和处理XHTML文档的方法。DOM树结构简单清晰，意义表述明确。它展现XHTML层次化的文档结构，将XHTML语言里面的标记(TAG )作为DOM树的节点，形成一种层次化的DOM树。 1.4　信息抽取层信息抽取层以文档解析层传递过来的网页DOM树和抽取规则库中的规则为输入，利用抽取规则对DOM树所有节点进行遍历匹配，找到符合规则的节点后，读取该节点对应元素的值即为对应的信息抽取结果。这一层是整个信息抽取模型的重点。 1.5　结果处理层经过信息抽取层处理后会得到结构化的数据，结果处理层的作用是根据用户需求对这些结构化数据作后续处理。比如过滤这些信息并提高它们的结构化，即结构合成;或者采用数据库方式进行存储，即数据存储;或者实施查询从而获得用户感兴趣的相关信息，确保数据准确，即数据挖掘。处理后的最终结果可作为电子交易系统中的交易信息使用。 2　基于DOM树的抽取规则 2.1　商品供应信息网页及DOM树商品供应信息网页一般出现在企业门户网站的产品展示栏目中或电子市场的供应信息中，如图2所示。该页面显示了某公司的一个办公家具网页的格式，将商品信息整体称为该网页中的客户感兴趣的信息块，即商品供应信息块。在该信息块中，包含商品名称、型号、规格、说明、价格和商品图片等信息，称为信息块的信息属性域。图2中的信息块处于网页中相对固定的位置，信息块内部的属性域有较一致性的结构，它们之间也具有语义上的关联性[6]。在网页的展现上，处于同一个信息块内的各个属性域，结