基于多源数据匹配的企业实体信息抽取系统.docVIP

下载本文档

3
0
约2.96千字
约 5页
2018-04-07 发布于北京
举报
版权申诉

基于多源数据匹配的企业实体信息抽取系统.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于多源数据匹配的企业实体信息抽取系统　　摘要：当今社会，随着互联网的飞速发展及其网上用户的增多，网络上可访问到的各种信息数据也在呈现指数级增长。如今，互联网已经发展成为一个全球性的、海量的、分布和共享的信息的一块公共空间，正成为人们日常生活的一个不可或缺、极其重要的组成部分。　　关键词：网络；数据匹配；企业管理　　中图分类号：TP391 文献标识码：A文章编号：1007-9599 (2011) 05-0000-01 　　Business Entities Information Extraction System Based on Multi-source Data Matching 　　Lin Kan 　　(School of Software Engineering,Tongji University,Shanghai201804,China) 　　Abstract:Todays society,with the rapid development of Internet and online users increases,the network accessible to all kinds of information data is also growing exponentially.Today,the Internet has developed into a global,mass,and the distribution and sharing of information,a public space,everyday life is becoming an integral and very important part. 　　Keywords:Network;Data matching;Business management 　　一、维度匹配模型的建立　　声誉是指企业的信誉，资质和认证等。在通常情况下，我们去了解一家企业，是从它的声誉开始的。为此我们可能需要花费非常多的时间，并且有时候我们可能还无法得到真实的数据。　　位置信息是指企业的地理位置信息。这里的位置信息可以包括以下几个部分：1.企业总部所在地。2.企业分工所在地。3.企业生产所在地　　企业类型是一个企业的重要属性之一。它包括企业的产品信息以及经营范围信息等信息。　　二、原型系统的设计　　这部分需要研究的内容包括公有数据获取的方式，公有数据的抽取方式以及私有数据和公有数据的整合方式。　　1.公有数据的抽取方式：通过网络公开的API抽取互联网的公开信息获取公有数据。2.公有数据的处理方式：对获取的公有数据进行加工处理，选出有价值的信息。这部分主要通过API来进行，另外人工也会定义一些标准，辅助处理。3.私有数据和公有数据的整合方式：对加工处理后的公有数据与私有数据进行整合。　　原型系统主要分为以下几个部分：　　1.数据抓取模块。数据抓取模块主要指抓取网络上的数据模块。此模块主要通过Google Custom Search API来进行网络内容的抓取，由于原型系统是属于电子商务领域的，所以需要根据其特点进行定制化。其设计及实现将在后文详细阐述。2.数据结构化模块。数据结构化模块主要是指将非结构化，半结构化的数据进行结构化。此模块主要通过两款第三方API：Google Language API以及Zemanta API对数据进行结构化。其设计及实现将在后文详细阐述。3.数据加工模块。数据加工模块主要是指将结构化的数据进行加工。这里的加工主要是指根据我们建立的维度匹配模型和私有数据库进行二次处理，最后形成“有用”的数据。4.数据显示模块。数据显示模块主要是指将处理过的数据展现在浏览器上。这个部分将充分体现我们特有的数据模型所产生的结果。其设计及实现将在后文详细阐述。　　三、测试结果分析　　我们将设计两组设计测试用例，以求比较测试结果，验证测试结果。两组测试用例分别为：　　（一）普通网页搜索测试用例。通过输入客户名称，利用Google对其进行网页搜索，得到企业描述结果。　　（二）维度匹配模型搜索测试用例。利用我们的维度匹配模型，通过将结构化网络非结构化，半结构化数据转换为结构化数据，并利用私有数据库中的信息，对企业进行描述，比较结果。　　对于“普通网页搜索测试用例”，总共有五十五家公司的信息可以在网络上搜索得到，占比83.3%。　　无用信息：44家。这里的无用信息指的是可以从网络数据中，查询出公司的企业类型，声誉，位置信息等。　　非该公司：1家：中南数控机床。由于此处的中南数控机床位于昆山，而网络上还有一家同名公司：位于南通。由于南通的中南数控机床的PR值显著高于昆山