Web内容抽取及其数据管理方法.pdfVIP

下载本文档

5
0
约2.25万字
约 7页
2017-08-12 发布于重庆
举报
版权申诉

Web内容抽取及其数据管理方法.pdf

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Web内容抽取及其数据管理方法.pdf

第期张成洪等：内容抽取及其数据管理方法 # -+/ $$ 文章编号：（） !#$%$! #!! !#%!$$%!$ ! !# 内容抽取及其数据管理方法张成洪，肖军建，张诚（复旦大学管理学院，上海 #!!’’）摘要：随着及其相关技术的飞速发展，已成为最大的信息集散地无论对企业还是个人，逐 ()*+,)+* . -+/ 渐成为最主要的信息来源然而由于网站数量过多以及由此带来的信息泛滥，使得有用信息的获取越来越困 . 难搜索引擎只能提供信息的查找范围，而具体的内容还要靠详细搜查而且网页信息都是非结构化或半结构 . . 化的，无法直接利用分析工具进行分析. 所以有必要提供一种网页内容自动抽取及使网页数据结构化的方法，来简化信息获取的过程和方便信息分析处理. 关键词：数据抽取；网页包装；规则表达式；半（非）结构化；模式匹配中图分类号：文献标识码： 0 1!’ . 2 随着及其相关技术的飞速发展，（）已成为最大的信息集散地上聚 ()*+,)+* -3,45 -65+ -+/ . -+/ 集了大量宝贵的信息，但在获取信息的过程中，却存在如下的问题：其一，其中有用的信息也如同一样分布在“ ”，用户难以掌握所需信息的位置；其二，对个人或企业有用的数据混杂在无数其他 -3,45 -65+ 数据中，一般人必须亲自从网页的大量数据中抽取一点点有用的数据，这样对于数据分析人员，从各个网页中收集信息将是一个不小的负担；其三，从网上得到的数据都是 789: 文件，很难把其中包含的信息用于和其他网页信息进行组合和交叉比较；其四，这种 789: 文件无法被目前流行的分析软件直接使用，除非通过人工再输入一次来完成数据格式的转换. 为了解决以上困难，上出现了如！等各种搜索引擎，如，，等 -+/ ;=33 0 ?@3*+ 9,A+*B@65+ C*3DA9E*+, 财经信息检索工具但它们返回的结果往往数量很大、格式固定，而且每次只能查到一个对象的各个指 . 标，难以利用. -+/ 内容抽取及其数据管理方法可以帮助企业（或其他信息提供商）或个人从 -+/ 上获取有用信息（包括与企业有业务往来的客户、供应商、代理人、以及企业竞争对手、政府和其他机构发布在上的信息）它可以自动地把所需的网页信息抽取出来，从而避免了用户自己搜索信息的繁琐与时间的耗费； . 并把抽取来的网页数据转存于数据库中，使非结构或半结构化的数据转换为结构化的数据，以利于用户对数据进行分析. 对内容的自动获得和抽取固然是一个重点，但这项工作的完成并不意味着结束为了更好地为 -+/ . 用户服务，需要构建一个以-+/ 内容抽取为基础的信息系