- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于多维语义的互联网药品信息提取方法
计 算 机 系 统 应 用 http://www.c-S一-a.org.cn 2011年 第2O卷 第 11期
基于多维语义的互联网药品信息提取方法=①
顾轶灵
(复旦大学 软件学院,上海 201203)
摘 要:提出了基于多维语义的互联网药品信息提取方法,构建语义词典通过从多个维度对互联网药品知识进
行描述,克服了不同来源网页之间的异构性并找出了其隐藏的共性。同时,采用了基于结构语义熵的方法对 目
标网页信息聚集区域进行定位,从中提取感兴趣的药品信息。最后再通过语义词典对提取的信息进行验证并 自
动生成 XPath提取规则进行补充。该方法能够 自动有效地从互联网的多个信息来源获取药品信息,实验证明其
具有较高的准确性与召回率,可以为政府相关部门加强互联网药品市场监管提供足够的信息依据。
关键词:Web信息提取;多维语义词典;互联网药品信息;结构语义熵;XPath
Multidimensiona1.Semantics-BasedW ebM edicineInformationExtraction
GUYi—Ling
(SoftwareSchool,FudanUniversity,Shanghai201203,China)
Abstract:Amultidimensional-semanticsbasedWebinformationextractionmethodisproposedinthisarticletoextract
medicineinformationontheWeb.ThemethodovercomestheheterogeneityofWebpagesfrom differentsourcesand
findsthecommoncharacteristicsamongthem bybuildingupasemanticdictionaryanddescribestheknowledgeof
medicineinfomr ationovertheWeb.Atthesametime,itutilizesastructural-semnatic·entropy-basedapproachtodetect
data-richsectionsonWebpages,thenextractinformationofinterestfrom them andfinallyV nadsupplementthe
extracted informationbygeneratingexrtactionrulesusingXPath.Th emethod isabletoobtain informationfrom
heterogeneoussourcesbothautomaticallyandeffectively.Experimentsshownthatithas highprecisionnadrecall,thus
canprovidesufficientinfomr ationforthegovemmenttoenhancesupervisionofmedicinemarketontheWeb.
Keywords:Webinfomr ationextraction;multidimensionalsemnaticdictionary;Webmedicineinformation;Structural-
semanticentropy;XPath
1 引言 息量庞大,传统的人工监测手段无法跟上互联网药品
随着近年来电子商务产业的迅速发展,互联网药 信息的快速增长,准确 自动的智能监测手段就成为了
品市场也在 日益增长。然而,随之而来的隐患也在不 非常迫切的需求。如何由机器 自动获取网页并且识别
断加剧:由于许多未经国家药监局批准的网站擅 自在 出其中可能包含的药品信息无疑是 自动监测之中最首
线销售药品,更有甚者利用互联网的隐蔽性进行假药 要的一个问题,而事实上这正是一个Web信息提取的
的销售,就连具备互联网药品信息发布或交易资质的 典型问题。
网站发布的信息也常常不够准确规范,导致整个互联 w_eb信息提取技术 目前已经受到广泛关注,它的
网药品信息市场鱼龙混杂,普通消费者很难辨别
原创力文档


文档评论(0)