垂直搜索引擎应用 陈建平.doc

  1. 1、本文档共33页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
垂直搜索引擎应用 陈建平

试论垂直搜索引擎在工商行政网监工作中的应用 北京市工商行政管理局特殊交易处陈建平 二O一二年八月 试论垂直搜索引擎在工商行政网监工作中的应用 ——不是万能与万万不能 绪:按照国家工商总局市场司的安排,我受北京市局领导的指派,在北京局近年来学习、研究和实践的基础上,从应用前提、应用方式、应用发展和应用挑战四个角度,就垂直搜索引擎在工商行政网监工作中的应用进行探讨和交流。 第一部分:我们究竟需求什么? ——千里同行始于不同足下 国家工商总局决定在全国建设工商行政网监垂直搜索引擎以来,许多地方局的领导越来越关心这样一个问题:面对网络市场相关信息的超海量级、非均衡性、高变化率等特殊属性,如何选择适合不同时期、不同地区网监工作需要的垂直搜索引擎?这也是北京局多年来持续攻坚的课题之一。鉴于工商行政管理系统涉足垂直搜索引擎领域的时间还不长,在本文的开始部分,采取专业性和通俗性相结合的原则,先虚拟性地描绘一个技术发展的参考坐标系以形成分析基础。此外,出于众所周知的原因,本文未将国(境)外搜索引擎列入分析范围。 一、需求内容的选择——只有节点、没有终点 按照通常理解,垂直搜索是指用户利用搜索引擎获取互联网特定目标信息的具体行为或行为方式,垂直搜索引擎则是支持特定用户大量、持续地获取互联网特定目标信息的专用搜索引擎。由于不同用户对特定目标信息的类型、广度和深度存在不同的需要,相应地也会对垂直搜索引擎产生不同的需求。 (一)垂直搜索目标的选择范围 从特定目标信息的搜索广度分析,可将工商行政网监垂直搜索引擎分为单一目标和组合目标两类。 1.单一目标垂直搜索引擎:支持特定用户大量、持续地获取互联网某一类特定目标信息的专用搜索引擎。从特定目标信息的搜索深度分析,按照北京局的理解,可将适用于工商行政网监工作的单一目标垂直搜索引擎分为三个亚类。 (1)网上经营主体垂直搜索引擎:支持特定用户大量、持续地发现和确认经营主体开展网上经营活动的组织形式(独立网站、信息平台、交易平台、网店、其它)的专用搜索引擎。 (2)网上经营客体垂直搜索引擎:支持特定用户大量、持续地获知与确认经营主体开展网上经营活动的具体内容(商品和服务)的专用搜索引擎。其中重点关注的是法律、法规禁止或限制生产、销售、提供的商品和服务。 (3)网上经营行为垂直搜索引擎:支持特定用户大量、持续地掌握和确认经营主体网上经营行为方式的专用搜索引擎。其中重点关注的是违反禁止性和限制性规定的行为方式。 2.组合目标垂直搜索引擎:支持特定用户大量、持续地获取互联网某些类特定目标信息组合的专用搜索引擎。从特定目标信息的搜索维度分析,按照北京局的理解,可将适用于工商行政网监工作的组合目标垂直搜索引擎分为“主体+客体”、“主体+行为”、“主体+客体+行为”三种组合。由于未知主体的客体和行为缺乏实际监管意义,本文未将“客体+行为”的组合列入分析范围。 特别说明:从特定目标信息的搜索类型分析,还可将工商行政网监垂直搜索引擎分为文字、图片、音频和视频等不同类别。鉴于图片、音频和视频的搜索技术仍处于发展阶段,而且运行成本高昂,短期内恐难大范围地应用于工商行政管理网监工作,因而本文以下内容均以中文文字搜索为分析基础。 (二)垂直搜索引擎的研发难点 垂直搜索引擎被公认为互联网领域最复杂的前沿技术之一。借鉴“更多、更快、更准”的通用评价指标,北京局认知的主体垂直搜索引擎研发难点:一是对于待搜索目标表现形式及变化模式的认知程度,即能否高准确率地持续发现有哪些不同形式的商务网站。二是搜索结果与登记信息的自动匹配水平,即能否高准确率地自动识别它们是谁办的网站。三是搜索结果与监管辖区的自动匹配水平,即能否高准确率地自动区分它们是谁管的网站。 北京局认知的客体垂直搜索引擎研发难点:一是对于待搜索目标靶向性的认知程度,即待搜索目标是否为商事活动所指向的商品和服务。二是高覆盖率、高准确率搜索结果(召回率与查准率)的可持续性技术实现水平,即搜索结果能否是尽可能大且准的商品、服务集合,且其中包括违禁、违限的商品和服务子集。 北京局认知的行为垂直搜索引擎研发难点:一是对于待搜索目标系统性的认知程度,即能否掌握不同性质的网上违禁、违限经营行为复杂多样的表现方式及其变异模式。二是高覆盖率、高准确率搜索结果的可持续性技术实现水平,即搜索结果能否与可知网上违法经营行为的类型与量级相吻合。 (三)垂直搜索目标的选择参考 北京局通过学习、研究和实践认识到,无论对于领域专家团队还是对于技术专家团队而言,主体、客体、行为三类垂直搜索引擎的研发难度均依次递增,且存在几何级数的难度差。如将未来一个周期的网监工作分为三个阶段,主体垂直搜索意味着基础,因其待搜索目标多属于结构化数据,且综合建设成本相对较低,通过“主体搜索+人工网巡”也能开展监管工作,可将其作为第一阶段

您可能关注的文档

文档评论(0)

sandaolingcrh + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档