- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
营销正日益成为一场基于信息而非销售力量的较量。 ——科特勒 知己知彼,百战不殆。——孙子 一、间接网络市场调查 间接网络市场调查的工具 搜索引擎 网上专业数据库 互联网上的重要信息资源 个人信息 宏观环境信息 竞争情报 国际市场信息 主流搜索引擎 1、搜索引擎的分类 按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类: 1.目录式搜索引擎:以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。这类搜索引擎的代表是:Yahoo、LookSmart、Open Directory、Go Guide等。 2.机器人搜索引擎:由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。服务方式是面向网页的全文检索服务。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。这类搜索引擎的代表是:AltaVista、Northern Light、Excite、Infoseek、Inktomi、FAST、Lycos、Google;国内代表为:天网、悠游、OpenFind等。 3.元搜索引擎:这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量更大、更全,缺点是不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。这类搜索引擎的代表是WebCrawler、InfoMarket等。 2、搜索引擎原理-基本要求 接受用户提交的关键字(q) 在一个可以接受的时间内返回一个和该用户查询匹配的网页信息列表(L) 可以接受的时间: 匹配: 列表: 搜索引擎原理-三段式工作流程 网页搜集: 预处理: 提供服务: 搜索引擎原理-网页搜集 网页数据库的基本策略: 1)定期搜集: 2)增量搜集: 网页的抓取策略: 1)“爬取”策略: 2)维护URL: 搜索引擎原理-定期搜索 定期搜索,隔一段时间后对整个网页重新搜集一遍,替换以前的内容。 优点:实现起来较简单 缺点:开销较大,两次搜集的时间间隔不会很短,“时新性(freshness)”不高 搜索引擎原理-增量搜索 开始时搜集一遍,然后: 1.搜集新出现的网页 2.搜集更新了的网页 3.发现有网页已经不存在,则从库中删除 搜索引擎原理- “爬取”策略 将Web看作是一个有向图,搜集过程从给定的起始url集合S开始,沿着网页中的链接,按照一定的策略遍历。 这个过程象蜘蛛(spider)在蜘蛛网(Web)上爬行(crawl) 搜索引擎原理-维护URL 系统进行第一次全面的网页搜集之后,维护相应的URL集合,以后的搜索基于此集合。 搜索引擎原理-存储网页 搜集到的网页将存储到知识库(repository)中。 知识库包含每个网页的docID,长度,URL以及网页的全部HTML。 由于网页数量会很多,所以,网页在存入知识库时要进行压缩处理。 搜索引擎原理-预处理 链接分析 网页重要程度计算 关键词提取 搜索引擎原理-链接分析 链接是分析网页重要的信息 1.链接描述文字准确的反映了网页的内容 2.网页之间的链接关系,反映了网页的重要程度(PageRank Google) 搜索引擎原理-网页重要程度计算 PageRank(Google) 指向一个网页的链接越多,说明这个网页越重要。 把整个web结构看作一个矩阵。N个网页就形成一个n×n的矩阵。 搜索引擎原理-关键词提取 建立倒排索引 英文的分词 中文的分词 搜索引擎原理-中文分词技术 中文分词是中文搜索引擎的核心 中文分词技术 基于字符串匹配的分词方法 基于统计的分词方法 搜索引擎原理-基于字符串匹配的分词算法 正向减字最大匹配法(MM) 逆向减字最大匹配法(RMM) 将上述两种方法结合起来 搜索引擎原理-预处理部分 读取网页 英文按照空格切开 中文按照正/逆向最大匹配的方法切词 将词编入索引文件 搜索引擎原理-查询服务 对用户输入进行切分 查找结果 对结果进行合并 3、搜索引擎的一般查询规则 利用搜索引擎既可以检索出Internet 上的文献信息,还可以查找到公司和个人的信息;既可以通过输入单词、词组或短语进行检索,还可以使用逻辑算符及位置算符等对多个
您可能关注的文档
- 大学英语课程教案.ppt
- 《计算机组装与维修》.ppt
- 智能仪器的数据采集技术 (2).ppt
- 舟山市基本公共卫生服务项目管理与实施.ppt
- 关于信息安全工作的认识与体会 (2).ppt
- 医药学的突出成就与医家的创新.ppt
- 2010学年第一学期龙洞小学德育工作汇报总结.ppt
- 当代高校图书馆的功能定位与发展趋势.ppt
- 石油炼制工程.ppt
- XX通信公司内部管理项目建议书.ppt
- 《2025年公共卫生应急报告:AI疫情预测与资源调配模型》.docx
- 《再生金属行业2025年政策环境循环经济发展策略研究》.docx
- 2025年开源生态AI大模型技术创新与产业协同趋势.docx
- 《2025年智能汽车人机交互创新研究》.docx
- 2025年专利申请增长趋势下的知识产权保护机制创新分析报告.docx
- 《2025年数字藏品元宇宙技术发展趋势分析报告》.docx
- 2025年折叠屏技术迭代中AI功能集成市场反应量化分析报告.docx
- 《2025年教育培训视频化教学与会员学习服务》.docx
- 《2025年工业软件行业CAD国产化应用场景分析报告》.docx
- 《2025年生物制药行业趋势:单抗技术迭代与产业链自主可控规划》.docx
原创力文档


文档评论(0)