- 1、本文档共20页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
开源智能–XPress开源智能软件平台XPress项目汇报
开源智能-XPress 开源智能软件平台XPress 项目汇报 谢欣 2003年12月31日 目录 项目概述 系统 匹配算法 展望 项目概述 名称:“开源智能软件平台” ,Xpress 功能:对FTP资源分类整合,并附加从web上自动提取的的相关信息,为用户提供具有高可用性的WEB形式资源浏览、检索与下载服务。 特点:自动 商业经理:刘菲菲,软工 开发经理:谌贻容,语言所 档案经理:石武光,语言所 项目组长:谢 欣,网络 项目概述:商业计划回顾 本项目以宽带网络服务提供商为服务对象 协助其以低廉的价格对现有下载服务进行大规模扩充,快速提高其商业竞争力为目标。 2003年10月23日录音回放: 系统介绍 实际使用 :7001/XPress 系统结构图 系统重点一:web信息提取 信息提取简介 基于模板(我们的选择) 基于Ontology 基于规则 基于语法 系统重点二:FTP搜索 利用天网文件搜索的技术 爬虫 多线程并行抓取 每个站点一个线程 系统重点三:匹配算法 对每个FTP文件匹配所有的软件资源,找出匹配值最大的一项,当匹配值大于某个预定的权值时,我们就认为匹配成功 不是百分之百正确 为什么不用MD5 在现实实施中不可能 文件大小往往不同 增加匹配成功度:语言版本,版本号 算法的假设前提,对于同种资源,从web上得到的软件和FTP上的文件 在名称上具有一定的相似度 文件大小相差不大 匹配算法一:石氏(石午光)算法 名称+文件大小,各占一定百分比 文件大小 二者大小之差的百分比反比于比较结果 名称 假设前提:FTP文件名中前面的字符比后面的字符更能体现文件的内容 实际做法:前几个字符所占比重较大,越在后面的字符所占比重越小 匹配算法二:刘氏(刘菲菲)算法 前提假设:很多软件同时有中英文名 特点:中英文分别匹配,最大子串 步骤 过滤掉文件大小之差大于阀值的匹配 然后进行名称+文件大小的匹配 对于名称匹配,分别拆分出各自名称的最大中文子串和最大英文子串 若一方无中(英)文子串,则只比较英(中)文子串;否则中英文子串都进行比较,各占一半的权重 比较子串时挑选出最长共同的子串,其占整个字符串的长度之比为匹配值 匹配结果 实际测试 实际查询 :7001/XPress Leapftp 网络蚂蚁 Maze 友情强档 展望:质 提高匹配的准确程度 不同的单词应该有不同的权重,比如: “photoshop”之类的词权重应比较高(区分性较强) “windows”,“ system”之类的权重应比较低 “中文版”,“build”之类的权重应非常低 不手工建立词典,采用分布均匀性公式 展望:质(续) 对每一个可能的词进行计算 北大计算语言所张化瑞的计算公式 计算词频的分布均匀性 (Distributed Consistency, DC) 分布均匀度越高,该词的权重越低 展望:量 增加从web上进行信息提取的来源数量 自动发现软件站点 利用我们的软件信息库和现有的搜索引擎 自动提取此类网站的模板 提取出网站中大量相似页面中的不同内容 自动更新软件信息 基本于软件网站同步更新 谢谢观赏 Ontology A computational entity, a resource containing knowledge about what “concepts” exist in the world and how they relate to one another Components Concepts Domain dependent Context free Context sensitive Domain independent Context free Context sensitive Relationship (relational schema between the concepts) Constraints * * 项目概述:团队成员 Web页面抓取及信息提取 FTP信息抓取 软件信息匹配 用户接口 Web页面抓取及信息提取 FTP信息抓取 软件信息匹配 用户接口 2869605 2869248 Maze-1.02-win.exe 天网 maze 网络文件系统 1.02 beta 1215545 1220608 IpSniper.zip qq狙击手-ipsniper 3.2 257926 272384 IEProSetup1.1.zip internet设置工具-ieprosetup 1.2.2 简体版 44032 45056 Duba_Sobig.exe 金山巨无霸(sobig)专杀工具 2001 516608 486400 qqav.exe 腾讯qq自动发消息专杀工具qqav 3.3 488208 486400
您可能关注的文档
- 工程材料和热加工工艺.ppt
- 左孝凌离散数学课件2.1谓词概念与表示–2.2命题函数与量词.ppt
- 左孝凌离散数学课件3.6关系性质.ppt
- 左孝凌离散数学课件3.1集合的概念和表示法–3.2集合的运算.ppt
- 工程计量和计价7.ppt
- 巴陵石化小企业区位剖析.ppt
- 工具的认识及运用.ppt
- 工艺文件及工艺卡的制定.ppt
- 已打印第1章轴对称图形复习课.ppt
- 巴黎高等师范学院教育教学特点简介.pptx
- 高速公路公司财务管理办法 .pdf
- 中国消费品行业国际化:地缘政治风险及应对策略-安永-2025.pdf
- 医药生物行业生命科学上游专题报告春江水暖供需改善企业盈利有望边际修复-25.pdf
- 医药生物行业医疗AI专题报告二多组学篇AI技术驱动精准诊断实现重要突破-25.pdf
- 金融科技动向2024年下半年_可搜索.pdf
- CXO行业系列报告三寒冬已过行业需求逐步回暖-25.pdf
- 2024-2025年中国并购交易分析报告.pdf
- 医药生物行业生命科学上游专题报告春江水暖供需改善企业盈利有望边际修复-25032136页.docx
- 2025年中国AI Agent行业研究报告_可搜索.pdf
- 2024年第三季度中国高端磁共振设备3.0T市场洞察报告.pdf
文档评论(0)