- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
5基于本體的网络信息聚合及其应用
* * * * 5、基于本体的网络信息聚合及其应用 信息源:网页 爬取:爬虫(含动态网页) 解析: 基于本体的语义标注 全局本体 =概念+关系+实例 局部本体 -表格:1+1+N方法 -文本:条件随机场 生成聚合信息 存储、发布、应用 中间件层 应用层 信息源层 报价单位 产品 价格 报价日期 应用举例:粮食价格分析 数据来源: - 中华粮网(/IndexByPrice.aspx) - 东北粮食网(/baojia/Default.aspx) - 中国农业信息网(http://2010/jghq/) - 中国畜牧网(:8001/html/market/index.html) - 中原畜牧网(/market/) - 阿里巴巴农业资讯(/news/subject/v2-s5015505.html) 粮食价格分析 稻谷 小麦 玉米 2009.7 — 2010.7 时间序列分析:统计软件(SPSS17.0) 周价格曲线 事件关联分析 区划价格差异 中、长期预测,短期预测 ? 指数平滑法 自回归法 ARIMA模型法 季节分解法 谱图分析法 稻谷 09.12-10.02:春节临近,消费旺季,涨价 10.03-10.04:旱情严重,涨价 10.05:稻谷轮换出库,需求淡季,降价 10.06:水灾,减产,涨价 红色:观测值 蓝色:拟合值 2009.7.15 2010.7.10 小麦 出现离群值(outlier):2月、3月、6月中旬 原因:原始数据错误、聚合处理错误、突发事件驱动 6月末-7月初:涨价(春季低温、化肥涨价、惜售) 预测:出现误差;短期预测难度大!须深入研究! 红色:观测值 蓝色:拟合值 绿色:预测值 真值 Outlier Outlier Outlier 2010.1.1 2010.7.10 小麦区划 周期性:7 天 预测:误差较小,周期性 华东 中南 华北 西北 东北 西南 红色:观测值,蓝色:拟合值,绿色:预测值 小麦区划 3-4月份:西南地区价格明显高! 原因:春季旱情严重。 网络信息聚合的意义 聚合信息服务 热门信息推送 按需求订制 难点:完整、精度、重组 行业领域应用 可靠建模依据 政策制订支持 事件关联分析 短期预测 方法与手段:基于本体的语义理解+时间序列分析 自然基金重点项目:非对称广域覆盖信息共享网络 三个参加单位: 清华大学(CESL实验室) 西南科技大学(绵阳,马建国教授、邢玲副教授、……) 电子科技大学(成都,隆克平教授、徐杰副教授、……) 经费:190万元 时间:2010-2013年,四年 合作研究方向: 非对称信息共享网络的数学、物理模型 信息共享网络动力学系统的大规模时空动态仿真 基于语义的网页分析、内容聚合、数据挖掘 合作形式: 博士后 校际合作 征询合作研究 任勇:reny@ 谢 谢 WWW业务特征 文件传输为主 Poisson到达:负指数分布 文件长度服从重拖尾分布:Bounded Pareto 网站文件服务时间也服从重尾的BP分布 重尾业务:持续时间具有重拖尾分布特性的业务 重拖尾业务实质:被长流调制的慢变的布朗运动 用户满意度指标:阻塞概率、平均响应时间 播存结构理论分析:有限忍耐度的排队系统分析 文件长度服从BP分布(Bounded Pareto) k = 1.22 kbyte, p = 1 Mbyte, α= 1.1 文件长度均值6.56 kbyte,方差7.17×10^8 大于100kbyte的文件占0.72% 大文件产生的数据量占27.1% 文件长度服从负指数分布,则大于100kbyte的文件占2.4/千万,数据量占3.7/百万。 M/ G/ 1、 M/ G/ ∞、 M/ M / c可解析。 M/ G/ c无法直接分析,没有分析工具! 重尾业务特点及其处理方法 大方差(LV):α 2 时无穷大方差,尾分布部分截断(比如BP),方差仍然特别大 重拖尾(HTD):尾分布业务在总流量中占相当大的比例,即小概率事件产生较大影响(流量) 长相关(LRD) :持续时间服从重拖尾分布的ON/OFF 过程通常表现出长相关的特征 重尾业务处理方法——分解: ①长短流分解:Xd= DC,最大忍耐时间·处理吞吐量 ②持续时间分解:45%流2秒;2%流15分钟,却占50% ③突发性分解:α-β分解,Aggμ+ 3Aggstd 临界速率 ① Elephant and Mice ! ② Dragon flies and Tor
您可能关注的文档
最近下载
- 信息系统等保安全方案.doc VIP
- 兴业银行信息技术专员岗位笔试选择题附笔试高分技巧.docx VIP
- 化工设计概论与化工制图课件第四章化工设备常用零部件简介.pptx VIP
- 高等教育5化工制图cad化工设备图中焊缝结构的表达.pptx VIP
- 化工设计概论与化工制图课件第七章车间布置设计.pptx VIP
- 新概念英语入门级6-10单元测试卷.pdf VIP
- 化工设计概论与化工制图课件第八章管道设计.pptx VIP
- 化工设计概论与化工制图课件第十章管道布置图.pptx VIP
- 化工制图cad8管道布置图.pptx VIP
- 统编版语文一年级下册2吃水不忘挖井人 课件(共54张PPT).pptx VIP
文档评论(0)