非对称广域覆盖信息共享网络理论与关键技术.pptVIP

  • 2
  • 0
  • 约1.24万字
  • 约 24页
  • 2019-01-02 发布于湖北
  • 举报

非对称广域覆盖信息共享网络理论与关键技术.ppt

* * * * 基于本体的网络信息聚合及其应用 信息源:网页 爬取:爬虫(含动态网页) 解析: 基于本体的语义标注 全局本体 =概念+关系+实例 局部本体 -表格:1+1+N方法 -文本:条件随机场 生成聚合信息 存储、发布、应用 中间件层 应用层 信息源层 报价单位 产品 价格 报价日期 应用举例:粮食价格分析 粮食价格分析 稻谷 小麦 玉米 2009.7 — 2010.7 时间序列分析:统计软件(SPSS17.0) 周价格曲线 事件关联分析 区划价格差异 中、长期预测,短期预测 ? 指数平滑法 自回归法 ARIMA模型法 季节分解法 谱图分析法 稻谷 09.12-10.02:春节临近,消费旺季,涨价 10.03-10.04:旱情严重,涨价 10.05:稻谷轮换出库,需求淡季,降价 10.06:水灾,减产,涨价 红色:观测值 蓝色:拟合值 2009.7.15 2010.7.10 小麦 出现离群值(outlier):2月、3月、6月中旬 原因:原始数据错误、聚合处理错误、突发事件驱动 6月末-7月初:涨价(春季低温、化肥涨价、惜售) 预测:出现误差;短期预测难度大!须深入研究! 红色:观测值 蓝色:拟合值 绿色:预测值 真值 Outlier Outlier Outlier 2010.1.1 2010.7.10 小麦 区划 周期性:7 天 预测:误差较小,周期性 华东 中南 华北 西北 东北 西南 红色:观测值,蓝色:拟合值,绿色:预测值 小麦 区划 3-4月份:西南地区价格明显高! 原因:春季旱情严重。 网络信息聚合的意义 聚合信息服务 热门信息推送 按需求订制 难点:完整、精度、重组 行业领域应用 可靠建模依据 政策制订支持 事件关联分析 短期预测 方法与手段:基于本体的语义理解+时间序列分析 自然基金重点项目:非对称广域覆盖信息共享网络 三个参加单位: 清华大学(CESL实验室) 西南科技大学(绵阳,马建国教授、邢玲副教授、……) 电子科技大学(成都,隆克平教授、徐杰副教授、……) 经费:190万元 时间:2010-2013年,四年 合作研究方向: 非对称信息共享网络的数学、物理模型 信息共享网络动力学系统的大规模时空动态仿真 基于语义的网页分析、内容聚合、数据挖掘 合作形式: 博士后 校际合作 征询合作研究 任勇:reny@ 谢 谢 WWW业务特征 文件传输为主 Poisson到达:负指数分布 文件长度服从重拖尾分布:Bounded Pareto 网站文件服务时间也服从重尾的BP分布 重尾业务:持续时间具有重拖尾分布特性的业务 重拖尾业务实质:被长流调制的慢变的布朗运动 用户满意度指标:阻塞概率、平均响应时间 播存结构理论分析:有限忍耐度的排队系统分析 文件长度服从BP分布(Bounded Pareto) k = 1.22 kbyte, p = 1 Mbyte, α= 1.1 文件长度均值6.56 kbyte,方差7.17×10^8 大于100kbyte的文件占0.72% 大文件产生的数据量占27.1% 文件长度服从负指数分布,则大于100kbyte的文件占2.4/千万,数据量占3.7/百万。 M/ G/ 1、 M/ G/ ∞、 M/ M / c可解析。 M/ G/ c无法直接分析,没有分析工具! 重尾业务特点及其处理方法 大方差(LV):α 2 时无穷大方差,尾分布部分截断(比如BP),方差仍然特别大 重拖尾(HTD):尾分布业务在总流量中占相当大的比例,即小概率事件产生较大影响(流量) 长相关(LRD) :持续时间服从重拖尾分布的ON/OFF 过程通常表现出长相关的特征 重尾业务处理方法——分解: ①长短流分解:Xd= DC,最大忍耐时间·处理吞吐量 ②持续时间分解:45%流2秒;2%流15分钟,却占50% ③突发性分解:α-β分解,Aggμ+ 3Aggstd 临界速率 ① Elephant and Mice ! ② Dragon flies and Tortoises! 网络业务的时间尺度特性 小时间尺度(1 ms)traffic变化原因: Buffers, scheduling algorithms 中时间尺度(100 ms)traffic变化原因: TCP流控协议 大时间尺度(1-10 s)traffic变化原因: 路由变化 中长期traffic变化原因: 带宽增长、用户数增长 自然基金,互联网络业务源模型与业务量预测, 已完成 自然基金,复杂互联网络的整

文档评论(0)

1亿VIP精品文档

相关文档