- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大容量データベースのデータマイニング手法(積分型波形データの類似検索) 寶珍 輝尚 大阪府立大学 総合科学部 数理?情報科学科 (平成17年4月から理学系研究科 情報数理科学専攻) 背景 核融合科学の実験 膨大な量のデータが発生 膨大な数のデータが発生 効率の良いデータ管理が必要 類似データの発見 → 規則の発見(?) 目的 対象データ Bolometer計測データ (放射熱量の計測) 積分型の波形 フーリエ変換を用いた検索方法 Davood Rafiei, Alberto Mendelzon(1999) 1. フーリエ変換 2. 最初の係数k個を使用(2個目以降は複素数) 3. 2k-1次元の点として多次元インデックス(R木)で管理 4. 距離計算:ユークリッド距離 多次元インデックスR木 10次元を超えると検索効率低下 問題点1 最初のk個(2k-1次元)の係数がほぼ同じでも 波形が異なるデータが存在 例)インデックス5次元、データ数1000 検索精度の改良 2段階の処理 ?1段階目:R木を使用(2k-1次元) 足切りに利用 ?2段階目:波形の類似度を判定 値の大きいm個の係数 を使用(最初の2k-1以外) 次元数(2k-1)の選定 計測データ1000個の係数の平均 mの選定 値の大きい係数の個数m:実験的に選定 ?k:2~4(2k-1:3,5,7) ?m:2,4,6,8 ?データ数:1000 ?検索キー:2個(波形が大きく異なる) ?類似データ:4個(あらかじめ選定) ?順位の平均で評価 (同距離のもの:同順位) 検索例 問題点2 周波数領域への変換法: キー波形の波長が支配的 多少異なる波長の波形も検索したい 近似 仮定 g(t)=f(t/(1+α)) ただし、α1 t=0 以前で 0 t=t1 以降で 0 G(ω)≒F(ω)exp(- jαω t1) G(ω) :g(t) のフーリエ変換 F(ω) :f(t) のフーリエ変換 検索法 角度法 少しずつ角度を変化 貪欲法 最初は検索範囲を大きくし絞り込む 対角法 対角のみ 評価 対象:1000個のボロメータ計測データ 角度αの増加量を変化させて測定 まとめ 波形の高速類似検索(FFT利用) 1段階目:R木による検索(5次元インデックス) 2段階目:係数4個を使用(1段階目で使用の係数以外) 波長の多少異なる波形も検索(近似) * 類似波形の的確かつ迅速な検索 a d c e b R1 R2 g f h R3 Overlap R1R2R3 a b d f g h c e data Oid 検索キー:No094 距離が最も近いデータ:No029 1 1 0 -4 -14 -14 0 虚部 -4 -6 -9 -12 -7 8 2059 実部 7 6 5 4 3 2 1 k k:2から4(2k-1:3,5,7)で 大まかな波形の類似度が判断可能 4 4 D 2 3 C 2 3 B 1 2 A 順位 距離 データ 5次元インデックス(k=3)、m=4の時 最も精度が良い mの選定 検索キー:No325 ①No329 ②No332 ③No321 原検索範囲 小領域 他の積分型波形への適用 揺動型波形に対する検討 今後の課題 まず背景としまして、 核融合科学の実験では膨大な量のデータが発生し、 効率のよいデータ管理が必要とされています。 また、今回の研究で用いたデータは、 Bolometer計測と言って、放射熱量を計測したもので、 右のような波形のデータです。 横軸が時間で、縦軸が放射熱量を表しています。 またこういった研究において、類似したデータを得ることは、 新たな規則発見などにつながる場合があり、 大変意味があります。 そこで、類似データの的確かつ迅速な 検索方法の検討を目的とします。 ------------------------ 512コの点でフーリエ変換 1000個ずつ飛ばす 波形全体をとっている 今までに考えられている 時系列データの類似検索の方法として、 フーリエ変換を用いた検索があります。 この方法は、 まずデータにフーリエ変換を行い、 最初の係数k個を使用します。 2個目以降の係数が複素数になるため、 2k-1次元の点として多次元インデックスであるR木によって 管理します。 また、距離計算にはユークリッドの距離を用います。 次に多次元インデックスであるR木について説明します。 まずR木は、外接矩形を作成しながら 木を構築していきます。 丸で囲まれたa~hがデータで、このように存在しているとします。 まずa,b,c????hに外
文档评论(0)