在库管理问题の动的计画法による解法とCUDAを用いた高速化.pptVIP

在库管理问题の动的计画法による解法とCUDAを用いた高速化.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
在库管理问题の动的计画法による解法とCUDAを用いた高速化

在庫管理問題の動的計画法による 解法とCUDA を用いた高速化 SACSIS2008 2008年6月12日 李天*1 河畠工*1 山本有作*1 畝山多加志*2 張紹良*1 もくじ 1. はじめに 2. 問題設定 3. 動的計画法による解法 4. GPGPUのための統合環境CUDA 5. 動的計画法のCUDAによる高速化 6. 性能評価 7. おわりに 1. はじめに GPU(Graphics Processing Unit)の高速化 CPUを大きく上回るペースで演算性能が向上 グラフィックスメモリも大容量化?高速化 従来のGPGPUの問題点 特殊なプログラミング手法が必要 グラフィックスAPI ストリーム言語 GPUの内部構造に関する情報が乏しい データアクセス(特に書き込み)に関する強い制限 GPGPUのための統合環境CUDA nVIDIA社のGPU上でGPGPUを実現するため,2006年に同社が発表した統合プログラミング環境 特徴 標準のC言語 + 簡単な拡張でGPUのプログラミングが可能 標準により近いメモリモデル スレッド並列による多数のストリーミングプロセッサの利用 nVIDIA社の最新GPU向けの最適化機能 チューニングのための情報が豊富 詳細なマニュアル Web上のフォーラム CUDAの利用例 行列計算 FFT 重力多体計算 分子軌道法 気象予測 画像処理 データマイニング バイオインフォマティクス 本研究の目的 ある組合せ最適化問題をCUDAで高速化 企業の現場で現れる在庫管理計画問題 動的計画法による解法をベースとする 実用的な時間での求解を目指す 動的計画法を用いた最適化が,GPU向きの計算であることを明らかにする 多数の応用(ポートフォリオ最適化,オプション価格評価など) 2. 問題設定 在庫管理計画問題 N日の間,毎日トラックで来る原料を,K個ある倉庫のどれかに搬入 各倉庫中の原料は,毎日少しずつ搬出され,工場で消費される。 各倉庫の充填率が上下限に近づきすぎないよう搬入先を予め計画 数学的定式化 変数と定数 充填率の変化を表す式 目的関数 問題の特徴と解法の候補 問題の特徴 独立変数 {j(n)}n=1N が整数値のみを取る組合せ最適化問題 K=5,N=90 (実問題のサイズ)の場合,可能な組合せは 590 と膨大 解法の候補 0-1整数計画法 メタヒューリスティクス 動的計画法 3. 動的計画法による解法 n日目以降の部分目的関数 n日目以降に最適戦略を取った場合の部分目的関数(価値関数) G(n) の満たす漸化式(Bellman方程式) 動的計画法の図解(K=2の場合) 動的計画法の図解(K=2の場合) 離散化と補間 離散化 計算を行うため,充填率の空間(状態空間)を格子に分割 以下,各方向の格子点数をLとする。 最適計画の作成 状態空間の次元縮小 充填率の変化を表す式   について,kとnに関する和を取り,           を用いると,   右辺は定数だから,これはK個の充填率のうちK–1個のみが独立であることを示す。 これを用いて,状態空間の次元を1だけ縮小可能 アルゴリズム(K=4, 後ろ向き計算の部分のみ) 動的計画法による解法の特徴 計算量が O(NLK–1K2),メモリ量が O(LK–1) と大きい K=5,N=90,L=80 の実問題の場合,Core2Duo で90分程度 実務上は数分程度で計算できることが望ましい 所要メモリは約400MB 並列性は極めて高い LK–1 個の格子点での計算が完全並列 計算は単精度で十分 主要な誤差は離散化誤差 丸め誤差は無視できる メモリバンド幅に対する要求が高い 計算量の大部分を占める補間演算では,演算量とアクセス回数は同程度 4. GPGPUのための統合環境CUDA CUDAのプログラミングモデル CPUのmain関数から,GPUで実行されるカーネルを呼び出す CPUとGPUのメモリ空間は別々。cudaMemcpy関数でデータ転送 ブロックとスレッドによる並列化 多数のスレッドを時分割で実行し,GPUメモリのレイテンシを隠蔽 CUDAのメモリモデル メモリ階層 全スレッドでの共有メモリ グローバルメモリ 定数メモリ(キャッシュあり) ????????(キャッシュあり) ブロックごとの共有メモリ スレッド毎のローカルメモリ レジスタ カーネル中でのスレッド間同期 ブロック内では同期可能 ブロック間では同期不可 チューニングの指針 データ参照の局所性向上 共有メモリ,定数メモリ,レジスタの活用 スレッド数をできるだけ多くする CPUメモリとの間のデータ転送の最小化 IF文の排

文档评论(0)

didala + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档