在库管理问题の动的计画法による解法とCUDAを用いた高速化.pptVIP

下载本文档

4
0
约4.41千字
约 28页
2016-10-08 发布于重庆
举报
版权申诉

在库管理问题の动的计画法による解法とCUDAを用いた高速化.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

在库管理问题の动的计画法による解法とCUDAを用いた高速化

在庫管理問題の動的計画法による解法とCUDA を用いた高速化 SACSIS2008 2008年6月12日李天*1 河畠工*1 山本有作*1 畝山多加志*2 張紹良*1 もくじ１.　はじめに２.　問題設定３.　動的計画法による解法４.　GPGPUのための統合環境CUDA ５.　動的計画法のCUDAによる高速化６.　性能評価７.　おわりに１.　はじめに GPU（Graphics Processing Unit）の高速化 CPUを大きく上回るペースで演算性能が向上グラフィックスメモリも大容量化?高速化従来のGPGPUの問題点特殊なプログラミング手法が必要グラフィックスAPI ストリーム言語 GPUの内部構造に関する情報が乏しいデータアクセス（特に書き込み）に関する強い制限 GPGPUのための統合環境CUDA nVIDIA社のGPU上でGPGPUを実現するため，2006年に同社が発表した統合プログラミング環境特徴標準のC言語 + 簡単な拡張でGPUのプログラミングが可能標準により近いメモリモデルスレッド並列による多数のストリーミングプロセッサの利用 nVIDIA社の最新GPU向けの最適化機能チューニングのための情報が豊富詳細なマニュアル Web上のフォーラム CUDAの利用例行列計算 FFT 重力多体計算分子軌道法気象予測画像処理データマイニングバイオインフォマティクス本研究の目的ある組合せ最適化問題をCUDAで高速化企業の現場で現れる在庫管理計画問題動的計画法による解法をベースとする実用的な時間での求解を目指す動的計画法を用いた最適化が，GPU向きの計算であることを明らかにする多数の応用（ポートフォリオ最適化，オプション価格評価など）２.　問題設定在庫管理計画問題 N日の間，毎日トラックで来る原料を，K個ある倉庫のどれかに搬入各倉庫中の原料は，毎日少しずつ搬出され，工場で消費される。各倉庫の充填率が上下限に近づきすぎないよう搬入先を予め計画数学的定式化変数と定数充填率の変化を表す式目的関数問題の特徴と解法の候補問題の特徴独立変数 {j(n)}n=1N が整数値のみを取る組合せ最適化問題 K=5，N=90 （実問題のサイズ）の場合，可能な組合せは 590 と膨大解法の候補 0-1整数計画法メタヒューリスティクス動的計画法３.　動的計画法による解法 n日目以降の部分目的関数 n日目以降に最適戦略を取った場合の部分目的関数（価値関数） G(n) の満たす漸化式（Bellman方程式）動的計画法の図解（K=2の場合）動的計画法の図解（K=2の場合）離散化と補間離散化計算を行うため，充填率の空間（状態空間）を格子に分割以下，各方向の格子点数をLとする。最適計画の作成状態空間の次元縮小充填率の変化を表す式　　について，kとnに関する和を取り，　　　　　　　　　　を用いると，　　右辺は定数だから，これはK個の充填率のうちK–1個のみが独立であることを示す。これを用いて，状態空間の次元を１だけ縮小可能アルゴリズム（K=4, 後ろ向き計算の部分のみ）動的計画法による解法の特徴計算量が O(NLK–1K2)，メモリ量が O(LK–1) と大きい K=5，N=90，L=80 の実問題の場合，Core2Duo で90分程度実務上は数分程度で計算できることが望ましい所要メモリは約400MB 並列性は極めて高い LK–1 個の格子点での計算が完全並列計算は単精度で十分主要な誤差は離散化誤差丸め誤差は無視できるメモリバンド幅に対する要求が高い計算量の大部分を占める補間演算では，演算量とアクセス回数は同程度４.　GPGPUのための統合環境CUDA CUDAのプログラミングモデル CPUのmain関数から，GPUで実行されるカーネルを呼び出す CPUとGPUのメモリ空間は別々。cudaMemcpy関数でデータ転送ブロックとスレッドによる並列化多数のスレッドを時分割で実行し，GPUメモリのレイテンシを隠蔽 CUDAのメモリモデルメモリ階層全スレッドでの共有メモリグローバルメモリ定数メモリ（キャッシュあり） ????????（キャッシュあり）ブロックごとの共有メモリスレッド毎のローカルメモリレジスタカーネル中でのスレッド間同期ブロック内では同期可能ブロック間では同期不可チューニングの指針データ参照の局所性向上共有メモリ，定数メモリ，レジスタの活用スレッド数をできるだけ多くする CPUメモリとの間のデータ転送の最小化 IF文の排