mult_matrices/COPYING.TXT [new file with mode: 0644]
mult_matrices/mult_matrices.cpp [new file with mode: 0644]
mult_matrices/mult_matrices.cu [new file with mode: 0644]
mult_matrices/mult_matrices.h [new file with mode: 0644]
mult_matrices/mult_matrices.vcxproj [new file with mode: 0644]
mult_matrices/mult_matrices.vcxproj.filters [new file with mode: 0644]
mult_matrices/stdafx.cpp [new file with mode: 0644]
mult_matrices/stdafx.h [new file with mode: 0644]
mult_matrices/targetver.h [new file with mode: 0644]

diff --git a/mult_matrices/mult_matrices.cpp b/mult_matrices/mult_matrices.cpp
new file mode 100644 (file)
index 0000000..bddb96e
--- /dev/null
@@ -0,0 +1,164 @@
+       Copyright (C) 2012, 2013  fmaj7b5.info
+       This program is free software: you can redistribute it and/or modify
+       it under the terms of the GNU General Public License as published by
+       the Free Software Foundation, either version 2 of the License, or
+       (at your option) any later version.
+       This program is distributed in the hope that it will be useful,
+       but WITHOUT ANY WARRANTY; without even the implied warranty of
+       GNU General Public License for more details.
+       You should have received a copy of the GNU General Public License
+       along with this program.  If not, see <http://www.gnu.org/licenses/>.
// mult_matrices.cpp : コンソール アプリケーションのエントリ ポイントを定義します。
+#include "stdafx.h"
+#include "mult_matrices.h"
+using namespace FM7b5;
+const size_t g_num(1024 * 1024);
+const size_t g_num_run(10);
+std::default_random_engine g_re;
+static void random_matrices(float* mat44, const size_t num);
+static void disp_matrix(const float* m44);
+static inline void mult_matrix(float* C, const float* A, const float* B);
+static void mult_matrices(float* C, const float* A, const float* B, const size_t num);
+static double flops(const size_t num, const double elapsed_ms);
+#define FM7b5_USE_CPU
+//#define FM7b5_TRANSPOSED
+int _tmain(int argc, _TCHAR* argv[])
+       /* Column-major 4x4 matrices (i.e. M(i, j) = M[i + 4*j] */
+       std::vector<float> A(g_num * 4*4), B(g_num * 4*4), C(g_num * 4*4), C_gpu(g_num * 4*4);
+       random_matrices(&A[0], g_num);
+       random_matrices(&B[0], g_num);
+       ULONGLONG start, finish;
+       double elapsed_ms;
+#ifdef FM7b5_USE_CPU
+       /* CPU */
+       start = GetTickCount64();
+       for (size_t nrun = 0; nrun < g_num_run; ++nrun) {
+               mult_matrices(&C[0], &A[0], &B[0], g_num);
+       }
+       finish = GetTickCount64();
+       elapsed_ms = static_cast<double>(finish - start);
+       printf("1 CPU: %.1f [ms] (%.1f GFLOPS)\n\n", elapsed_ms, static_cast<double>(g_num_run) * flops(g_num, elapsed_ms) / 1e9);
+       /* GPU */
+       mult_matrices_init_gpu();
+       start = GetTickCount64();
+       for (size_t nrun = 0; nrun < g_num_run; ++nrun) {
+               mult_matrices_gpu(&C_gpu[0], &A[0], &B[0], g_num);
+       }
+       finish = GetTickCount64();
+       elapsed_ms = static_cast<double>(finish - start);
+       printf("GPU: %.1f [ms] (%.1f GFLOPS)\n\n", elapsed_ms, static_cast<double>(g_num_run) * flops(g_num, elapsed_ms) / 1e9);
+#if 0
+       disp_matrix(&A[g_num-1]);
+       disp_matrix(&B[g_num-1]);
+# ifdef FM7b5_USE_CPU
+       disp_matrix(&C[g_num-1]);
+# endif
+       disp_matrix(&C_gpu[g_num-1]);
+       return 0;
+random_matrices(float* mat44, const size_t num)
+       if (mat44 == NULL || num < 1) {
+               return;
+       }
+       std::uniform_real_distribution<float> rand_dist;
+       for (size_t i = 0; i < num; ++i) {
+               float* p(mat44 + 16*i);
+               for (size_t j = 0; j < 16; ++j)
+               {
+                       p[j] = rand_dist(g_re);
+               }
+       }
+disp_matrix(const float* m44)
+       for (size_t r = 0; r < 4; ++r) {
+               for (size_t c = 0; c < 4; ++c) {
+                       printf("% 7.3f ", m44[r + 4*c]);
+               }
+               printf("\n");
+       }
+       printf("\n");
+inline void
+mult_matrix(float* __restrict C, const float* __restrict A, const float* __restrict B)
+       for (size_t i = 0; i < 16; ++i) {
+               C[i] = 0.0;
+       }
+#ifdef FM7b5_TRANSPOSED
+       float Bt[16];
+       for (size_t c = 0; c < 4; ++c) {
+               for (size_t r = 0; r < 4; ++r) {
+                       Bt[r + 4*c] = B[c + 4*r];
+               }
+       }
+       for (size_t k = 0; k < 4; ++k) {
+               for (size_t c = 0; c < 4; ++c) {
+                       for (size_t r = 0; r < 4; ++r) {
+#ifndef FM7b5_TRANSPOSED
+                               C[r + 4*c] += A[r + 4*k] * B[k + 4*c];
+                               C[r + 4*c] += A[r + 4*k] * Bt[c + 4*k];
+                       }
+               }
+       }
+mult_matrices(float* C, const float* A, const float* B, const size_t num)
+#pragma omp parallel for
+       for (int i = 0; i < static_cast<int>(num); ++i) {
+               mult_matrix(C + 16*i, A + 16*i, B + 16*i);
+       }
+flops(const size_t num, const double elapsed_ms)
+       /* num of multiplications and additions in a single matrix-matrix multiplication */
+       const int ops(4 * 4 * (4 + 3));
+       return static_cast<double>(num * ops) * 1.0e3 / elapsed_ms;
diff --git a/mult_matrices/mult_matrices.cu b/mult_matrices/mult_matrices.cu
new file mode 100644 (file)
index 0000000..96467db
--- /dev/null
@@ -0,0 +1,112 @@
+       Copyright (C) 2012, 2013  fmaj7b5.info
+       This program is free software: you can redistribute it and/or modify
+       it under the terms of the GNU General Public License as published by
+       the Free Software Foundation, either version 2 of the License, or
+       (at your option) any later version.
+       This program is distributed in the hope that it will be useful,
+       but WITHOUT ANY WARRANTY; without even the implied warranty of
+       GNU General Public License for more details.
+       You should have received a copy of the GNU General Public License
+       along with this program.  If not, see <http://www.gnu.org/licenses/>.
+#include <iostream>
+#include <cuda.h>
+#include <cuda_runtime.h>
+#include "cuda\cuda_wrapper.h"
+#include "mult_matrices.h"
+#include "DeviceMemory.cuh"
+using namespace FM7b5;
+namespace cuda = FM7b5::cuda;
+#define DIV 16
+#define FM7b5_USE_PINNED
+__global__ void
+mult_matrix(float* C, const float* A, const float* B)
+       const size_t d(threadIdx.z);
+       const size_t offset(16*(blockIdx.x*DIV + d));
+       const size_t index(threadIdx.x + blockDim.y*threadIdx.y);
+       __shared__ float _A[DIV][4*4], _B[DIV][4*4];
+       _A[d][index] = A[offset + index];
+       _B[d][index] = B[offset + index];
+       float c_elem = 0.0;
+       for (int k = 0; k < 4; ++k) {
+               c_elem += _A[d][threadIdx.x + 4*k] * _B[d][k + 4*threadIdx.y];
+       }
+       C[offset + index] = c_elem;
+       cudaError_t status;
+       cudaDeviceReset();
+       status = cudaSetDeviceFlags(cudaDeviceMapHost);
+       if (status != cudaSuccess) {
+               std::cerr << cudaGetErrorString(status) << std::endl;
+       }
+       cudaFree(0);
+FM7b5::mult_matrices_gpu(float* C, const float* A, const float* B, const size_t num)
+       const size_t num_elements(num * 4 * 4);
+#ifdef FM7b5_USE_PINNED
+       cudaError_t status;
+       if ((status = cudaHostRegister(const_cast<float*>(A), sizeof(float) * num_elements, 0)) != cudaSuccess) {
+               std::cerr << cudaGetErrorString(status) << std::endl;
+       }
+       if ((status = cudaHostRegister(const_cast<float*>(B), sizeof(float) * num_elements, 0)) != cudaSuccess) {
+               std::cerr << cudaGetErrorString(status) << std::endl;
+       }
+       if ((status = cudaHostRegister(C, sizeof(float) * num_elements, 0)) != cudaSuccess) {
+               std::cerr << cudaGetErrorString(status) << std::endl;
+       }
+       memory::Linear<float> d_A(num_elements), d_B(num_elements), d_C(num_elements);
+       d_A.copy_from(A, sizeof(float) * num_elements);
+       d_B.copy_from(B, sizeof(float) * num_elements);
+       cuda::Event start, finish;
+       start.record();
+       mult_matrix<<<(num + (DIV - 1))/ DIV, dim3(4, 4, DIV)>>>(d_C.data(), d_A.data(), d_B.data());
+       finish.record();
+       finish.synchronize();
+       float ms;
+       cudaEventElapsedTime(&ms, start, finish);
+       std::cout << "kernel: " << ms << " [ms] (" << static_cast<double>(4*4*7*num) / ms * 1.0e-6 << " GFLOPS)" << std::endl;
+       d_C.copy_to(C, sizeof(float) * num_elements);
+#ifdef FM7b5_USE_PINNED
+       cudaHostUnregister(C);
+       cudaHostUnregister(const_cast<float*>(B));
+       cudaHostUnregister(const_cast<float*>(A));
diff --git a/mult_matrices/mult_matrices.h b/mult_matrices/mult_matrices.h
new file mode 100644 (file)
index 0000000..daef0bc
--- /dev/null
@@ -0,0 +1,27 @@
+       Copyright (C) 2012, 2013  fmaj7b5.info
+       This program is free software: you can redistribute it and/or modify
+       it under the terms of the GNU General Public License as published by
+       the Free Software Foundation, either version 2 of the License, or
+       (at your option) any later version.
+       This program is distributed in the hope that it will be useful,
+       but WITHOUT ANY WARRANTY; without even the implied warranty of
+       GNU General Public License for more details.
+       You should have received a copy of the GNU General Public License
+       along with this program.  If not, see <http://www.gnu.org/licenses/>.
+#ifndef FM7b5_MULT_MATRICES_H
+#define FM7b5_MULT_MATRICES_H
+namespace FM7b5
+       void mult_matrices_init_gpu();
+       void mult_matrices_gpu(float* C, const float* A, const float* B, const size_t num);
+#endif /* FM7b5_MULT_MATRICES_H */
diff --git a/mult_matrices/stdafx.cpp b/mult_matrices/stdafx.cpp
new file mode 100644 (file)
index 0000000..e8de432
--- /dev/null
@@ -0,0 +1,25 @@
+       Copyright (C) 2012, 2013  fmaj7b5.info
+       This program is free software: you can redistribute it and/or modify
+       it under the terms of the GNU General Public License as published by
+       the Free Software Foundation, either version 2 of the License, or
+       (at your option) any later version.
+       This program is distributed in the hope that it will be useful,
+       but WITHOUT ANY WARRANTY; without even the implied warranty of
+       GNU General Public License for more details.
+       You should have received a copy of the GNU General Public License
+       along with this program.  If not, see <http://www.gnu.org/licenses/>.
// stdafx.cpp : 標準インクルード mult_matrices.pch のみを
// 含むソースファイルは、プリコンパイル済みヘッダーになります。
// stdafx.obj にはプリコンパイル済み型情報が含まれます。
// TODO: このファイルではなく、STDAFX.H で必要な
// 追加ヘッダーを参照してください。
+// stdafx.obj \82É\82Í\83v\83\8a\83R\83\93\83p\83C\83\8b\8dÏ\82Ý\8c^\8fî\95ñ\82ª\8aÜ\82Ü\82ê\82Ü\82·\81B
+#include "stdafx.h"
+// TODO: \82±\82Ì\83t\83@\83C\83\8b\82Å\82Í\82È\82\ad\81ASTDAFX.H \82Å\95K\97v\82È
+// \92Ç\89Á\83w\83b\83_\81[\82ð\8eQ\8fÆ\82µ\82Ä\82\ad\82¾\82³\82¢\81B
diff --git a/mult_matrices/stdafx.h b/mult_matrices/stdafx.h
new file mode 100644 (file)
index 0000000..a8e83ae
--- /dev/null
@@ -0,0 +1,34 @@
+       Copyright (C) 2012, 2013  fmaj7b5.info
+       This program is free software: you can redistribute it and/or modify
+       it under the terms of the GNU General Public License as published by
+       the Free Software Foundation, either version 2 of the License, or
+       (at your option) any later version.
+       This program is distributed in the hope that it will be useful,
+       but WITHOUT ANY WARRANTY; without even the implied warranty of
+       GNU General Public License for more details.
+       You should have received a copy of the GNU General Public License
+       along with this program.  If not, see <http://www.gnu.org/licenses/>.
// stdafx.h : 標準のシステム インクルードファイルのインクルードファイル、または
// 参照回数が多く、かつあまり変更されない、プロジェクト専用のインクルードファイル
// を記述します。
+// \8eQ\8fÆ\89ñ\90\94\82ª\91½\82\ad\81A\82©\82Â\82 \82Ü\82è\95Ï\8dX\82³\82ê\82È\82¢\81A\83v\83\8d\83W\83F\83N\83g\90ê\97p\82Ì\83C\83\93\83N\83\8b\81[\83\83t\83@\83C\83\8b
+// \82ð\8bL\8fq\82µ\82Ü\82·\81B
+#pragma once
+#include "targetver.h"
+#include <stdio.h>
+#include <tchar.h>
// TODO: プログラムに必要な追加ヘッダーをここで参照してください。
+#include <Windows.h>
+#include <iostream>
+#include <random>
\ No newline at end of file
diff --git a/mult_matrices/targetver.h b/mult_matrices/targetver.h
new file mode 100644 (file)
index 0000000..10b7ccd
--- /dev/null
@@ -0,0 +1,8 @@
+#pragma once
// SDKDDKVer.h をインクルードすると、利用できる最も上位の Windows プラットフォームが定義されます。
// 以前の Windows プラットフォーム用にアプリケーションをビルドする場合は、WinSDKVer.h をインクルードし、
// SDKDDKVer.h をインクルードする前に、サポート対象とするプラットフォームを示すように _WIN32_WINNT マクロを設定します。
+// \88È\91O\82Ì Windows \83v\83\89\83b\83g\83t\83H\81[\83\80\97p\82É\83A\83v\83\8a\83P\81[\83V\83\87\83\93\82ð\83r\83\8b\83h\82·\82é\8fê\8d\87\82Í\81AWinSDKVer.h \82ð\83C\83\93\83N\83\8b\81[\83h\82µ\81A
+// SDKDDKVer.h \82ð\83C\83\93\83N\83\8b\81[\83h\82·\82é\91O\82É\81A\83T\83|\81[\83g\91Î\8fÛ\82Æ\82·\82é\83v\83\89\83b\83g\83t\83H\81[\83\80\82ð\8e¦\82·\82æ\82¤\82É _WIN32_WINNT \83}\83N\83\8d\82ð\90Ý\92è\82µ\82Ü\82·\81B
+#include <SDKDDKVer.h>