commit aec3641ae830e80d764173a2f236bf5116083703
parent 66bc238d84598cacaec371a8aea4833d5d0c467c
Author: Ivan Gankevich <igankevich@ya.ru>
Date: Wed, 1 Nov 2017 15:54:33 +0300
Edit p2.
Diffstat:
2 files changed, 17 insertions(+), 7 deletions(-)
diff --git a/arma-thesis-ru.org b/arma-thesis-ru.org
@@ -2236,7 +2236,18 @@ title(xlab="Размер взволнованной поверхности по
#+RESULTS: fig-arma-realtime-graph
[[file:build/realtime-performance-ru.pdf]]
-
+Причина разного распределения времени работы между подпрограммами OpenCL и
+OpenMP та же, что и в случае разной производительности модели АР на центральном
+процессоре и видеокарте: видеокарта выполняет больше операций с плавающей точкой
+в секунду и имеет больше модулей транцендентных функций, чем процессор, что
+ускоряет вычисление \(g_1\), но в ней отсутствует кэш, который необходим для
+оптимизации нерегулярного шиблона доступа к памяти при вычслении \(g_2\). В
+отличие от модели АР, производительность вычисления многомерной производной на
+видеокарте легче увеличить ввиду отсутствия информационных зависимостей между
+точками: в данной работе оптимизация не была проведена ввиду отсутствия готовой
+реализации. Кроме того, такая реализация может позволить эффективно вычислить
+неупрощенную формулу полностью на видеокарте, поскольку опущенные в формуле
+функции также содержат производные.
#+name: tab-arma-realtime
#+begin_src R
diff --git a/arma-thesis.org b/arma-thesis.org
@@ -2189,13 +2189,12 @@ title(xlab="Wavy surface size", ylab="Time, s")
The reason for different distribution of time between computation stages is the
same as for different AR model performance on CPU and GPU: GPU has more floating
-point units and modules for transcendental mathematical functions, which are
-needed for computation of \(g_1\), but lacks caches which are needed to
-optimised irregular memory access pattern of \(g_2\). In contrast to AR model,
+point units and modules for transcendental mathematical functions, than CPU,
+which are needed for computation of \(g_1\), but lacks caches which are needed
+to optimise irregular memory access pattern of \(g_2\). In contrast to AR model,
performance of multidimensional derivative computation on GPU is easier to
-improve, as there are no information dependencies between points:
-Multidimensional array library optimised for GPU may solve the problem, however,
-due to unavailability of such library it was not done in this work.
+improve, as there are no information dependencies between points: in this work
+optimisation was not done due to unavailability of existing implementation.
Additionally, such library may allow to efficiently compute the non-simplified
formula entirely on GPU, since omitted terms also contain derivatives.