commit ab6b86876ecca6dc7c6b555026c2504d3b459626
parent c75c7ea0a2b0dbc09ceec295b6fea36b27edb181
Author: Ivan Gankevich <igankevich@ya.ru>
Date: Tue, 31 Oct 2017 17:00:27 +0300
Edit p1.
Diffstat:
2 files changed, 48 insertions(+), 16 deletions(-)
diff --git a/arma-thesis-ru.org b/arma-thesis-ru.org
@@ -1871,6 +1871,39 @@ MPP части, от которых зависит данная, должны б
ввиду наличия трансцендентных функций в формуле.
**** Производительность реализаций на OpenMP и OpenCL.
+Разница параллельных алгоритмов моделей делает их эффективными на разных
+архитектурах процессоров, и для того чтобы найти наиболее эффективную все модели
+были протестированы на процессоре и видеокарте.
+
+Модель АРСС не требует высоко оптимизированных кодов для того чтобы быть
+эффективными, его производительность высокая и без использования сопроцессоров;
+на это есть две причины. Во-первых, сама модель АРСС не использует
+трансцендентные функции (синусы, косинусы и экспоненты) в отличие от модели ЛХ.
+Все вычисления (исключая коэффициенты модели) производятся через полиномы,
+которые эффективно вычисляются на современных процессорах, используя
+последовательность инструкций FMA. Во-вторых, вычисления давлений происходит по
+явной аналитической формуле, используя несколько БПФ. Поскольку двухмерное БПФ
+одного и того же размера постоянно вычисляется на каждом временом срезе, его
+коэффициенты (комплексные экспоненты) вычисляются один раз для всех временных
+срезов, и дальнейшие вычисления включают в себя лишь несколько трансцендентных
+функций. В случае модели СС, производительность также повышается за счет
+вычисления свертки с помощью БПФ. Таким образом, высокая производительность
+модели АРСС обусловлена скудным использованием трансцендентных функций и
+интенсивным использованием БПФ, не говоря уже о том что высокая сходимость и
+отсутствие периодичности позволяют использовать гораздо меньше коэффициентов по
+сравнению с моделью ЛХ.
+
+#+name: tab-gpulab
+#+caption: Конфигурация системы "Gpulab".
+#+attr_latex: :booktabs t
+| Процессор | AMD FX-8370 |
+| Память | 16ГБ |
+| Видеокарта | GeForce GTX 1060 |
+| Память видеокарты | 6ГБ |
+| Жесткий диск | WDC WD40EZRZ-00WN9B0, 5400об/мин |
+| Количество процессорных ядер | 4 |
+| Количество потоков на ядро | 2 |
+
**** Производительность ввода-вывода.
**** Параллельное вычисление поля потенциала скорости.
**** Производительность OpenCL-решателя, вычисляющего поле потенциала скорости.
diff --git a/arma-thesis.org b/arma-thesis.org
@@ -1848,24 +1848,23 @@ Differences in models' parallel algorithms make them efficient on different
processor architectures, and to find the most efficient one all the models were
benchmarked in both CPU and GPU.
-ARMA model does not require highly optimised software implementation to be
-efficient, its performance is high even without use of co-processors; there are
-two main causes of that. First, ARMA model itself does not use transcendental
-functions (sines, cosines and exponents) as opposed to LH model. All
-calculations (except model coefficients) are done via polynomials, which can be
-efficiently computed on modern processors using a series of FMA instructions.
-Second, pressure computation is done via explicit analytic formula using nested
-FFTs. Since two-dimensional FFT of the same size is repeatedly applied to every
-time slice, its coefficients (complex exponents) are pre-computed for all
-slices, and computations are performed with only a few transcendental functions.
-In case of MA model, performance is also increased by doing convolution with FFT
-transforms. So, high performance of ARMA model is due to scarce use of
-transcendental functions and heavy use of FFT, not to mention that high
-convergence rate and non-existence of periodicity allows to use far fewer
-coefficients compared to LH model.
+ARMA model does not require highly optimised codes to be efficient, its
+performance is high even without use of co-processors; there are two main causes
+of that. First, ARMA model itself does not use transcendental functions (sines,
+cosines and exponents) as opposed to LH model. All calculations (except model
+coefficients) are done via polynomials, which can be efficiently computed on
+modern processors using a series of FMA instructions. Second, pressure
+computation is done via explicit analytic formula using nested FFTs. Since
+two-dimensional FFT of the same size is repeatedly applied to every time slice,
+its coefficients (complex exponents) are pre-computed one time for all slices,
+and further computations involve only a few transcendental functions. In case of
+MA model, performance is also increased by doing convolution with FFT. So, high
+performance of ARMA model is due to scarce use of transcendental functions and
+heavy use of FFT, not to mention that high convergence rate and non-existence of
+periodicity allows to use far fewer coefficients compared to LH model.
#+name: tab-gpulab
-#+caption: "Gpulab" test platform configuration.
+#+caption: "Gpulab" system configuration.
#+attr_latex: :booktabs t
| CPU | AMD FX-8370 |
| RAM | 16Gb |