arma-thesis

git clone https://git.igankevich.com/arma-thesis.git
Log | Files | Refs | LICENSE

commit c8bda799e023c5c0c5b1515ba5f13c55fe0b2a9e
parent da7fbe0282f272b32f31b4369e363440ceb927e0
Author: Ivan Gankevich <igankevich@ya.ru>
Date:   Tue, 31 Oct 2017 19:42:20 +0300

Edit last p.

Diffstat:
arma-thesis-ru.org | 23++++++++++++++++++-----
arma-thesis.org | 10+++++-----
2 files changed, 23 insertions(+), 10 deletions(-)

diff --git a/arma-thesis-ru.org b/arma-thesis-ru.org @@ -2042,11 +2042,24 @@ arma.print_openmp_vs_opencl(model_names, row_names) Модель СС быстрее, чем модель ЛХ, но медленнее, чем модель АР. Поскольку свертка в ее формуле реализована с помощью БПФ, ее производительность зависит от -производительности реализации БПФ: библиотека GSL для процессора и clFFT для -видеокарты. В данной работе производительность модели СС на видеокарте не была -протестирована ввиду недоступности трехмерного БПФ в библиотеке clFFT; если бы -преобразование было доступно, оно могло бы сделать модель даже более быстрой, -чем АР. +производительности реализации БПФ: библиотека GSL для центрального процессора и +clFFT для видеокарты. В данной работе производительность модели СС на видеокарте +не была протестирована ввиду недоступности трехмерного БПФ в библиотеке clFFT; +если бы преобразование было доступно, оно могло бы сделать модель даже более +быстрой, чем АР. + +НБП занимает меньше времени на видеокарте, чем на центральном процессоре, +однако, если принять во внимание время передачи данных между ними, время +становится сопоставимым. Это объясняется большим количеством транцендентных +функций, которые необходимо вычислить для каждой точки взволнованной поверхности +для преобразования ее координат \(z\). Для каждой точки нелинейное +транцендентное уравнение\nbsp{}eqref:eq-distribution-transformation решается +методом бисекции. Видеокарта выполняет эту задачу в несколько сотен раз быстрее, +чем центральный процессор, но тратит много времени на передачу результата +обратно в память процессора. Таким образом, единственная возможность +оптимизировать эту подпрограмму заключается в использовании метода поиска корня +уравнения с квадратичной сходимостью, чтобы уменьшить количество трансцендентных +функций, которые необходимо вычислить. **** Производительность ввода-вывода. **** Параллельное вычисление поля потенциала скорости. diff --git a/arma-thesis.org b/arma-thesis.org @@ -2006,13 +2006,13 @@ three-dimensional FFT in clFFT library; if the transform was available, it could made the model even faster than AR. NIT takes less time on GPU and more time on CPU, but taking data transfer -between CPU and GPU into consideration makes their execution time comparable. -This is explained by the large amount of transcendental mathematical functions -that need to be computed for each wavy surface point to transform distribution -of its \(z\)-coordinates. For each point a non-linear transcendental +between them into consideration makes their execution time comparable. This is +explained by the large amount of transcendental functions that need to be +computed for each wavy surface point to transform distribution of its +\(z\)-coordinates. For each point a non-linear transcendental equation\nbsp{}eqref:eq-distribution-transformation is solved using bisection method. GPU performs this task several hundred times faster than CPU, but spends -a lot of time to transfer the result back to the main memory. So, the only +a lot of time to transfer the result back to the processor memory. So, the only possibility to optimise this routine is to use root finding method with quadratic convergence rate to reduce the number of transcendental functions that need to be computed.