arma-thesis

git clone https://git.igankevich.com/arma-thesis.git
Log | Files | Refs | LICENSE

commit 537a59cb60685cc6a50ead175524af2d0d344e68
parent d76a9a3235b84a6e0183459dfba2b01c86be993e
Author: Ivan Gankevich <igankevich@ya.ru>
Date:   Wed,  8 Nov 2017 14:24:25 +0300

Edit conclusions.

Diffstat:
arma-thesis-ru.org | 38+++++++++++++++++++-------------------
arma-thesis.org | 32++++++++++++++++----------------
2 files changed, 35 insertions(+), 35 deletions(-)

diff --git a/arma-thesis-ru.org b/arma-thesis-ru.org @@ -3721,12 +3721,12 @@ title(xlab="Размер взволнованной поверхности", yla :END: Этот алгоритм в отличие от параллельной версии, использует копирование данных -для того чтобы выполнить вычисления на других узлах кластера, и, поскольку -пропускная способность сети гораздо меньше, чем у памяти, размер передаваемых по -сети данных должен быть оптимизирован для получения большей производительности, -чем на системе с общей памятью. Один из способов добиться этого\nbsp{}--- это +для выполнения вычислений на других узлах кластера, и, поскольку пропускная +способность сети гораздо меньше, чем у памяти, размер передаваемых по сети +данных должен быть оптимизирован для получения большей производительности, чем +на системе с общей памятью. Один из способов добиться этого\nbsp{}--- это распределить части взволнованной поверхности между узлами кластера, копируя на -узлы коэффициенты и необходимы точки на границах, и, копируя обратно +узлы коэффициенты и необходимые точки на границах, и, копируя обратно сгенерированную часть взволнованной поверхности. Авторегрессионные зависимости не позволяют создать все части сразу и статически распределить их между узлами кластера, поэтому части создаются динамически на первом узле, когда точки, от @@ -3752,11 +3752,11 @@ title(xlab="Размер взволнованной поверхности", yla параллельной. - Конвейеры автоматически распределяют подчиненные объекты между доступными узлами кластера, и приложение не имеет дела с такими низкоуровневыми деталями. -- Нет необходимости реализовать минималистичный планировщик задач, которые - определят последовательность выполнения задач (объектов), учитывая +- Нет необходимости реализовать минималистичный планировщик задач, который + определяет последовательность выполнения задач (объектов), учитывая авторегрессионные зависимости: порядок выполнения полностью определяется в методе ~react~ руководящего объекта. -- Нет необходимости в отдельной версии программы для машину с общей памятью, +- Нет необходимости в отдельной версии программы для машины с общей памятью: реализация работает прозрачно на любой количестве узлов, даже если планировщик задач не запущен. @@ -3779,12 +3779,12 @@ Bscheduler превосходит OpenMP как на одном, так и на версии программы для Bscheduler, поскольку сканирование очереди задач не может быть эффективно реализовано в рамках этого планировщика. В случае двух узлов более высокая производительность объясняется большим суммарным количеством -процессорных ядер (16), высокой пропускной способностью прямого сетевого +процессорных ядер (16) и высокой пропускной способностью прямого сетевого соединения. Таким образом, реализация распределенного алгоритма модели АР на Bscheduler быстрее на системе с общей памятью ввиду более эффективной обработки -авторегрессионных зависимостей, и его производительность масштабируется на -большее количество ядер ввиду низких накладных расходов на передачу данных по -прямому сетевому соединению. +авторегрессионных зависимостей, а на системе с распределенной памятью его +производительность масштабируется на большее количество ядер ввиду низких +накладных расходов на передачу данных по прямому сетевому соединению. #+name: fig-bscheduler-performance #+begin_src R :file build/bscheduler-performance-ru.pdf @@ -3812,17 +3812,17 @@ title(xlab="Размер взволнованной поверхности", yla В изучении возможностей математического аппарата для имитационного моделирования морского волнения, выходящего за рамки линейной теории волн, были достигнуты следующие основные результаты. -- Процесс АРСС был использован для моделирования морских волн произвольных +- Процессы АР и СС были использованы для моделирования морских волн произвольных амплитуд. Интегральные характеристики генерируемой взволнованной поверхности были верифицированы путем сопоставления с характеристиками реальной морской поверхности. - Новый метод был использован для вычисления поля потенциала скорости под - генерируемой поверхностью. Получившееся поле потенциалов скоростей было - верифицировано путем сравнения с полем, вычисляемым по формулам из линейной - теории волн. Новый метод эффективен с вычислительной точки зрения, поскольку - все интегралы в его формуле записываются как преобразования Фурье, для - которого существуют высокопроизводительные реализации. -- Модель и метод были реализована для систем как с общей, так и с распределенной + генерируемой поверхностью. Получившееся поле было верифицировано путем + сравнения с полем, вычисляемым по формулам из линейной теории волн. Новый + метод эффективен с вычислительной точки зрения, поскольку все интегралы в его + формуле записываются как преобразования Фурье, для которого существуют + высокопроизводительные реализации. +- Модель и метод были реализованы для систем как с общей, так и с распределенной памятью, и в нескольких тестах показали масштабируемость на различном количество ядер, которая близка к линейной. Модель АР более эффективна с вычислительной точки зрения на центральном процессоре, нежели на видеокарте, и diff --git a/arma-thesis.org b/arma-thesis.org @@ -3629,9 +3629,10 @@ only for newer Bscheduler version, as queue scanning can not be performed efficiently in this framework. In case of two nodes the higher performance is explained by a greater total number of processor cores (16) and high network throughput of the direct network link. So, Bscheduler implementation of -distributed AR model algorithm is faster on single node due to more efficient -autoregressive dependencies handling and its performance scales to a larger -number of cores due to small data transmission overhead of direct network link. +distributed AR model algorithm is faster on shared memory system due to more +efficient autoregressive dependencies handling and its performance on +distributed memory system scales to a larger number of cores due to small data +transmission overhead of direct network link. #+name: fig-bscheduler-performance #+begin_src R :file build/bscheduler-performance.pdf @@ -3658,20 +3659,19 @@ title(xlab="Wavy surface size", ylab="Time, s") **** Research results. In the study of mathematical apparatus for sea wave simulations which goes beyond linear wave theory the following main results were achieved. -- ARMA model was applied to simulation of sea waves of arbitrary amplitudes. - Integral characteristics of generated wavy surface were verified by comparing - to the ones of a real sea surface. +- AR and MA models were applied to simulation of sea waves of arbitrary + amplitudes. Integral characteristics of generated wavy surface were verified + by comparing to the ones of a real sea surface. - New method was applied to compute velocity potentials under generated surface. - The resulting velocity potential field was verified by comparing it to the one - given by formulae from linear wave theory for small-amplitude waves. For - large-amplitude waves the new method gives a reasonably different field. The - method is computationally efficient because all the integrals in its formula - are written as Fourier transforms, for which there are high-performance - implementations. -- The model and the method were implemented for both SMP and MPP systems, and - showed near linear scalability for different number of cores in several - benchmarks. AR model is more computationally efficient on CPU than on GPU, and - outperforms LH model. + The resulting field was verified by comparing it to the one given by formulae + from linear wave theory for small-amplitude waves. For large-amplitude waves + the new method gives a reasonably different field. The method is + computationally efficient because all the integrals in its formula are written + as Fourier transforms, for which there are high-performance implementations. +- The model and the method were implemented for both shared and distributed + memory systems, and showed near linear scalability for different number of + cores in several benchmarks. AR model is more computationally efficient on CPU + than on GPU, and outperforms LH model. **** Further research directions. One of the topic of future research is studying generation of wave of arbitrary