commit ba51e702b05ca28befad11c6ba1ff959554738fc
parent c9cf7ce8b8dc155a58ff5f4b9fbc3a715987f597
Author: Ivan Gankevich <igankevich@ya.ru>
Date: Wed, 1 Nov 2017 19:26:31 +0300
Edit last p.
Diffstat:
2 files changed, 44 insertions(+), 18 deletions(-)
diff --git a/arma-thesis-ru.org b/arma-thesis-ru.org
@@ -2285,6 +2285,33 @@ OpenGL увеличивает производительность путем и
изображения на экране, которые можно убрать, только перезагрузив компьютер.
**** Заключение.
+Тесты показали, что видеокарта превосходит центральный процессор по
+производительности в задачах с большим количеством арифметических операций,
+требующих большое количество операций с плавающей точкой в секунду, однако,
+производительность падает, когда объем данных, которые нужно скопировать между
+памятью процессора и видеокарты, увеличивается или, когда шаблон доступа к
+памяти отличается от линейного. Первая проблема может быть решена путем
+использования сопроцессора, в котором память с высокой пропускной способностью
+расположена на одной плате вместе с процессором и основной памятью. Это
+исключает узкое место при пересылке данных, но может также увеличить время
+выполнения ввиду меньшего количество модулей для операций с плавающей точкой.
+Вторую проблему можно решить программно, при наличии библиотеки для вычисления
+многомерных производных на OpenCL.
+
+Модели АР и СС превосходят модель ЛХ в тестах производительности и для этого не
+требуется наличие видеокарты. Их сильными сторонами с вычислительной точки
+зрения являются
+- отсутствие трансцендентных функций, и
+- простые алгоритмы, производительность которых зависит от производительности
+ библиотеки для многомерных массивов и библиотеки для БПФ.
+Обеспечение основного функционала посредством низкоуровневых библиотек делает
+производительность программы портируемой: поддержка новых архитектур процессоров
+может быть добавлена путем замены библиотек. Наконец, использование явной
+формулы позволяет тратить лишь небольшую долю суммарного времени работы
+программы на вычисление поля потенциала скорости. Если бы такой формулы не было
+или не содержала бы интегралы в виде преобразований Фурье, на вычисление поля
+потенциала скорости затрачивалось бы гораздо больше времени.
+
**** Алгоритм распределения нагрузки. :noexport:
Наиболее простым и широко применяемым подходом к распределению нагрузки на
вычислительную систему является разбиение данных на равные части (или разбиение
diff --git a/arma-thesis.org b/arma-thesis.org
@@ -2234,30 +2234,29 @@ locking of shared buffer: failure to do so results in screen image artefacts
which can be removed only by rebooting the computer.
**** Conclusions.
-Performance benchmarks showed that GPU outperforms CPU in arithmetic intensive
-tasks, i.e.\nbsp{}tasks requiring high number of floating point operations per
-second, however, its performance degrades when the volume of data that needs to
-be copied between CPU and GPU memory increases or when memory access pattern of
-the algorithm is non-linear. The first problem may be solved by using
-co-processors where high-bandwidth memory is located on the same die as the
+Benchmarks showed that GPU outperforms CPU in arithmetic intensive tasks,
+i.e.\nbsp{}tasks requiring high number of floating point operations per second,
+however, its performance degrades when the volume of data that needs to be
+copied between CPU and GPU memory increases or when memory access pattern
+differs from linear. The first problem may be solved by using a co-processor
+where high-bandwidth memory is located on the same die together with the
processor and the main memory. This eliminates data transfer bottleneck, but may
also increase execution time due to smaller number of floating point units. The
-second problem may be solved programmatically, by using OpenCL library that
-optimises multi-dimensional array traversals for GPUs; due to unavailability of
-such library this was not done in present work.
+second problem may be solved programmatically, if OpenCL library that computes
+multi-dimensional derivatives were available.
-ARMA model outperforms LH model in benchmarks and does not require GPU to do so.
-Its computational strengths are:
+AR and MA models outperforms LH model in benchmarks and does not require GPU to
+do so. From computational point of view their strengths are
- vicinity of transcendental mathematical functions, and
- simple algorithm for both AR and MA model, performance of which depends on the
performance of multi-dimensional array library and FFT library.
-Providing main functionality via low-level libraries makes performance portable:
-support for new processor architectures can be added by substituting the
-libraries. Finally, using analytic formula for velocity potential field made
-velocity potential solver consume only a small fraction of total programme
-execution time. If such formula was not available or did not have all integrals
-as Fourier transforms, performance of velocity potential computation would be
-much lower.
+Providing main functionality via low-level libraries makes performance of the
+programme portable: support for new processor architectures can be added by
+substituting the libraries. Finally, using explicit formula for makes made
+velocity potential field computation consume only a small fraction of total
+programme execution time. If such formula did not exist or did not have all
+integrals as Fourier transforms, velocity potential field computation would
+consume much more time.
** Fault-tolerant batch job scheduler
*** System architecture