Parallel implementations of the cholesky decomposition on CPUs and GPUs

Ruschel, João Paulo Tarasconi

dc.contributor.advisor	Navaux, Philippe Olivier Alexandre	pt_BR
dc.contributor.author	Ruschel, João Paulo Tarasconi	pt_BR
dc.date.accessioned	2017-01-19T02:29:50Z	pt_BR
dc.date.issued	2016	pt_BR
dc.identifier.uri	http://hdl.handle.net/10183/151001	pt_BR
dc.description.abstract	As Central Processing Units (CPUs) and Graphical Processing Units (GPUs) get progressively better, different approaches and designs for implementing algorithms with high data load must be studied and compared. This work compares several different algorithm designs and parallelization APIs (such as OpenMP, OpenCL and CUDA) for both CPU and GPU platforms. We used the Cholesky decomposition, a high-level arithmetic algorithm used in many linear algebra problems, as the benchmarking algorithm, due to being easily parallelizable, and having a considerable data dependence between elements. We carried out various experiments using the different designs and APIs in order to find the techniques which yield the best performance for each platform. We also compared these implementations with state-of-the-art solutions (such as LAPACK and cu- SOLVER), and provided insights into the differences in implementation and performance. Our experiments showed us that parallelization on CPU tends to have a better performance than on GPU for this particular kind of algorithm, due to the intrinsic memory-intensive nature of the algorithm and memory transfer overhead, and that attempts at code micro-optimization do not offer any significant speedup.	en
dc.description.abstract	À medida que Unidades Centrais de Processamento (CPUs) e Gráfico (GPUs) evoluem progressivamente, diferentes abordagens e modelos para implementação de algoritmos com alta carga de dados devem ser estudados e comparados. Este trabalho compara diversos modelos de algoritmos e APIs de paralelização (como OpenMP, OpenCL e CUDA) para as plataformas CPU e GPU. Nós usamos a decomposição de Cholesky, um algoritmo aritmético de alto nível usado em diversos problemas de álgebra linear, como referência, devido a sua fácil paralelização, bem como apresentar alta dependência de dados entre os elementos. Diversos experimentos foram realizados, utilizando os diferentes modelos e APIs a fim de encontrar as técnicas que fornecem a melhor performance em cada plataforma. Tambémcomparamos essas implementações com soluções profissionais (como LAPACK e cuSOLVER), examinando as discrepâncias de implementação e performance. Os experimentos demonstram que a CPU tende a ter melhor performance que a GPU para esse tipo de algoritmo, devido à sua natureza intensiva em memória e o overhead intrínseco da transferência de dados, e que tentativas de micro-otimizações de código não oferecem nenhuma melhora de performance.	pt_BR
dc.format.mimetype	application/pdf	pt_BR
dc.language.iso	eng	pt_BR
dc.rights	Open Access	en
dc.subject	HPC	en
dc.subject	Processamento paralelo	pt_BR
dc.subject	Parallel programming	en
dc.subject	OpenMP	en
dc.subject	OpenCL	en
dc.subject	CUDA	en
dc.subject	CPU	en
dc.subject	GPU	en
dc.subject	Cholesky	en
dc.title	Parallel implementations of the cholesky decomposition on CPUs and GPUs	pt_BR
dc.title.alternative	Implementação paralelas da decomposição de cholesky em CPU e GPU	pt
dc.type	Trabalho de conclusão de graduação	pt_BR
dc.contributor.advisor-co	Diener, Matthias	pt_BR
dc.identifier.nrb	001009773	pt_BR
dc.degree.grantor	Universidade Federal do Rio Grande do Sul	pt_BR
dc.degree.department	Instituto de Informática	pt_BR
dc.degree.local	Porto Alegre, BR-RS	pt_BR
dc.degree.date	2016	pt_BR
dc.degree.graduation	Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado	pt_BR
dc.degree.level	graduação	pt_BR

Nome:: 001009773.pdf
Tamanho:: 382.5Kb
Formato:: PDF
Descrição:: Texto completo (inglês)

Visualizar/abrir

Este item está licenciado na Creative Commons License

Trabalhos de Conclusão de Curso de Graduação (36636)

TCC Ciência da Computação (1000)

Mostrar registro simples