Foyer
Auditorium
09:00 - 09:15
09:15 - 10:30
Speaker: Prof. Carla Osthoff (LNCC)
The scientific gateway BioinfoPortal for bioinformatics applications is hosted in the National Laboratory for Scientific Computing (LNCC) and is coupled to the Santos Dumont (SDumont) supercomputer environment. BioinfoPortal offers a catalog of bioinformatics computational software that benefits from the parallel and distributed architecture offered by LNCC. Task submissions consume SDumont nodes shared by other supercomputer users; then, it is required to set the best configuration, defined by the best choice of the number of threads/nodes, to be allocated for every task submission. This talk presents research analysis using Deep Neural Networks to estimate the computational time required to execute bioinformatics software in several scenarios using a pre-configured number of nodes and threads. We aim to demonstrate the computational behavior of software in Bioinfoportal and which computational scenario can be chosen to execute software in SDumont efficiently. Results support that the neural networks can predict the most representative variable and identify the configuration with the lowest computational time. This way, BioinforPortal consuming time can lead to an efficient and green gateway, increasing Santos Dumont Supercomputing execution job throughput and decreasing job execution queue waiting time.
Room 501
09:00 - 10:30
Room 502
Ao longo do minicurso, os participantes terão a oportunidade de conhecer os conceitos essenciais de processamento e análise de volumes massivos de dados (Big Data) e o processo de desenvolvimento de um serviço de consulta fazendo uso da plataforma opensource composta por um Cluster Computacional de Alto Desempenho (HPCC Systems) e, também, a utilização de algoritmos de Aprendizado de Máquina, bem como terão a possibilidade de aplicar os conhecimentos adquiridos em um ambiente de treinamento disponibilizado em sala de aula.
09:00 - 10:30
Room 514
The authors will present the new OpenMP Cluster (OMPC) distributed programming model in this tutorial. The OMPC runtime allows the programmer to annotate their code using OpenMP target offloading directives and run the application in a distributed environment seamlessly using a task-based programming model. OMPC is responsible for scheduling tasks to available nodes, transferring input/output data between nodes, and triggering remote execution all the while handling fault tolerance. The runtime leverages the LLVM infrastructure and is implemented using the well-known MPI library.
09:00 - 10:30
Room 515
Este minicurso ensina as ferramentas e técnicas fundamentais para otimizar o desempenho e consumo de energia de aplicações escritas em linguagens C/C++, explorando a combinação de diferentes tipos de processadores, como CPUs e GPUs. O minicurso não exige nenhum conhecimento prévio em interfaces de programação paralela, mas requer alguns conhecimentos básicos em C/C++, sistemas operacionais e arquitetura de computadores.
Foyer
Auditorium
Room 501
11:00 - 12:00
Room 502
Ao longo do minicurso, os participantes terão a oportunidade de conhecer os conceitos essenciais de processamento e análise de volumes massivos de dados (Big Data) e o processo de desenvolvimento de um serviço de consulta fazendo uso da plataforma opensource composta por um Cluster Computacional de Alto Desempenho (HPCC Systems) e, também, a utilização de algoritmos de Aprendizado de Máquina, bem como terão a possibilidade de aplicar os conhecimentos adquiridos em um ambiente de treinamento disponibilizado em sala de aula.
11:00 - 12:00
Room 514
The authors will present the new OpenMP Cluster (OMPC) distributed programming model in this tutorial. The OMPC runtime allows the programmer to annotate their code using OpenMP target offloading directives and run the application in a distributed environment seamlessly using a task-based programming model. OMPC is responsible for scheduling tasks to available nodes, transferring input/output data between nodes, and triggering remote execution all the while handling fault tolerance. The runtime leverages the LLVM infrastructure and is implemented using the well-known MPI library.
11:00 - 12:00
Room 515
Este minicurso ensina as ferramentas e técnicas fundamentais para otimizar o desempenho e consumo de energia de aplicações escritas em linguagens C/C++, explorando a combinação de diferentes tipos de processadores, como CPUs e GPUs. O minicurso não exige nenhum conhecimento prévio em interfaces de programação paralela, mas requer alguns conhecimentos básicos em C/C++, sistemas operacionais e arquitetura de computadores.
Auditorium
Room 501
13:30 - 13:40
13:40 - 14:20
Speaker: Horacio González-Vélez
In the ever-evolving landscape of cloud computing and high-performance applications, this talk delves into the critical juncture of HPC and cloud, with special emphasis on key challenges such as Power Consumption, Speed and Energy of Data Movement, Fault Tolerance, and Billion-Way Parallelism. This keynote explores the intersection of cloud computing and high-performance computing from a programmability perspective, shedding light on how they can harmonise to propel us into the next era of sustainability. The discussion will delve into the challenges and opportunities that arise when pushing the boundaries of programmability and performance in the cloud, particularly in the context of Power, Data Movement, Fault Tolerance, and Billion-Way Parallelism. It will address strategies for optimising resources to meet the demanding requirements of high-performance applications, including those in fields such as scientific research and data-intensive workloads, emphasising the importance of programmability, sustainability, energy efficiency, and cost-effectiveness.
13:30 - 15:00
Room 502
Plataformas computacionais para processamento de alto desempenho usualmente são compartilhadas por usuários com demandas variadas. Com frequência aplicações legadas ou aquelas que possuem requisitos e dependências muito específicas sobrecarregam os administradores do sistema ou simplesmente tem sua execução inviabilizada. Uma solução passa a ser configurar, compilar e instalar a aplicação e as respectivas dependências inteiramente em espaço de usuário. Entretanto, tal tarefa é custosa e propensa a erros, o que motiva a adoção de soluções automatizadas. Neste minicurso, propomos a apresentação de duas soluções que permitem a instalação de pacotes inteiramente em espaço de usuário de maneira reprodutível e compartilhável.
13:30 - 15:00
Room 514
Este minicurso consiste em 3 partes, de aproximadamente 50 minutos. Inicialmente, haverá exposição dos conceitos básicos para compreensão do tema, utilizando abordagem gamificada. Na segunda parte, os participantes colocarão estas novas informações em prática, "hackeando" o sistema evolutivo, experimentando variações nos parâmetros de entrada e de configuração. Por último, será escolhida a melhor abordagem a ser implementada em um próximo encontro (virtual), é demonstrado como o sistema selecionado pode ser implementado utilizando um dispositivo de computação reconfigurável (FPGA).
13:30 - 15:00
Room 515
Este minicurso abordará as principais formas de conexões existentes, tais como SATA, SCSI, SAS, iSCSI, Fibre Channel, entre outras. Os participantes poderão compreender as vantagens e desvantagens de cada uma dessas opções, bem como entender a importância da escolha correta na hora de definir a solução de armazenamento adequada para cada situação. Serão discutidos os diversos tipos de dispositivos de armazenamento existentes no mercado, tais como unidade de disco rígido (HDD) , unidades de disco sólido (SSD), unidades de fita (tape drive), cartões de memória, entre outros. Os participantes poderão entender as características de cada um desses dispositivos, bem como saber qual a melhor opção.
Foyer
Auditorium
15:30 - 17:00
Panelists: Profa. Lucia Drummond (UFF), Prof. Antônio Tadeu Azevedo Gomes (LNCC), Profa. Mariza Ferro (UFF), Dr. Fabio Alves de Oliveira (NVidia)
Moderator: Profa. Flavia Bernardini (UFF)
Machine Learning (ML) area have evolved in the last years due to the development of High Performance Computing (HPC). On the other hand, we also have seen many works for evolving HPC through ML. In this context, we could ask: If the community needs HPC to make huge ML-based models more effective, but this same community also needs ML to empower HPC, which area starts this run? Are they exclusive or can we consider both initiatives? This panel aims to discuss this chicken-egg dilemma.
Room 501
15:30 - 17:00
Chair: Márcio Castro (UFSC) / Philippe O. A. Navaux (UFRGS)
A Preliminary Review of Function as a Service Platform Running with AWS Spot Instances
Evaluation Model and Performance Analysis of NIC Aggregations in Containerized Private Clouds
A Performance Comparison of HPC Workloads on Traditional and Cloud-based HPC Clusters
Optimizing Microservices Performance and Resource Utilization through Containerized Grouping: An Experimental Study
Conceptual and comparative analysis of application metrics in microservices
15:30 - 17:00
Room 502
Plataformas computacionais para processamento de alto desempenho usualmente são compartilhadas por usuários com demandas variadas. Com frequência aplicações legadas ou aquelas que possuem requisitos e dependências muito específicas sobrecarregam os administradores do sistema ou simplesmente tem sua execução inviabilizada. Uma solução passa a ser configurar, compilar e instalar a aplicação e as respectivas dependências inteiramente em espaço de usuário. Entretanto, tal tarefa é custosa e propensa a erros, o que motiva a adoção de soluções automatizadas. Neste minicurso, propomos a apresentação de duas soluções que permitem a instalação de pacotes inteiramente em espaço de usuário de maneira reprodutível e compartilhável.
15:30 - 17:00
Room 514
Este minicurso consiste em 3 partes, de aproximadamente 50 minutos. Inicialmente, haverá exposição dos conceitos básicos para compreensão do tema, utilizando abordagem gamificada. Na segunda parte, os participantes colocarão estas novas informações em prática, "hackeando" o sistema evolutivo, experimentando variações nos parâmetros de entrada e de configuração. Por último, será escolhida a melhor abordagem a ser implementada em um próximo encontro (virtual), é demonstrado como o sistema selecionado pode ser implementado utilizando um dispositivo de computação reconfigurável (FPGA).
15:30 - 17:00
Room 515
Este minicurso abordará as principais formas de conexões existentes, tais como SATA, SCSI, SAS, iSCSI, Fibre Channel, entre outras. Os participantes poderão compreender as vantagens e desvantagens de cada uma dessas opções, bem como entender a importância da escolha correta na hora de definir a solução de armazenamento adequada para cada situação. Serão discutidos os diversos tipos de dispositivos de armazenamento existentes no mercado, tais como unidade de disco rígido (HDD) , unidades de disco sólido (SSD), unidades de fita (tape drive), cartões de memória, entre outros. Os participantes poderão entender as características de cada um desses dispositivos, bem como saber qual a melhor opção.
Theater
Museum
Foyer
Theater
Chair: Jay Lofstead (Sandia National Laboratories, USA)
Improved Computation of Database Operators via Vector Processing Near-Data
Analysing Mechanisms for Virtual Channel Management in Low-Diameter Networks
Dynasor: A Dynamic Memory Layout for Accelerating Sparse MTTKRP for Tensor Decomposition on Multi-core CPU
Auditorium
Chair: Arthur Lorenzon (UFRGS)
New Kids on the Unblocking: Strategies to Overcome Blocking Networks
Virtualização e Migração de Processos em um Sistema Operacional Distribuído para Lightweight Manycores
KCGRA- Uma Arquitetura Reconfigurável de Dominio Específico para K-means
Room 501
Chair: Guilherme Galante (Unioeste)
Simulador do Algoritmo de Tomasulo com Conjunto de Instruções RISC-V
Abordagem para Aprendizado do Simulador gem5 para Pesquisadores Iniciantes
Performance Evaluation of Intel and AMD Memory Hierarchies Using a Simulation-driven Approach With Gem5
A Systematic Literature Review on Optimization Techniques for Quantum Computing Compilers
Foyer
Theater
Speaker: Ivona Brandic
Chair: César De Rose
Real life applications can be executed on devices that range in size from smartphones to warehouse size data centers. Meanwhile, architectures are becoming heterogeneous including various accelerators and even non von Neumann computers into the computational continuum. In this talk we discuss challenges when benchmarking different types of applications on a hybrid computational continuum. First, we present the methods for decomposition and execution of HPC applications on hybrid Classic/Quantum systems. Second, we discuss the benefits but also problems and challenges when executing applications of hybrid systems. Third, we revisit the current state of the art testbeds for the execution and benchmarking of hybrid classic/quantum.
Theater
Chair: Krishna Kavi (University of North Texas, USA)
Using Logging-on-Write to Improve Non-Volatile Memory Checkpoints via Processing-in-Memory
A Practical Approach For Workload-Aware Data Movement in Disaggregated Memory Systems
Performance Modeling and Estimation of a Configurable Output Stationary Neural Network Accelerator
Auditorium
Chair: Márcio Castro (UFSC)
Prediction of Reservoir Simulation Jobs Times Using a Real-World SLURM Log
Análise da Execução de Algoritmos de Aprendizado de Máquina em Dispositivos Embarcados
Estratégia de Posicionamento de Aplicações Sensíveis à Privacidade e Latência em Bordas Federadas
Dynamic Provisioning of Container Registries in Edge Computing Infrastructures
Room 501
Chair: Arthur Lorenzon (UFRGS)
Case Study on the Use of Winograd-Based Convolution for CNN Inference in FPGA
Análise do Desempenho Computacional de Algoritmos Paralelizados com OpenMP e MPI Executados em Raspberry Pi
Avaliando eficiência energética em padrões de algoritmos para computação científica e de alto desempenho
Estudo de Desempenho de Duas Estratégias Paralelas Aplicadas ao Ajuste de Parâmetros de um Modelo Matemático da Esclerose Múltipla
Foyer
Theater
Chair: Viktor Prasanna (University of Southern California, USA)
Improving Fault Tolerance in Blockchain Sharding using One-to-Many Block-to-Shard Mapping
A Distributed Algorithm for Identifying Strongly Connected Components on Incremental Graphs
Performance Modeling of MARE2DEM's Adaptive Mesh Refinement for Makespan Estimation
Auditorium
Chair: Antonio C. S. Beck Filho (UFRGS)
Comparison of scalable distributed algorithms for assessing the kNNG in multi-GPU
Data mapping strategies for multi-GPU implementation of a seismic application
BWJOIN: A Blockwise GPU-based Algorithm for Set Similarity Joins
The Impact of Hyperledger Fabric Setup on Blockchain Performance when Using Large Volumes of Heterogeneous Medical Data
Room 501
Chair: Carlos Augusto Martins (PUC Minas) e Ricardo Menotti (UFSCar)
Aprendendo Hierarquia de Memória e a Exploração das Localidades Espacial e Temporal com o Simulador Amnesia
Enhancing Supercomputing Education through a Low-Cost Cluster: A Case Study at Insper
Ensino de Software Pipelining e Escalonamento em GPUs com Python
ODS como Temática para a Prática em Circuitos Digitais: relato de experiência
Experiências com o Ensino de Arquiteturas e Programação Paralela: da Construção à Avaliação
Theater
Speaker: Rogério Chola (Dell)
Chair: Dalvan Griebler
Theater
Panelists: Dr. Luiz Monnerat, Pedro Leite da Silva Dias, Antônio Tadeu A. Gomes
Moderator: Philippe Olivier Alexandre Navaux
In the last TOP500, Brazil appears with 9 computers on the list. There are currently several investments in machines being prepared, including a call for 100 million reais for machines. The Panel will discuss upcoming investments in supercomputing centers and the country's needs in this area.
Foyer
Theater
Auditorium
Chair: Wellington Martins (UFG)
GraspCC-LB: Dimensionamento de Recursos para Execução de Workflows em Ambientes de Computação de Alto Desempenho
Analisando a Escalabilidade e a Acurácia de Implementações Paralelas e Distribuídas para a Detecção de Comunidades em Grafos
Balanceamento de Carga Dinâmico em Ambientes Kubernetes com o Kubernetes Scheduling Extension (KSE)
Extending the Planning Poker Method to Estimate the Development Effort of Parallel Applications
Room 501
Chair: Alba Melo (UnB) e Rodrigo Righi (Unisinos)
Impacts of Parallel Programming on Limited-Resource Hardware
Conversão dinâmica de instruções para processamento vetorial em memória
Thermal Optimization for OpenMP Applications through Thread Throttling and Turbo Boosting
Foyer
Theater
Speaker: Bronson Messer
Chair: Tiago Ferreto
The first exascale computer, called Frontier, has been delivered to Oak Ridge National Laboratory this past year. This unique scientific instrument is the culmination of more than a decade of concerted effort. I will relate a bit of the history of hybrid-node computing at the Oak Ridge Leadership Computing Facility (OLCF) and how Frontier represents the latest iteration of that approach. Some details of Frontier’s architecture will be discussed, including an overview of the new AMD GPUs that provide the bulk of the computational power for Frontier. Finally, we will take a look at some problems that will benefit from the increased capability at exascale and I will convey some lesson learned from trying to get the applications attacking these problems running on this machine.
Theater
Chair: Edson Borin (UNICAMP)
Performance Tuning for GPU-Embedded Systems: Machine-Learning-based and Analytical Model-driven Tuning Methodologies
Comparing Performance and Portability between CUDA and SYCL for Protein Database Search on NVIDIA, AMD, and Intel GPUs
Achieving Enhanced Performance Combining Checkpointing and Dynamic State Partitioning
Auditorium
Chair: Eduardo Camilo Inacio (UniSenai)
Functionalities as a Service - An Approach to Conciliate Interoperability and Data Reduction in E-Health
Evaluating the Parallel Simulation of Dynamics of Electrons in Molecules on AWS Spot Instances
Análise de Custo e Desempenho de um Sistema de Modelagem Atmosférica Tolerante a Falhas no AWS ParallelCluster
Explorando a Variabilidade de Processo para Otimizar a Eficiência Energética em Servidores de Nuvem
How FaaS with DBaaS performs in different regions: an evaluation by the Orama Framework
Room 501
Chair: Alba Melo (UnB) e Rodrigo Righi (Unisinos)
Advanced Computational Strategies for Reverse Time Migration
Suporte Arquitetural para Computação Aproximada
Easing the Benchmarking of Parallel Stream Processing on Multi-cores
Foyer
Theater
Speaker: Joaquim Merino (Lenovo)
Chair: Dalvan Griebler
Discover Lenovo's HPC solutions, #1 in supplying supercomputers in the Top500. Be surprised by Lenovo Neptune, liquid server cooling technology that guarantees better performance, savings and enables companies and organizations to achieve their ESG objectives.
Theater
Chair: Jay Lofstead (Sandia National Laboratories, USA)
Toward Open Repository of Performance Portability of Applications, Benchmarks and Models
NeurOPar, A Neural Network-driven EDP Optimization Strategy for Parallel Workloads
Forecasting file lifecycles for intelligent data placement in hierarchical storage
Auditorium
Room 501
Veleiros do Sul
Foyer
Theater
Auditorium
Chair: Ricardo Ferreira (UFV)
Structured platform-aware programming
Conversão do NAS Parallel Benchmarks para C++ Standard
PM.NET: Uma biblioteca de desenvolvimento para memória persistente com C#
Impact of a dynamic Allocation Policy for Resource and Job Management Systems in deadline-oriented Scenarios
Fragmentando o DNA de Ferramentas de Alinhamento Progressivo: uma Metaferramenta Eficiente
Foyer
Theater
Speaker: Alba Cristina Magalhaes Alves de Melo
Chair: Arthur Lorenzon
Biological sequence comparison is an important problem in Bioinformatics and its goal is to define how similar the sequences are, producing a score, and highlighting their similarities, producing an alignment. There are many ways to compare biological sequences and all of them require high performance computing solutions, when the optimal solution is needed. In this talk, we will deal with three types of sequence comparison. First, we discuss pairwise sequence comparison, which is often solved with dynamic programming using variants of the Smith-Waterman algorithm, producing the optimal solution with time complexity O(n^2), where n is the length of the sequences. We present our MASA tools, which can be used in CPU or GPU to pairwise compare long DNA sequences. The last version of MASA for GPUs (MASA-CUDAlign-MultiBP) attained the best performance in the literature in 2021. Then, we examine the structural RNA alignment problem, that is also solved with dynamic programming, using the Sankoff algorithm, with time complexity O(n^6). We present our CUDA-Sankoff tool and show that it has very good speedups. Next, we discuss the multiple sequence alignment (MSA) problem, which is proven NP-Complete. We present our PA-Star CPU-based tool, which executes a variant of the A-Star algorithm to compute the optimal MSA. We show that PA-Star is able to compare multiple sequences in reduced time, when compared to the literature. At the end of the talk, we will do a covid-19 case study, showing how our three tools are used to compare SARS-CoV-2 sequences.
Theater
Theater