Análisis de rendimiento “Delta Lake vs  Parquet ” en procesos ETL sobre un clúster  de Spark

Gómez Fernández-Cavada, Ángel

Fecha

2022-08-29

Director/es

Palacio Hoz, Aida

Derechos

Atribución-NoComercial-SinDerivadas 3.0 España

Resumen/Abstract

RESUMEN: Se realiza un análisis, y comparativa, en tiempos de lectura y escritura, de procesos de carga ETL (batch) sobre ficheros Parquet y Delta Lake, empleando dos tipos de almacenamiento: Block Storage y Object Storage. Todo esto se realiza sobre un clúster Hadoop + Spark desplegado sobre la plataforma de Cloud Computing OpenStack instalada en el Instituto de Física de Cantabria (IFCA), en el cual se han configurado las diferentes máquinas empleando un nodo auxiliar y roles de Ansible. El objetivo de este proyecto es estudiar el rendimiento de ambos tipos de extensión de fichero para entornos Big Data y poder deducir a futuro en qué situaciones es mejor emplear uno u otro.

ABSTRACT: An analysis and comparison, in read and write times, of ETL (batch) loading processes on Parquet and Delta Lake files is carried out, using two types of storage: Block Storage and Object Storage. All this is done on a Hadoop + Spark cluster deployed on the OpenStack Cloud Computing platform installed at the Institute of Physics of Cantabria (IFCA), in which the different machines have been configured using an auxiliary node and Ansible roles. The objective of this project is to study the performance of both types of file extension for Big Data environments and to be able to deduce in the future in which situations it is better to use one or the other.

Colecciones a las que pertenece

M6323 Trabajos académicos [97]

Excepto si se señala otra cosa, la licencia del ítem se describe como Atribución-NoComercial-SinDerivadas 3.0 España