Análisis de rendimiento “Delta Lake vs Parquet ” en procesos ETL sobre un clúster de Spark
"Delta Lake vs Parquet" performance analysis in ETL processes on a Spark cluster
Ver/ Abrir
Identificadores
URI: https://hdl.handle.net/10902/27062Registro completo
Mostrar el registro completo DCAutoría
Gómez Fernández-Cavada, ÁngelFecha
2022-08-29Director/es
Derechos
Atribución-NoComercial-SinDerivadas 3.0 España
Resumen/Abstract
RESUMEN: Se realiza un análisis, y comparativa, en tiempos de lectura y escritura, de procesos de carga ETL (batch) sobre ficheros Parquet y Delta Lake, empleando dos tipos de almacenamiento: Block Storage y Object Storage. Todo esto se realiza sobre un clúster Hadoop + Spark desplegado sobre la plataforma de Cloud Computing OpenStack instalada en el Instituto de Física de Cantabria (IFCA), en el cual se han configurado las diferentes máquinas empleando un nodo auxiliar y roles de Ansible. El objetivo de este proyecto es estudiar el rendimiento de ambos tipos de extensión de fichero para entornos Big Data y poder deducir a futuro en qué situaciones es mejor emplear uno u otro.
ABSTRACT: An analysis and comparison, in read and write times, of ETL (batch) loading processes on Parquet and Delta Lake files is carried out, using two types of storage: Block Storage and Object Storage. All this is done on a Hadoop + Spark cluster deployed on the OpenStack Cloud Computing platform installed at the Institute of Physics of Cantabria (IFCA), in which the different machines have been configured using an auxiliary node and Ansible roles. The objective of this project is to study the performance of both types of file extension for Big Data environments and to be able to deduce in the future in which situations it is better to use one or the other.