PHUSE Open Data Repository (“PODR”) -  Integration of Public Datasets in a Central  Repository

Alegría Ocampo, Sergio

Fecha

2022-09-08

Director/es

Zorrilla Pantaleón, Marta E.

Lacal, Jose C.

Derechos

©Sergio Alegría Ocampo

Disponible después de

2027-09-08

Palabras clave

Automation

Pipeline

Open Data

Intermediate Representation

Biomedical Industry

Python

PostgreSQL

Automatización

Datos Abiertos

Industria Biomédica

Intermediate Representation

Resumen/Abstract

ABSTRACT: This project describes the development of an enhanced version of PHUSE Open Data Repository database, called PODR database. This repository gives users the ability to search over Open Datasets from different countries and agencies in once place. The nature of this data is focused on the Biomedical Industry. This Project has an objective the building of a tool that keeps the mentioned repository up to date. This will be done processing datasets defined through an abstraction called NIHPO Intermediate Representation. It contains the metadata that will guide the processing, via a Pipeline, of these datasets. After implementing the tool. The design to scale the Pipeline will be defined so it can process an infinite number of datasets, and its use could be expanded outside of the Biomedical Industry.

RESUMEN: Este proyecto describe el desarrollo de una versión mejorada de la base de datos del PHUSE Open Data Repository, llamada PODR database. Este repositorio permite a los usuarios buscar información de Datos Abiertos de diferentes países y agencias de manera centralizada. La naturaleza de estos datos se enfocará a la Industria Biomédica. Este proyecto tiene como objetivo terminar con una herramienta que mantenga actualizado dicho repositorio. Para ello se procesará set de datos definidos bajo una abstracción llamada, NIHPO Intermediate Representation. Esta contendrá los metadatos que guiarán el procesamiento, por parte de una Pipeline, de estos sets de datos. Además de implementar esta herramienta, se definirá el diseño para poder escalar la Pipeline, de modo que pueda procesar una infinita cantidad de sets de datos, y se pueda expandir su uso fuera de la Industria de la Biomedicina.

Colecciones a las que pertenece

G2454 Trabajos académicos [375]