PHUSE Open Data Repository (“PODR”) - Integration of Public Datasets in a Central Repository
PHUSE Open Data Repository (“PODR”) - Integración de Datos Abiertos en un Repositorio Centralizado
Ver/ Abrir
Identificadores
URI: https://hdl.handle.net/10902/26264Registro completo
Mostrar el registro completo DCAutoría
Alegría Ocampo, SergioFecha
2022-09-08Derechos
©Sergio Alegría Ocampo
Disponible después de
2027-09-08
Palabras clave
Automation
Pipeline
Open Data
Intermediate Representation
Biomedical Industry
Python
PostgreSQL
Automatización
Datos Abiertos
Industria Biomédica
Intermediate Representation
Resumen/Abstract
ABSTRACT: This project describes the development of an enhanced version of PHUSE Open Data Repository database, called PODR database. This repository gives users the ability to search over Open Datasets from different countries and agencies in once place. The nature of this data is focused on the Biomedical Industry. This Project has an objective the building of a tool that keeps the mentioned repository up to date. This will be done processing datasets defined through an abstraction called NIHPO Intermediate Representation. It contains the metadata that will guide the processing, via a Pipeline, of these datasets. After implementing the tool. The design to scale the Pipeline will be defined so it can process an infinite number of datasets, and its use could be expanded outside of the Biomedical Industry.
RESUMEN: Este proyecto describe el desarrollo de una versión mejorada de la base de datos del PHUSE Open Data Repository, llamada PODR database. Este repositorio permite a los usuarios buscar información de Datos Abiertos de diferentes países y agencias de manera centralizada. La naturaleza de estos datos se enfocará a la Industria Biomédica. Este proyecto tiene como objetivo terminar con una herramienta que mantenga actualizado dicho repositorio. Para ello se procesará set de datos definidos bajo una abstracción llamada, NIHPO Intermediate Representation. Esta contendrá los metadatos que guiarán el procesamiento, por parte de una Pipeline, de estos sets de datos. Además de implementar esta herramienta, se definirá el diseño para poder escalar la Pipeline, de modo que pueda procesar una infinita cantidad de sets de datos, y se pueda expandir su uso fuera de la Industria de la Biomedicina.