Pipelines de datos, 2021.

Last update: May 19, 2022

Related tags

Overview

Este repo ilustra un proceso sencillo de automatización de transformación y modelado de datos, a través de un pipeline utilizando Luigi.

Stack principal

Python 3.7+
Streamlit
Scikit-learn
Pandas
Luigi

Idea

El proceso completo es descrito en una app interactiva que encuentras en el script app.py. Checa los detalles de cómo levantar la app en la sección de cómo ejecutar los scripts.

Setup

Crea un entorno virtual (te recomiendo usar conda):
```
conda create --name data-pipes python=3.7
```
Activate the virtual environment:
```
conda activate data-pipes
```
Install requirements:
```
pip install -r requirements.txt
```

Ejecuta los scripts

App interactiva

Para ejecutar la app interactiva, simplemente ejecuta el comando de Streamlit con el entorno virtual activado:

(data-pipes) streamlit run app.py

Esto abrirá un servidor local en: http://localhost:8501.

Pipeline de datos

Si deseas ejecutar una tarea en específico ,supongamos la TareaX que se encuentra en el script tareas.py, entonces ejecuta el comando:

PYTHONPATH=. luigi --module tareas TareaX --local-scheduler

¡Puedes extender el código y agregar las tareas que tú desees!

Pipelines de datos, 2021.

Related tags

Overview

Stack principal

Idea

Setup

Ejecuta los scripts

App interactiva

Pipeline de datos

Owner

Rodolfo Ferro

The training code for the 4th place model at MDX 2021 leaderboard A.

Tools to download and cleanup Common Crawl data

Pre-training with Extracted Gap-sentences for Abstractive SUmmarization Sequence-to-sequence models

This repository describes our reproducible framework for assessing self-supervised representation learning from speech

A simple implementation of N-gram language model.

Source code for AAAI20 "Generating Persona Consistent Dialogues by Exploiting Natural Language Inference".

Write Python in Urdu - اردو میں کوڈ لکھیں

تولید اسم های رندوم فینگیلیش

Natural Language Processing Specialization

A collection of scripts to preprocess ASR datasets and finetune language-specific Wav2Vec2 XLSR models

Python code for ICLR 2022 spotlight paper EViT: Expediting Vision Transformers via Token Reorganizations

The aim of this task is to predict someone's English proficiency based on a text input.

Mastering Transformers, published by Packt

End-to-end image captioning with EfficientNet-b3 + LSTM with Attention

A PyTorch-based model pruning toolkit for pre-trained language models

TFIDF-based QA system for AIO2 competition

Count the frequency of letters or words in a text file and show a graph.

Treemap visualisation of Maya scene files

A complete NLP guideline for enthusiasts

Mednlp - Medical natural language parsing and utility library