Proyectos

Trabajos seleccionados

Trabajos seleccionados en infraestructura de IA, PLN e investigación aplicada.

I — En producción
N° 01

Molcajete

Pipeline de transcripción y análisis con IA para investigación cualitativa en grupos focales sobre política.

Pipeline completo de audio a insight que reemplaza transcripción imprecisa y horas de anotaciones por proyecto. Diarización de hablantes, transcripción, clasificación de temas e informes integrados — todo accesible mediante una capa de herramientas que los investigadores realmente usan.

1,300+
horas de audio procesadas
<60 min
tiempo de entrega por proyecto
N° 02

Adapta

Pipeline de preprocesamiento de datos e infraestructura de fine-tuning de LLMs para análisis político en español mexicano.

LLMs especializados, fruto de un pipeline reproducible de fine-tuning y evaluación. Construido para la comparación empírica de modelos base y prompts.

40+
métricas de evaluación
100+
ejecuciones de entrenamiento
N° 03

Nopalero

Sistema automatizado de selección de participantes para reclutamiento cualitativo.

Pipeline automatizado de admisión que reemplaza horas de captura manual de datos por proyecto. Combina OCR, detección de fraude y clasificación socioeconómica — para que los analistas se enfoquen en las decisiones, no en el papeleo.

48
verificaciones de validación
0
entrada manual de datos
II — Código abierto

Scraper y parser en Python para datos de procesos del Supremo Tribunal Federal de Brasil (STF).

CLI basada en Typer con tres etapas cache-first — recolección, descarga y extracción — con soporte para ejecuciones fuertemente paralelizadas y rotación de proxy, alimentando un warehouse DuckDB. Varios backends de OCR, incluyendo Tesseract auto-alojado en fly.io para OCR de bajo coste.

R$ 52
barrido anual de HC
0.93/s
rendimiento de PDFs
0.28/s
rendimiento de casos
4
backends de OCR

¿Tienes un problema que no encaja en una plantilla?

La mayoría del trabajo anterior empezó con alguien diciendo exactamente eso.

Hablemos