dupin v1.0.3
Dupin
Dupin es una herramienta de línea de comandos diseñada para extraer corpus de periódicos en línea.
Instalación
Para instalar Dupin, puedes usar npm (se debe tener NodeJS instalado). Ejecuta el siguiente comando en tu terminal:
npm install -g dupin
Tanto en la instalación como durante el uso, si genera algún problema, ejecutarlo bajo sudo.
Características
Su funcionalidad principal incluye:
- Extracción de índices: Genera un índice en formato JSON que incluye los siguientes elementos:
indexElement = {
type: string; // Tipo de artículo (noticia, opinión, etc.)
date: string; // Fecha de publicación
title: string; // Título del artículo
author: string | undefined; // Autor del artículo (opcional)
place: string | undefined; // Lugar de publicación (opcional)
abstract: string; // Resumen del artículo
link: string; // Enlace a la noticia
imgSrc: string; // Enlace a la imagen principal
imgAlt: string; // Texto alternativo de la imagen
}
Cada elemento del índice captura información clave sobre un artículo, permitiendo a los usuarios acceder fácilmente a datos relevantes.
- Creación de representaciones: A partir del índice, Dupin produce representaciones detalladas para diferentes tipos de artículos:
basicRepresentationElements = {
type: string; // Tipo de artículo
link: string; // Enlace al artículo
date: string; // Fecha de publicación
place: string | undefined; // Lugar de publicación (opcional)
author: string | undefined; // Autor del artículo (opcional)
title: string; // Título del artículo
abstract: string; // Resumen del artículo
boldSentences: string[]; // Frases destacadas
};
newsRepresentationElements = {
mainMultimedia: string | null; // Enlace a la multimedia principal (opcional)
mainMultimediaCaption: string | undefined; // Leyenda de la multimedia principal (opcional)
rawText: string; // Texto completo del artículo
headers: string[]; // Títulos dentro del artículo
posts: string[]; // Publicaciones en redes sociales relacionadas
quotes: string[]; // Citas incluidas en el texto
};
audioType = {
link: string; // Enlace al audio
duration: string; // Duración del audio
};
opinionRepresentationElements = {
audio: audioType | null; // Audio del artículo (opcional)
section: string; // Sección del periódico
rawText: string; // Texto completo del artículo
image: string; // Enlace a la imagen
imageCaption: string; // Leyenda de la imagen
italicBeggining: string | null; // Inicio en cursivas (opcional)
};
Estas representaciones permiten a los usuarios obtener un acceso fácil a toda la información relacionada con cada artículo, ya sea de noticias u opiniones, junto con elementos multimedia y citas relevantes.
Opciones de guardado: La representación se puede guardar de dos maneras: de forma universal, generando un único archivo JSON que contenga todos los artículos de un mismo tipo, o por autor, creando un archivo JSON para cada autor. En este último caso, se generan también un archivo TXT con el texto del artículo y los títulos en mayúsculas, y un archivo PDF que captura el artículo. Los artículos se guardan por fecha.
Periódicos soportados: Actualmente, Dupin es compatible con el periódico Milenio, con planes de añadir más en el futuro.