1.0.3 • Published 9 months ago

dupin v1.0.3

Weekly downloads
-
License
ACADEMIC PUBLIC L...
Repository
gitlab
Last release
9 months ago

Dupin

Dupin es una herramienta de línea de comandos diseñada para extraer corpus de periódicos en línea.

Instalación

Para instalar Dupin, puedes usar npm (se debe tener NodeJS instalado). Ejecuta el siguiente comando en tu terminal:

npm install -g dupin

Tanto en la instalación como durante el uso, si genera algún problema, ejecutarlo bajo sudo.

Características

Su funcionalidad principal incluye:

  • Extracción de índices: Genera un índice en formato JSON que incluye los siguientes elementos:
indexElement = {
	type: string; // Tipo de artículo (noticia, opinión, etc.)
	date: string; // Fecha de publicación
	title: string; // Título del artículo
	author: string | undefined; // Autor del artículo (opcional)
	place: string | undefined; // Lugar de publicación (opcional)
	abstract: string; // Resumen del artículo
	link: string; // Enlace a la noticia
	imgSrc: string; // Enlace a la imagen principal
	imgAlt: string; // Texto alternativo de la imagen
}

Cada elemento del índice captura información clave sobre un artículo, permitiendo a los usuarios acceder fácilmente a datos relevantes.

  • Creación de representaciones: A partir del índice, Dupin produce representaciones detalladas para diferentes tipos de artículos:
basicRepresentationElements = {
	type: string; // Tipo de artículo
	link: string; // Enlace al artículo
	date: string; // Fecha de publicación
	place: string | undefined; // Lugar de publicación (opcional)
	author: string | undefined; // Autor del artículo (opcional)
	title: string; // Título del artículo
	abstract: string; // Resumen del artículo
	boldSentences: string[]; // Frases destacadas
};

newsRepresentationElements = {
	mainMultimedia: string | null; // Enlace a la multimedia principal (opcional)
	mainMultimediaCaption: string | undefined; // Leyenda de la multimedia principal (opcional)
	rawText: string; // Texto completo del artículo
	headers: string[]; // Títulos dentro del artículo
	posts: string[]; // Publicaciones en redes sociales relacionadas
	quotes: string[]; // Citas incluidas en el texto
};

audioType = {
	link: string; // Enlace al audio
	duration: string; // Duración del audio
};

opinionRepresentationElements = {
	audio: audioType | null; // Audio del artículo (opcional)
	section: string; // Sección del periódico
	rawText: string; // Texto completo del artículo
	image: string; // Enlace a la imagen
	imageCaption: string; // Leyenda de la imagen
	italicBeggining: string | null; // Inicio en cursivas (opcional)
};

Estas representaciones permiten a los usuarios obtener un acceso fácil a toda la información relacionada con cada artículo, ya sea de noticias u opiniones, junto con elementos multimedia y citas relevantes.

  • Opciones de guardado: La representación se puede guardar de dos maneras: de forma universal, generando un único archivo JSON que contenga todos los artículos de un mismo tipo, o por autor, creando un archivo JSON para cada autor. En este último caso, se generan también un archivo TXT con el texto del artículo y los títulos en mayúsculas, y un archivo PDF que captura el artículo. Los artículos se guardan por fecha.

  • Periódicos soportados: Actualmente, Dupin es compatible con el periódico Milenio, con planes de añadir más en el futuro.

Video de demostración

1.0.3

9 months ago

1.0.2

9 months ago

1.0.1

9 months ago

1.0.0

9 months ago