metadata
language: es
tags:
- summarization
widget:
- text: >-
La Agencia Valenciana de la Innovación (AVI) financia el desarrollo de un
software que integra diferentes modelos y tecnologías para la
monitorización y análisis multilingüe de las redes sociales. A través de
técnicas de 'deep learning' y procesamiento del lenguaje natural es capaz
de interpretar la ironía y las emociones en los textos, incluso en
aquellos escritos en idiomas menos extendidos, a menudo no contemplados
por las herramientas comerciales. La iniciativa, bautizada como 'Guaita',
está liderada por el Instituto Valenciano de Investigación en Inteligencia
Artificial (VRAIN), adscrito a la Universidad Politécnica de Valencia
(UPV), que cuenta a su vez para su desarrollo con la colaboración del
Instituto Valenciano de Informática (ITI) y la Corporación Valenciana de
Mitjans de Comunicación (CVMC).De este modo, y a solicitud del usuario o
usuaria, monitorizará las redes sociales para obtener la información
asociada a los temas objeto de interés y ofrecerá los resultados de forma
gráfica, bien a través de una interfaz web, bien mediante la generación de
informes. El programa será, además, capaz de determinar la reputación de
una empresa o institución a partir de dichos análisis gracias a la
combinación de distintas tecnologías de procesamiento e interpretación,
destaca la agencia en un comunicado.
News Abstractive Summarization for Spanish (NASES) is a Transformer encoder-decoder model, with the same hyper-parameters than BART, to perform summarization on Spanish news articles. It is pre-trained on a combination of several self-supervised tasks that help to increase the abstractivity of the generated summaries. Four objectives have been combined: sentence permutation, text infilling, Gap Sentence Generation, and Next Segment Generation. Spanish newspapers, and Wikipedia articles in Spanish were used for pretrain the model (21GB -8.5 millions of documents-).
For the summarization task, it is trained on 1.802.919 documents from the Dataset for Automatic summarization of Catalan and Spanish newspaper Articles (DACSA) corpus.