README.md · ELiRF/NASES at 38c71b74189d8f2f6db1fc02490d598b73c5ff29

metadata

language: es
tags:
  - summarization
widget:
  - text: >-
      La Agencia Valenciana de la Innovación (AVI) financia el desarrollo de un
      software que integra diferentes modelos y tecnologías para la
      monitorización y análisis multilingüe de las redes sociales. A través de
      técnicas de 'deep learning' y procesamiento del lenguaje natural es capaz
      de interpretar la ironía y las emociones en los textos, incluso en
      aquellos escritos en idiomas menos extendidos, a menudo no contemplados
      por las herramientas comerciales. La iniciativa, bautizada como 'Guaita',
      está liderada por el Instituto Valenciano de Investigación en Inteligencia
      Artificial (VRAIN), adscrito a la Universidad Politécnica de Valencia
      (UPV), que cuenta a su vez para su desarrollo con la colaboración del
      Instituto Valenciano de Informática (ITI) y la Corporación Valenciana de
      Mitjans de Comunicación (CVMC).De este modo, y a solicitud del usuario o
      usuaria, monitorizará las redes sociales para obtener la información
      asociada a los temas objeto de interés y ofrecerá los resultados de forma
      gráfica, bien a través de una interfaz web, bien mediante la generación de
      informes. El programa será, además, capaz de determinar la reputación de
      una empresa o institución a partir de dichos análisis gracias a la
      combinación de distintas tecnologías de procesamiento e interpretación,
      destaca la agencia en un comunicado.

News Abstractive Summarization for Spanish (NASES) is a Transformer encoder-decoder model, with the same hyper-parameters than BART, to perform summarization on Spanish news articles. It is pre-trained on a combination of several self-supervised tasks that help to increase the abstractivity of the generated summaries. Four objectives have been combined: sentence permutation, text infilling, Gap Sentence Generation, and Next Segment Generation. Spanish newspapers, and Wikipedia articles in Spanish were used for pretrain the model (21GB -8.5 millions of documents-).

For the summarization task, it is trained on 1.802.919 documents from the Dataset for Automatic summarization of Catalan and Spanish newspaper Articles (DACSA) corpus.