Back to top

Detección automática de regionalismos del español a nivel panhispánico usando Twitter

view_use_data

Detección automática de regionalismos del español a nivel panhispánico usando Twitter
0
Aún sin votos
Total: 0 votes
Listas de regionalismos detectados automáticamente a partir de un corpus de Twitter para 21 paises de habla hispana con ejemplos y sinónimos
Fieldset description
El uso de las palabras del español en el mundo es muy variado y está en cambio permanente. Esto hace que para quienes elaboran los diccionarios sea muy difícil mantenerse al tanto de estos cambios. Realizamos el mayor estudio hasta el momento con el fin de identificar las palabras regionales que más caracterizan a 21 países hispano-hablantes (incluyendo a EEUU. Para esto recolectamos un corpus de casi 2.3 billones de palabras de 333 ciudades de más de 100,000 habitantes a partir de la red social Twitter. Utilizando métodos estadísticos del área de la Recuperación de Información (Information Retrieval) y del Análisis Espacial (Spatial Analysis) detectamos las palabras más regionales de cada país. Validamos nuestros resultados con listas de palabras regionales tomadas de diccionarios de regionalismos de diferentes países y también con palabras de los sitios web asihablamos.com y diccionariolibre.com. Adicionalmente, con el mismo corpus entrenamos un modelo de inteligencia artificial (Word2Vec) que nos permitió identificar las palabras más similares a los regionalismos detectados para así saber su posible significado. Las listas resultantes con las palabras regionales de cada país las hemos publicado en el portal de datos abiertos del gobierno colombiano (www.datos.gov.co) . Además de las palabras similares a los regionalismos proveemos para cada país con 50,000 tuits de ejemplo para ilustrar el uso de los regionalismos. Este trabajo acaba de ser aceptado en IBERAMIA 2018.
Fieldset_detail
Fieldset-title-row1
Fecha de creaciónDepartamentoMunicipio
Fieldset-detail-row1
07/25/2018
Bogotá D.C.
Bogotá D.C.
Fieldset-detail-row2
Sector
Cultura
Tipo de producto
Investigación
Autor
Sergio Jiménez, George Dueñas y Carlos Rodríguez Díaz (I. Caro y Cuerv
Impacto Social
Se provee el primer registro panhispánico de las palabras regionales actuales de cada pais. Este recurso tiene el potencial de permitir la creación de aplicaciones para mejorar la comunicación entre los hispanoablantes del mundo.
Conjunto de datos del portal de datos abiertos Título Url
Otros datos abiertos usados Título Url
Regionalismos de BOLIVIA y sus palabras cercanas
Regionalismos de BOLIVIA con ejemplos de TWITTER
Regionalismos de COLOMBIA y sus palabras cercanas
Regionalismos del PERÚ con ejemplos de TWITTER
Regionalismos de VENEZUELA y sus palabras cercanas
Tipo de licencia
  • Public Domain