Titulo + fecha de publicación
El uso de las palabras del español en el mundo es muy variado y está en cambio permanente. Esto hace que para quienes elaboran los diccionarios sea muy difícil mantenerse al tanto de estos cambios. Realizamos el mayor estudio hasta el momento con el fin de identificar las palabras regionales que más caracterizan a 21 países hispano-hablantes (incluyendo a EEUU. Para esto recolectamos un corpus de casi 2.3 billones de palabras de 333 ciudades de más de 100,000 habitantes a partir de la red social Twitter. Utilizando métodos estadísticos del área de la Recuperación de Información (Information Retrieval) y del Análisis Espacial (Spatial Analysis) detectamos las palabras más regionales de cada país. Validamos nuestros resultados con listas de palabras regionales tomadas de diccionarios de regionalismos de diferentes países y también con palabras de los sitios web asihablamos.com y diccionariolibre.com. Adicionalmente, con el mismo corpus entrenamos un modelo de inteligencia artificial (Word2Vec) que nos permitió identificar las palabras más similares a los regionalismos detectados para así saber su posible significado. Las listas resultantes con las palabras regionales de cada país las hemos publicado en el portal de datos abiertos del gobierno colombiano (www.datos.gov.co) . Además de las palabras similares a los regionalismos proveemos para cada país con 50,000 tuits de ejemplo para ilustrar el uso de los regionalismos. Este trabajo acaba de ser aceptado en IBERAMIA 2018.