Proyecto de Data Science. Mitin Test, clasificación de mítines políticos

Aurora
Aurora
Mitin Test, clasificación de mítines políticos - id bootcamps

Mitin Test es el proyecto final del Bootcamp de Data Science de Sandra López, Miguel Lerma y Juliana Gil. Gracias a este proyecto consiguieron clasificar y estudiar los discursos de las campañas electorales de diferentes países hispanohablantes.

Decidieron estudiar los discursos desde una perspectiva lo más objetiva posible, es decir no desde los dobles sentidos o interpretaciones subjetivas sino desde el estudio de las palabras de los propios discursos para después agruparlas por temáticas, clasificarlas y sacar conclusiones.

Si quieres escuchar el proyecto contado desde su propia voz:

¿Cuál fue el proceso de desarrollo de Mitin Test?

Lo primero que hicieron fue acotar y marcarse unos objetivos a estudiar. Se decidió estudiar los discursos electorales presidenciales de los políticos, ya que, se trata de momentos determinantes donde el interlocutor se dirige a su propio público y es aquí donde deben conformar su discurso con las diferentes problemáticas que les atañe. Además escogieron los mítines que tuvieron lugar entre 2017 y 2020 de los siguientes países hispanohablantes:

  • Uruguay
  • España
  • México
  • Colombia
  • Argentina
  • Chile

Se cogieron esas fechas para esquivar la pandemia de la Covid-19, puesto que evidentemente es un tema que colapsó el mundo y monopolizó los discursos políticos.

Búsqueda y extracción de datos

Los discursos de los mítines políticos se sacaron de YouTube aplicando los filtros anteriores, fecha, discurso electoral presidencial, país, etc. Para ello, hicieron lo siguiente:

 

  1. YouTube. Seleccionaron los vídeos de YouTube.
  2. Whisper. Utilizaron Whisper, que es una API de Open AI para convertir el audio de los discursos en texto. Esta herramientas se basa en redes neuronales para desgranar el audio una vez convertido en texto plano. Además cabe destacar que esta herramienta es muy precisa y recoge sorprendentemente bien tanto las tildes, comas, puntos, coloquialismos…
  3. NLP. Con el texto plano ya pudieron empezar a trabajarlo a través del NPL, procesamiento del lenguaje natural. 
  4. Limpieza de la base de datos. Una vez convertido a texto plano, se limpió quitando coloquialismos, homogeneizando palabras y, en definitiva, separando el grano de la paja. Tras este proceso, comenzó una segunda parte muy tediosa en la que se midió la frecuencia con la que se repetían las palabras con el fin de encontrar las palabras más relevantes dentro de los discursos.
  5. Machine Learning. Probaron con diferentes modelos de Machine Learning para poder encontrar el que daba mejores resultados. Escogieron el modelo de Machine Learning no supervisado K-means, el cual sacó los clusters o grupos de palabras más recurrentes de la base de datos.
  6. Clusters. Obtuvieron 5 grandes grupos donde se clasificaron las palabras según la temática que abordan pero sin un valor subjetivo. Estos grupos son: Infraestructura y servicios, nacionalismo y popular, progreso, emociones y emociones – progreso.
  7. Gradio. Es una herramienta de Python que permite crear interfaces sencillas y que se utilizó para darle forma a la demo.

Sobre los Clusters

clasificación de mítines políticos - id bootcamps

Mitin test nació con el objetivo de estudiar y conocer cuáles son los temas y las palabras que se trataban en los mítines electorales de los principales grupos políticos de países hispanohablantes. ¿Se centrarían exclusivamente en cuestiones nacionales o se agruparían según su posición en el espectro ideológico izquierda-derecha?, ¿en qué temas basarían sus discursos las diferentes agrupaciones partidistas?

Una vez aplicado el modelo de clusterización K-means, permitió observar que las agendas y culturas políticas nacionales influyen, aunque no son los únicos factores determinantes. Por ejemplo, con 5 grupos, los partidos argentinos y uruguayos, con agendas nacionales bastante específicas, se incluyeron en el mismo grupo junto con partidos de diferentes latitudes. Por otro lado, la derecha más nacionalista de España conforma un grupo particular, en el que no caben partidos opuestos ideológicamente ni de otros países. Sin embargo, excepto el quinto clúster, los demás no se rigen por la nacionalidad.

Asimismo, se puede concluir que también influye la ubicación ideológica de los partidos, aunque no es el único factor determinante. Es posible encontrar rivales políticos compartiendo cluster, incluso partidos opuestos ideológicamente de distintos países.

Para poder verlo mejor, examinemos los clusters:

  • Emociones: Estos discursos tienen como palabras más relevantes aquellas que hacen referencia a la unidad de un grupo como juntos, compañeros, militantes, etc. También conjuntos de palabras como ilusión, esperanza, confianza, etc. que apelan a emociones positivas. En este grupo se encuentran los partidos chilenos Convergencia Democracia, Frente Amplio y Unión Patriótica y PSOE de España.
  • Emociones y progreso:  lo que diferencia a este cluster del anterior, es que también hacen referencia al sistema del bienestar como pensiones o infraestructura, a temas económicos y a progreso, como construcción, renovación o términos del estilo. En este grupo podemos encontrar las 3 candidaturas argentinas Consenso Federal, El Frente de Todos y Propuesta Republicana en España Ciudadanos, los partidos mexicanos Partido Revolucionario Institucional y Por México al Frente y los uruguayos Frente Amplio Partido Nacional.
  • Progreso: En este caso tienen más  peso en las bolsas de progreso, economía y bienestar que en la de valores y sentimientos, aunque esta también sea importante. Aquí encontramos a Chile Vamos, en Colombia a Centro Democrático, Compromis Ciudadanos y Cambio Radical y al Movimiento Ciudadano de México.
  • Infraestructuras y servicios: Este grupo también ocupa su discurso en temas referentes al sistema del bienestar, a valores y emociones y apela a palabras relacionadas con el trabajo y los trabajadores. También utiliza palabras de la bolsa referente a progreso.
  • Nacionalismo y popular: Son partidos que tienen como principal bolsa de palabras aquellas relacionadas con la nación. También apelan a sentimientos y emociones y a las referente al trabajo y a los trabajadores. Este grupo se encuentra formado únicamente por los partidos españoles (PP y Vox).

 

Modelo predictivos aplicados a discursos políticos

Después de todo este trabajo, decidieron llevar un paso más adelante el proyecto Mitin Test, con el desarrollo de esta nueva herramienta

Compartir
Share on facebook
Share on twitter
Share on linkedin

Entradas Relacionadas