¿Notas infladas? 10 años de análisis de videojuegos bajo la lupa del machine learning

El estudio más completo jamás realizado buscando la honestidad de las reviews de juegos en España.

Nunca va a terminar el debate sobre las notas en las reseñas de videojuegos, no hasta que desaparezcan. Puede que ese adiós esté hoy en día un poco más cerca, pero aún siguen mandando (las medias de Metacritic se ponen sobre la mesa de las juntas de accionistas) y cada vez que llega un juego, grande o pequeño, se tira de estas valoraciones numéricas para comparar. Para juzgar sin matices. Si se duda de ellas no es tanto por el bolsillo de quien las pone, pues lo de los maletines y los Doritos es mucho más mito que realidad, sino por la dificultad y los vicios a la hora de ponerlas.

El caso español es paradigmático, pues se nos conoce fuera (y dentro) como el país de las notas infladas. En una escala de cero a diez, el punto medio está en torno al siete, y el cinco más bien parece un suspenso. Partiendo de esta apreciación, decidí evaluar a los evaluadores, criticar a los críticos. ¿Cómo? Aprovechando la potencia del machine learning para llevar a cabo un análisis de sentimiento* a más de 16.000 reviews y obtener nuevas notas para los mismos textos. Resumidamente, este proceso analiza las palabras escritas y sus relaciones, valora su carga positiva o negativa y devuelve una puntuación malo-bueno en escala 1-5.

Cruzando esos datos, he llevado a cabo varios análisis segmentando por página web, redactor, compañía y plataforma. El resultado no es solo el estudio más completo jamás realizado buscando la honestidad de las reviews de videojuegos, también una divertida herramienta en la que podrás buscar a cualquier autor que haya publicado en Gamereactor, Revogamers, Vandal, 3DJuegos o Meristation en los últimos 10 años y comprobar qué tal sale de la prueba del algodón.

Además de este resumen, puedes consultar tablas, gráficos y datos segmentados en esta visualización web interactiva y utilizar el buscador de redactores (How critics score > Author) o preguntarme y sugerirme lo que quieras a través de mi LinkedIn personal.

1. Las notas humanas sí están altas y son superiores a las automáticas

Efectivamente, de media, las notas de los críticos de videojuegos españoles están por encima de lo que el modelo de análisis de sentimiento pronostica. La primera certeza es que la nota media está por encima del siete, e incluso del siete y medio en un par de sitios web. La segunda es que es ligeramente mayor de la que ofrece el modelo, que en este caso sería el 3,5 pues su su escala es del uno al cinco. Hay una desviación de hasta cinco puntos porcentuales.

2. Solo una de las cinco webs es "justa" y es la menos esperada

Sin embargo, si bien la primera condición se cumple en las cinco webs analizadas, la segunda solo en cuatro de ellas. ¿Y en cuál no? En Revogamers. La histórica página especializada en Nintendo es la que más ajusta, es decir, en la que el análisis de sentimiento coincide más con con la nota que ponen sus redactores. Curioso que sea la especializada, que podría ser vista como fanática o partidista, la que mejores resultados obtenga. En el otro extremo está 3D Juegos, que es la que más alto puntúa y también la que mayor desviación media obtiene.

3. Mucha igualdad entre plataformas y ligero maltrato a Switch

También se ha hablado muchas veces, sin datos, sobre favoritismos y odios en la prensa de videojuegos a según qué consolas. Pues bien, lo que dicen los datos es que hay bastante equidad en el trato, con una pequeña desventaja para Nintendo Switch. Las notas medias humanas de los juegos de PC, Xbox One, PlayStation 4 y Switch son muy parejas (los multiplataforma se computan por cada una), y esa tendencia se mantiene al pasarlo a nota de la IA. La excepción de la híbrida, que es la que peores notas se lleva en el papel, pero luego en los análisis no hay tan malas palabras para sus títulos y por eso su curva tiene una pendiente menor.

4. El factor determinante es la compañía

Si entre revistas no hay tantas diferencias y tampoco entre plataformas, ¿de dónde emana la diferencia en trato de notas, si es que la hay? La clave está en la compañía. Este gráfico, interactivo a través de este enlace, demuestra que sí existe una brecha de puntuación entre creadores que, a la larga, se traduce también en mejor o peor trato.

La tendencia de la curva indica que, cuanto mejor imagen tiene una compañía, mejor se va a hablar de el título. Es decir, que si un juego es bueno y pertenece a un estudio reputado, se le va a poner por las nubes, mientras que en el caso opuesto, se tiende a ser más crítico; todo esto, sin un reflejo real en las notas. En absoluto pone en duda el modelo que los juegos de Rockstar sean los mejores, sino que indica que, además de llevar buenas notas, en los textos se hablan maravillas de sus juegos. En el extremo opuesto está Ratalaika, que se lleva las peores notas, pero no tantos palos una vez que se entra a ojear el contenido de las reviews.

5. Conclusiones

Que las cifras ayuden a cerrar el debate sobre los números. Como hemos visto, la tendencia a inflar notas en los videojuegos, y concretamente, en España, parece más bien un problema de escala que otra cosa. Es como si todo el espectro hubiera quedado reducido a la mitad por ¿miedo? a ser demasiado críticos, quizá para no quedar mal delante de las compañías o incluso de los propios aficionados. Es un comportamiento extendido en todas las dimensiones, pero con excepciones; y, sí, algo se nota de diferencia en el universo Nintendo.

*El modelo: virtudes y defectos

La parte de machine learning de este proyecto se apoya en un modelo de procesamiento de lenguaje natural preentrenado BERT, creado por NLP Town para realizar análisis de sentimiento sobre reviews de texto, literalmente. Ha sido afinado con más de medio millón de contenidos en varias lenguas, entre ellas el castellano (50.000 reseñas). Tras ese proceso, ha demostrado un accuracy del 58% a la hora de adivinar el número exactos de estrellas y 95% con una estrella de desviación.

Es importante interiorizar su precisión a la hora de interpretar los resultados y de matizar esas desviaciones de hasta un 5% de media. También hay que tener en cuenta que se han eliminado los juegos con notas inferiores a dos por problemas de procesamiento, aunque eran solo unas decenas que apenas afectaban a las tendencias. Y que, como las columnas de compañía y género están incompletas por la falta de contenido en las fichas de las webs, quedan pendientes un par de segmentaciones adicionales.

¿Qué os parecen estos resultados y cómo puntúan los medios sobre videojuegos en España?