El Éxito en el cine

Tratamiento y Estudio de Datos

Antes de poder obtener algún resultado, fue necesario realizar un análisis minucioso, tanto a nivel descriptivo (buscar faltantes, atípicos, casos especiales, obtener estadísticos, etc.) como exploratorio y de tratamiento. De este modo, una vez obtuvimos resultados del procesado de datos, procedimos al estudio de las variables en profundidad para poder obtener la medida final del éxito.

¿Cómo hemos hecho todo el análisis?

Proceso de Tratamiento de Datos

A continuación mostramos los 3 pasos fundamentales que hemos dado para llegar a las conclusiones finales del estudio y a los resultados obtenidos. 

1 – Análisis Descriptivo

Antes de comenzar con el análisis exploratorio de los datos, es conveniente realizar un análisis descriptivo para evitar cualquier error en la fuente y por supuesto, para tratar datos faltantes y anómalos que pudieran aparecer. La mayoría de los valores atípicos se mantuvieron a lo largo del estudio para poder realizar estudios adicionales y con el fin de evitar posibles sesgos de películas de alta popularidad y/o calidad.

Año de Inicio

Aparecen valores por encima del presente año (2020) correspondientes a películas con fecha de estreno posteriores y en fases avanzadas de producción o finalizadas. 

Duración

Los criterios para clasificar una película como “ movie ” en IMDb es que se haya producido para su estreno en cines y que se haya estrenado primero en ese medio. Esto hace que la duración pueda ser variable y que nos encontremos con películas con duraciones atípicas.

Valoración

Se detectaron valores anómalos pero no se trataron al ser valores posibles.

Votos

Se detectaron valores anómalos pero no se trataron al ser valores posibles.

No se encontraron valores atípicos producidos por errores de la fuente de datos o fruto de la fusión previa de los datasets, que eran lo que, precisamente queríamos buscar en este apartado. Concluimos, por tanto, después del preprocesado, que los datos anómalos, en realidad, son datos reales debidos al gran abanico de películas existentes. Si una película posee un valor atípico de boxoffice, puede deberse a que dicha película es, simplemente, muy buena. Por otra parte, como los datos proceden, en su gran mayoría del Dataset de IMDb y esos datos ya vienen tratados, no existen datos faltantes ni atípicos.

2 – Análisis de Datos

Se realizó un análisis inicial a las variables mostradas anteriormente que sirvió para obtener un conocimiento básico del conjunto de datos. En este apartado se incluirá tan sólo la información completamente necesaria para la comprensión del estudio posterior. 

Nº Películas por Género

Con la información obtenida se descartaron siete de los géneros que o bien no eran realmente géneros cinematográficos, como “Adult”, o bien no poseían una cantidad suficiente de películas como “News”, “Game-Show”, “Talk-Show”, “Reality-TV”, “Film-Noir” y “Short”.

Rating por Año

La puntuación o “ Rating ” de las películas no sigue una tendencia del todo clara. Nunca llega a variar mucho, siempre se mantiene entre 6,4 y 5,9. Las películas de antes de 1970 tenían una puntuación media superior y que con el tiempo se han ido recuperando, pero hay que tener en cuenta que cuanto más nos alejamos de la actualidad la cantidad de datos es menor y por lo tanto los resultados tienden a ser menos fiables

Votos por Año

Respecto al número de votos si que hay una tendencia clara: es altamente asimétrico. Las películas más actuales tienden a ser las más votadas con la excepción de los últimos años.

Recaudación por Año

Ha seguido una tendencia creciente, aunque hay que tener en cuenta otros factores externos, como la inflación, que pueden tener influencia en el comportamiento de esta variable.

3 – Estudio de Variables

Estos son los archivos de datos obtenidos tras la descarga y simplificación del dataset de IMDb, así como de la extracción y fusión del boxoffice. Por un lado, tenemos el archivo con títulos e información sobre las películas. Por el otro, encontramos el dataset relacionado con los datos de recaudación de las películas. Del mismo modo, se pueden ver los datos faltantes en ambos datasets.

Nº Películas

Se observa que desde los años 80 hasta la actualidad hay un crecimiento notable en el número de películas, pasando de unas 5000 -a principios de los años 80- a más de 20.000, en la actualidad. Con la información estandarizada podemos ver de forma rápida y sencilla, cómo ha sido la evolución de cada género a lo largo de los años y compararlo con el total de géneros.

Rating

Hicimos un cruce entre la variable género con rating medio para así obtener una visión general de los géneros predominantes. En el gráfico de caja y bigotes, se observa claramente que los géneros: documental, música y biografía obtienen las puntuaciones más altas. Esto puede ser debido a que dichos géneros tienen un público más reducido que realizaría puntuaciones al alza.

Votos

La mayoría de esos títulos tienen un número modesto de votos, y tan solo 5.013 de los títulos superan los 25.000 votos. Si observamos la evolución del número de valoraciones total y de esta selección de títulos podemos comprobar que la mayoría de votos emitidos se distribuye entre los 5.013 títulos seleccionados.

Recaudación

Comenzamos comparando la recaudación por género sin ninguna variable más, para hacernos una idea de cuales son los géneros con una mayor importancia en esta categoría. El mapa de calor de recaudación media anual muestra el porcentaje anual de la taquilla que se ha llevado cada género desde 1977. Los resultados del estudio de este porcentaje revelan que a pesar de que la película media de comedia o de drama no consigue altas recaudaciones, estos géneros se han llevado una importante parte de la taquilla anual en torno a 1990.

Descubre cómo hemos conseguido los datos para nuestro estudio.

Saber más

Conoce en detalle la creación de nuestro Dataset final para el estudio.

Saber más

Descubre cómo hemos conseguido medir el éxito para obtener las puntuaciones.

Saber más