El Éxito en el cine

Almacenamiento de Datos

Dado que el conjunto de datos de la IMDb carecía de información sobre la recaudación de las películas fue necesario obtener dicha información desde otras fuentes. Para llevar a cabo esta tarea, partimos de dos lugares distintos, principalmente para obtener unos datos de mayor calidad y mucho más fiables.

¿Cómo creamos el Dataset para el estudio?

Fuentes de Datos

Estos son los archivos de datos obtenidos tras la descarga y simplificación del dataset de IMDb, así como de la extracción y fusión del boxoffice. Por un lado, tenemos el archivo con títulos e información sobre las películas. Por el otro, encontramos el dataset relacionado con los datos de recaudación de las películas. Del mismo modo, se pueden ver los datos faltantes en ambos datasets.

Recodificación

Algunas de las variables del Dataset necesitaron ser recodificadas a valores de coma flotante (float) para trabajar con ellas de una forma más ágil y sobre todo, para poder obtener resultados mucho más precisos. En la tabla se pueden ver diferentes estadísticos aplicados a las variables recodificadas principales. 

Géneros Elegidos

No todos los géneros fueron usados para la elaboración del estudio final sobre el éxito. El motivo de esta selección se debió, principalmente, a que muchos de los géneros tenían un número muy escaso de películas asociadas o tenían una muy baja significación estadística. En amarillo se pueden ver los géneros que seleccionamos para el estudio.  

Dataset Final

Aquí se muestra el Dataset final confeccionado por nosotros tras las diferentes fusiones. Al estar conformado por datos de acceso público y no contener datos privados ni identificativos, más allá de los relacionados con los títulos de las películas, se ha garantizado un tratamiento disociado de datos, cumpliendo correctamente con los principios dictados por la Ley de Protección de Datos.

BoxOffice Final

Debido a que había una serie de películas que por su importancia tenían distintas entradas en el dataset (re-estrenos o aniversarios) consideramos más oportuno agrupar todo el boxoffice generado por películas, sin importar que hubiese sido re-estrenada o no.

Previo a conseguir el dataset agregado, se fusionaron los títulos de las películas de la fuente de datos de boxoffice con los títulos de imdb, generando así un dataset con los valores agregados por película. El número total de películas con información sobre recaudación era de 16.662.

Descubre cómo hemos conseguido los datos para nuestro estudio.

Saber más

Visualiza, paso a paso todo nuestro estudio y análisis para obtener el resultado final.

Saber más

Descubre cómo hemos conseguido medir el éxito para obtener las puntuaciones.

Saber más