El Éxito en el cine

Captura / Adquisición de Datos

Hemos partido de un conjunto de datos inicial, pero debido a las exigencias del proyecto, nos hemos visto obligados a modificarlo y a fusionarlo para poder trabajar con datos provenientes de distintas fuentes.

¿Cómo ha sido la captura de datos?

Proceso de Adquisición

A continuación mostramos los 4 pasos principales que hemos seguido para la elaboración del conjunto de datos final que usamos para la obtención de la medida de éxito.

1- Descargar el Dataset Inicial

Descargamos el conjunto de datos inicial de la Internet Movie Database (IMDb), la más prestigiosa y extensa base de datos especializada en cine y medios audiovisuales en inglés a nivel mundial. Este conjunto de datos nos ha proporcionado la mayoría de las variables que utilizamos en nuestro estudio, así como un sistema de identificación de cada película que a su vez usamos como clave a la hora de fusionar todos los conjuntos de datos.

2- Extraer datos de Recaudación

Para la obtención del dataset con la información de la recaudación de las películas realizamos un scraping de la web WorldWideBoxOffice, usando el lenguaje de programación Python. Sin embargo, debido a la obsolescencia y poca fiabilidad que presentaban los datos, decidimos descartarlos y utilizar los ofrecidos por BoxOffice Mojo (fuente oficial de IMDb), en concreto, su top de películas anual. Si bien con el scraping inicial contábamos con una mayor cantidad de datos, la información obtenida en IMDb nos proporcionó mayor fiabilidad.

3- Acondicionar los Datos

Para simplificar los tratamientos posteriores y reducir el tamaño del conjunto de datos optamos por compactar la información y eliminar las tablas que no fueran necesarias para el estudio. Excluimos la tabla de «episodios» y aligeramos todas las demás tablas del conjunto de datos filtrando, exclusivamente, por película (eliminamos series, películas para televisión, cortos, etc.). El resultado se incluyó en una ubicación distinta de la original.

4- Fusionar los Datos

La parte final, como es obvio, consistió en la fusión de los datos obtenidos. Una vez capturados, preprocesados y limpios, pudimos realizar dicho fusión y construir así nuestro Dataset para el estudio, usando el id “tconst” como piedra angular del proceso de unión. 

A lo largo del proceso de fusión y tratamiento de los datos, nos encontramos con numerosos problemas, tales como la aparición de valores duplicados, valores perdidos, títulos repetidos, entre otros. La subsanación de dichos errores -que se realizó de forma “manual” para mejorar la fiabilidad y calidad de los datos- se llevó a cabo durante la fase de Limpieza de la Base de Datos.

Conoce en detalle la creación de nuestro Dataset final para el estudio.

Saber más

Visualiza, paso a paso todo nuestro estudio y análisis para obtener el resultado final.

Saber más

Descubre cómo hemos conseguido medir el éxito para obtener las puntuaciones.

Saber más