Estadísticas NBA (python)
Es un proyecto desarrollado íntegramente en python 3 y cuyo objetivo ha sido la creación de un conjunto de scripts que me permitieran profundizar en el conocimiento de las técnicas de web scraping para la obtención de datos públicos, así como el procesado de datos en python con la librería pandas.
La temática elegida ha sido la NBA y la fuente de datos, la web oficial de la competición que está en permanente actualización para reflejar la situación en tiempo real. La cantidad de información que ofrece resulta abrumadora (estadísticas avanzadas de equipos, jugadores, etc.) y me he visto obligado a centrarme únicamente en el subconjunto que me pareció más relevante.
Datos técnicos del proyecto
- Python 3
-
El desarrollo está basado en python 3 apoyándome en un conjunto de librerías adicionales
- Pandas
-
Es una potente librería de python para el manejo y análisis de datos. Representa una pieza clave para los desarrollo de machine learning en python.
- Selenium
-
Es una librería que permite interactuar con la web y posibilita la utlización de técnicas de web scraping
- BeautifulSoup
-
Otra librería que en este caso se encarga del análisis del DOM del HTML una vez que lo hemos recuperado
- MySQL
Los datos una vez procesados se vuelcan a MySQL para su posterior reutilización por otras aplicaciones. El servidor MySQL, en el entorno de desarrollo, está desplegado en un contenedor Docker.
- Matplotlib
Una de las librerías de python más utilizadas para la visualización gráfica de datos.
- Jinja2
Para la creación de contenido html estático a partir de plantillas
Aunque posteriormente hice un desarrollo específico (.NET) para explotar los datos extraídos, incialmente los scripts incluían la creación de html estático a partir de plantillas y la generación de gráficos que posteriormente se exportaban a .png para incorporarlas a los contenidos. Con este propósito se utilizan 2 librerías adicionales :