Análisis de Datos 02 — Diamantes: Precio vs Calidad

Ciencia de datos, Universitat Carlemany

Alumno: Antonio López García

Dataset: diamonds de seaborn (53.940 observaciones, 10 variables).

Variables: carat, cut, color, clarity, depth, table, price, x, y, z.

📓 Descargar notebook .ipynb

1 — Carga de datos

Se carga el dataset mediante seaborn.load_dataset('diamonds'). Contiene 53.940 observaciones con 10 variables: quilates, calidad del corte, color, claridad, profundidad, tabla, precio y dimensiones (x, y, z).

↑ Volver al índice

2 — Precio vs Calidad del corte

Boxplot de precio segmentado por calidad del corte (Fair, Good, Very Good, Premium, Ideal).

Boxplot precio por corte

Barplot con intervalos de confianza del 95% para la media del precio por corte.

Barplot precio por corte

ANOVA (OLS): Se ajusta un modelo price ~ C(cut). η² = 0.0129, lo que indica que el corte explica aproximadamente el 1.3% de la varianza del precio.

CorteNPrecio medioDesv. estándar
Ideal21.5513.457,54 $3.808,40 $
Premium13.7914.584,26 $4.349,20 $
Very Good12.0823.981,76 $3.935,86 $
Good4.9063.928,86 $3.681,59 $
Fair1.6104.358,76 $3.560,39 $
↑ Volver al índice

3 — Interpretación

Existe una relación significativa entre la calidad del corte y el precio. Sin embargo, η² = 0.0129 indica que el corte tiene un impacto moderado; otras variables (como quilates) explican en mayor medida la varianza del precio.

↑ Volver al índice

4 — Precio vs Quilates (carat)

Gráfico de dispersión con recta de regresión. Se observa una clara relación positiva.

Scatter price vs carat

Correlación de Pearson: r = 0.9216 — correlación positiva muy fuerte.

↑ Volver al índice

5 — Precio vs Quilates por corte

Cinco gráficos de dispersión separados por categoría de corte.

Scatter price vs carat por corte
CorteCorrelación (r)
Ideal0.931
Premium0.925
Very Good0.926
Good0.922
Fair0.859

Todas las correlaciones son muy altas, confirmando que el peso en quilates es un fuerte determinante del precio.

↑ Volver al índice

6 — Regresión lineal por corte

Modelos OLS separados (price ~ carat) para cada categoría de corte.

Regresión lineal por corte ↑ Volver al índice