Asignatura: Inferencia bayesiana. Tercera entrega

Docente: Diana Herrero Coronel

Alumno: Steven Allus, Antonio López García

Universidad: Carlemany Bachelor de Ciencia de Datos

Download ipynb

Índice

Actividad 1

Un determinado medio de comunicación desea llevar a cabo un estudio para saber cuál es el interés que despierta entre sus lectores las noticias relacionadas directamente con conflictos bélicos. Para ello contabilizará el número de visitas en su canal de comunicación online. El número de visitas sigue una distribución Poisson(𝜃).

El estudio se realizó durante 10 meses y el número medio de visitas mensuales fueron las siguientes:

Se desea contrastar:

320, 360,950, 400, 370, 75, 725, 120, 380, 375.

𝐻0: 𝜃=340

𝐻1: 𝜃 = 450

Previa no informativa 𝑝(𝐻0) = 𝑝(𝐻1) = 0′5.

Conslusiones de nuestro resultado:

  1. Media muestral: 407.5
    La media de las observaciones (407.5) esta mas cerca del valor propuesto en H₁ (θ = 450) que del valor en H₀ (θ = 340), lo que ya nos da una primera pista de que H₁ podría tener mayor respaldo.
  2. Log Factor de Bayes (log B10): 42.23051
    El logaritmo del factor de Bayes es positivo y muy grande, indicando fuerte evidencia a favor de H1.
  3. Factor de Bayes (B10): 2.190146e+18
    Según la escala de Kass y Raftery, cualquier valor mayor a 150 se considera evidencia "muy fuerte" a favor de la hipótesis alternativa.
    Este factor tan elevado indica que los datos observados son 2.19 quintillones de veces mas probables bajo la hipótesis H₁ que bajo H₀.
  4. Probabilidad a posteriori de H0: 4.565869e-19
    Esta probabilidad es prácticamente cero.
  5. Probabilidad a posteriori de H1: 1
    Esto indica que, después de considerar los datos, la probabilidad de que H₁ sea cierta es prácticamente 1 (o 100%).

Conclusión: Hay una evidencia abrumadora para rechazar H₀ (θ = 340) y aceptar H₁ (θ = 450). Los datos de visitas observados apoyan fuertemente la hipótesis de que el parámetro θ de la distribución Poisson es 450 y no 340.

Este resultado es consistente con los datos observados, que incluyen valores altos como 950 y 725, los cuales son mas probables si θ = 450 que si θ = 340. La combinación de todos los datos proporciona una evidencia estadística muy fuerte a favor de la hipótesis alternativa.

Actividad 2

Un grupo de expertos sobre el Cambio Climático investigan sobre el calentamiento global. Disponen de i = 1, … . , 20 observaciones que se distribuyen 𝑦𝑖|𝜃~N(20, σ2). Los expertos están interesados en realizar el siguiente test de hipótesis y no disponen de información previa respecto a las hipótesis:

𝐻0: σ2 =1

𝐻1 σ2 = 3

Calcula el 𝐵10.

BASE DE DATOS:

20.20, 18.48, 18.93, 19.40, 18.12, 19.18, 19.99, 18.79, 21.56, 21.63, 22.03, 19.38, 20.98, 19.44, 19.84, 19.87, 22.29, 21.43, 20.16, 22.16

Cógigo python

Actividad 3

Calcular la Distribución Predictiva Posterior del modelo Bernoulli-Beta (Binomial-Beta) para una observación futura 𝑦∗ = 0.

NOTA: en clase hemos calculado la distribución predictiva posterior para 𝑦∗ = 1

Si queremos cuantificar nuestro estado de información acerca de una observación futura dado que ya tengo observaciones acerca de la realidad que estamos estudiando, deberíamos obtener la distribución predictiva ya que tiene por objetivo describir el comportamiento estocástico de una observación que no tuve la oportunidad de observar, dado que ya observé una base de datos.

¿Cómo se escribe? y = y1, y2, ..., yn base de datos observados y* observación futura

yi siguen una Bernoulli con parámetro p. Prior de 𝑝:p ∼Beta(α,β)

Distribución posterior del parámetro 𝑝

Actividad 4

Calcula la Distribución Predictiva Posterior del Model Gamma-Poisson.

Es importante justificar cada cálculo.

Cógigo python

Justificación de los cálculos:

1. Actualización de parámetros:

2. Distribución predictiva posterior:

3. Propiedades de la predictiva posterior:

Esta implementación proporciona no solo las probabilidades para diferentes valores de y*, sino también información sobre la distribución predictiva posterior completa, lo que ayuda a entender mejor el comportamiento esperado de futuras observaciones.

Actividad 5

Pregunta teórica:

Explica brevemente las principales diferencias entre las pruebas de hipótesis bajo un enfoque frecuentista y uno bayesiano.

Las pruebas de hipótesis frecuentistas y bayesianas representan dos enfoques fundamentalmente distintos para evaluar evidencia estadística:

Diferencias entre pruebas de hipótesis frecuentistas y bayesianas

Las pruebas de hipótesis frecuentistas y bayesianas representan dos enfoques fundamentalmente distintos para evaluar evidencia estadística:

Enfoque frecuentista

  1. Interpretación de probabilidad: Se basa en la frecuencia relativa a largo plazo de eventos en experimentos repetidos.
  2. Hipótesis fijas, datos aleatorios: Considera los parámetros como valores fijos desconocidos, y los datos como aleatorios.
  3. Valor p: Calcula la probabilidad de obtener datos tan o más extremos que los observados, asumiendo que la hipótesis nula es cierta: P(datos|H₀).
  4. Decisión binaria: Típicamente resulta en rechazar o no rechazar la hipótesis nula basándose en un umbral predefinido (p < 0.05).
  5. Información previa: No incorpora formalmente conocimiento previo o creencias sobre los parámetros.

Enfoque bayesiano

  1. Interpretación de probabilidad: Representa el grado de creencia o estado de conocimiento sobre una hipótesis.
  2. Datos fijos, hipótesis aleatorias: Una vez observados los datos, calcula probabilidades sobre las hipótesis.
  3. Probabilidad posterior: Calcula directamente la probabilidad de la hipótesis dados los datos: P(H | datos).
  4. Medición de evidencia: Utiliza factores de Bayes o probabilidades posteriores para cuantificar la evidencia relativa entre hipótesis.
  5. Información previa: Incorpora explícitamente el conocimiento o creencias previas a través de distribuciones a priori.

Diferencias clave