Anàlisi Estadístic

L'anàlisi de dades es pot fer amb el següent codi Python de Google colab creat pel projecte que pots trobar a apartat Science d'aquesta web, subapartat Recerca de fàrmacs. En executar aquest codi podràs pujar dades csv de docking de Swissdock i obtens les energies en deltaG i et determina primer si es tracta de dades normals emprant el test de Shapiro-Wilk i són o no homocedàstiques gràcies a l'ús del test de Levene i així decidir quins altres proves estadístiques aplicar a continuació. Així, per dades normals es farà servir els tests estadístics paramètrics adequats: ANOVA i test posthoc Tukey HSD i en el cas que no siguin normals farem servir tests no paramètrics de Kruskal-Wallis i test posthoc de Dunn amb objectiu de determinar si hi han diferències estadisticament significatives entre possibles fàrmacs. Per últim el codi colab a més de fer els càlculs anteriors dibuixa diferents gràfics com boxplot i d'altres tipus.

Test de Levene

  1. Pas 1: Establim les hipòtesis:
  2. Pas 2: Calculem la mitjana absoluta desviació de cada grup:
  3. Pas 3: Calculem la desviació mitjana absoluta total (MAD):
  4. Pas 4: Calculem l'estadístic de Levene:
  5. Pas 5: Comparem el valor calculat amb el valor crític:

Test de Shapiro Wilk

Exemple ANOVA - Energia d'unió entre fàrmacs

Suposem que volem determinar si hi ha una diferència significativa en l'energia d'unió entre tres fàrmacs diferents (A, B i C).

Calculem l'energia d'unió per a cada fàrmac:

Ara seguim els passos per realitzar un ANOVA per determinar si hi ha una diferència significativa en l'energia d'unió entre els tres fàrmacs:

  1. Calculem les mitjanes de l'energia d'unió per a cada fàrmac i la mitjana global:
  2. \[ \bar{x}_{\text{total}} = \frac{\sum_{i=1}^{n} \bar{x}_i}{k} \] \[ \bar{x}_{\text{total}} = \frac{-7.4 - 4.4 - 9.4}{3} = -7.4 \]
  3. Calculem la suma de quadrats de regressió (SSR):
  4. \[ SSR = 5 \times (-7.4-(-7.4))^2 + 5 \times (-4.4-(-7.4))^2 + 5 \times (-9.4-(-7.4))^2 = 30 \]
  5. Calculem la suma de quadrats de l'error (SSE):
  6. \[ SSE = 6 + 6 + 6 = 18 \]
  7. Calculem la suma de quadrats total (SST):
  8. \[ SST = SSR + SSE = 30 + 18 = 48 \]
  9. Omplem la taula ANOVA:
  10. Font Suma de quadrats (SS) df Quadrats mitjans (MS) F
    Fàrmac 30 2 15 1.67
    Error 18 12 1.5
    Total 48 14

Amb un valor de F de 1.67, comparem això amb el valor crític de F per a un nivell de significació específic per determinar si rebutgem o no la hipòtesi nul·la. Si el valor de F calculat és més gran que el valor crític de F, podem concloure que hi ha una diferència significativa en l'energia d'unió entre els tres fàrmacs.

En aquest cas, no tenim prou evidència per rebutjar la hipòtesi nul·la. Això indica que no hi ha una diferència significativa en l'energia d'unió entre els fàrmacs A, B i C.

Prova de Tukey HSD (Tukey Honest Significant Difference)

  1. Calculem les diferències entre les mitjanes de tots els parells de grups:
  2. Calculem les variàncies dins dels grups i entre els grups:
  3. Calculem l'estadístic de Tukey (\( q \)):
  4. Comparem els valors \( q \) amb el valor crític de Tukey:

Anàlisi de Kruskal-Wallis

  1. Establim les hipòtesis:
  2. Ranguegem les dades:
  3. Calculem l'estadístic de Kruskal-Wallis (\( H \)):
  4. Comparem l'estadístic \( H \) amb el valor crític:

Prova Posthoc de Dunn Aparellat

  1. Calculem els valors de \( Z \) per a cada parell de grups:
  2. Comparem els valors de \( Z \) amb el valor crític:

Rang Mitjà

El rang mitjà (\( R_{\text{mitjà}} \)) és una mesura estadística de la dispersió de les dades. Es calcula com la diferència entre el valor màxim (\( \text{màx} \)) i el valor mínim (\( \text{min} \)) dividida pel nombre total de mostres menys un (\( N - 1 \)). La fórmula per calcular el rang mitjà és:

\[ R_{\text{mitjà}} = \frac{R}{N - 1} \]

On: