Anàlisi Estadístic
L'anàlisi de dades es pot fer amb el següent codi Python de Google colab creat pel projecte que pots trobar a apartat Science d'aquesta web, subapartat Recerca de fàrmacs. En executar aquest codi podràs pujar dades csv de docking de Swissdock i obtens les energies en deltaG i et determina primer si es tracta de dades normals emprant el test de Shapiro-Wilk i són o no homocedàstiques gràcies a l'ús del test de Levene i així decidir quins altres proves estadístiques aplicar a continuació. Així, per dades normals es farà servir els tests estadístics paramètrics adequats: ANOVA i test posthoc Tukey HSD i en el cas que no siguin normals farem servir tests no paramètrics de Kruskal-Wallis i test posthoc de Dunn amb objectiu de determinar si hi han diferències estadisticament significatives entre possibles fàrmacs. Per últim el codi colab a més de fer els càlculs anteriors dibuixa diferents gràfics com boxplot i d'altres tipus.
Test de Levene
- Pas 1: Establim les hipòtesis:
- Hipòtesi nul·la (\(H_0\)): Les variàncies dels grups són iguals.
- Hipòtesi alternativa (\(H_1\)): Les variàncies dels grups no són iguals.
- Pas 2: Calculem la mitjana absoluta desviació de cada grup:
- Per al fàrmac A, suposem que tenim dues mostres amb observacions \((-7.3, -6.8, -7.5, -7.2, -7.4)\) i \((-6.9, -7.1, -7.3, -7.0, -7.2)\).
- Calculem la mitjana de cada grup: \(-7.24\) i \(-7.1\) respectivament.
- Per al primer grup, les diferències absolutes serien \((| -7.3 + 7.24 |, | -6.8 + 7.24 |, | -7.5 + 7.24 |, | -7.2 + 7.24 |, | -7.4 + 7.24 |)\) i per al segon grup serien \((| -6.9 + 7.1 |, | -7.1 + 7.1 |, | -7.3 + 7.1 |, | -7.0 + 7.1 |, | -7.2 + 7.1 |)\).
- Després, sumem aquestes diferències absolutes per a cada grup i dividim pel nombre total d'observacions en cada grup.
- Pas 3: Calculem la desviació mitjana absoluta total (MAD):
- Suposem que les mitjanes de diferència absoluta per a cada grup són \(0.25\) i \(0.2\), respectivament, i tenim \(10\) observacions en total.
- Aleshores, la MAD seria \(\frac{{0.25 + 0.2}}{{10}} = 0.045\).
- Pas 4: Calculem l'estadístic de Levene:
- Suposem que la suma de les diferències quadrades entre grups és \(0.35\) i la suma de les diferències quadrades dins dels grups és \(0.28\).
- Dividim \(0.35\) entre \(1\) (\(k - 1\)) i \(0.28\) entre \(8\) (\(N - k\)) per obtenir els estadístics.
- Finalment, calculem la proporció entre aquests dos estadístics.
- Pas 5: Comparem el valor calculat amb el valor crític:
- Busquem en una taula el valor crític de Levene per als graus de llibertat corresponents i un nivell de significació predeterminat (per exemple, \(0.05\)).
- Si el valor calculat és més gran que el valor crític, rebutgem la hipòtesi nul·la, indicant que hi ha evidències suficients per concloure que les variàncies dels grups no són iguals.
- En cas contrari, no rebutgem la hipòtesi nul·la.
Test de Shapiro Wilk
- Pas 1: Establim les hipòtesis:
- Hipòtesi nul·la (H0): Les dades provenen d'una distribució normal.
- Hipòtesi alternativa (H1): Les dades no provenen d'una distribució normal.
- Pas 2: Calculem la mitjana i la desviació estàndard de les dades:
- Mitjana (μ) = (-7.3 - 6.8 - 7.5 - 7.2 - 7.4) / 5 = -7.24
- Desviació estàndard (σ) ≈ 0.29
- Pas 3: Ordenem les dades de menor a major:
- -7.5, -7.4, -7.3, -7.2, -6.8
- Pas 4: Calculem els estadístics de Shapiro-Wilk:
- Aplicarem la fórmula de Shapiro-Wilk:
- \( W = \frac{{\left(\sum_{i=1}^{n} a_i x_{(i)}\right)^2}}{{\sum_{i=1}^{n} (x_i - \bar{x})^2}} \)
- On \( a_i \) són els coeficients constants que depenen de n.
- Per \( n = 5 \), els coeficients són \( a = (0.473, 0.322, 0.114, -0.322, -0.473) \).
- Per les dades ordenades \( x_{(i)} \) (-7.5, -7.4, -7.3, -7.2, -6.8), obtenim \( \sum_{i=1}^{5} a_i x_{(i)} = 0.6589 \).
- També calculem \( \sum_{i=1}^{5} (x_i - \bar{x})^2 \) i obtenim aproximadament 0.2433.
- Ara, substituïm aquests valors a la fórmula per trobar \( W \).
- \( W = \frac{{(0.6589)^2}}{{0.2433^2}} \)
- \( W ≈ \frac{{0.4343}}{{0.0593}} \)
- \( W ≈ 7.33 \)
- Pas 5: Apliquem els càlculs per a W:
- Pas 6: Busquem el valor crític de Shapiro-Wilk per a n = 5.
- Pas 7: Comparem el valor calculat amb el valor crític:
- Com que \( W = 7.33 > 0.863 \), rebutgem la hipòtesi nul·la.
- Pas 8: Interpretem el resultat:
- Com que el p-value que correspon a 0.05 es 0.863 i per tant és inferior al nostre nivell de significació, tenim prou evidència per rebutjar la hipòtesi nul·la. Això vol dir que les dades del Fàrmac A no provenen d'una distribució normal.
Exemple ANOVA - Energia d'unió entre fàrmacs
Suposem que volem determinar si hi ha una diferència significativa en l'energia d'unió entre tres fàrmacs diferents (A, B i C).
Calculem l'energia d'unió per a cada fàrmac:
- Fàrmac A: \( -8, -7, -9, -6, -7 \)
- Fàrmac B: \( -5, -4, -6, -3, -4 \)
- Fàrmac C: \( -10, -9, -11, -8, -9 \)
Ara seguim els passos per realitzar un ANOVA per determinar si hi ha una diferència significativa en l'energia d'unió entre els tres fàrmacs:
- Calculem les mitjanes de l'energia d'unió per a cada fàrmac i la mitjana global:
\[ \bar{x}_{\text{total}} = \frac{\sum_{i=1}^{n} \bar{x}_i}{k} \]
\[ \bar{x}_{\text{total}} = \frac{-7.4 - 4.4 - 9.4}{3} = -7.4 \]
- Calculem la suma de quadrats de regressió (SSR):
\[ SSR = 5 \times (-7.4-(-7.4))^2 + 5 \times (-4.4-(-7.4))^2 + 5 \times (-9.4-(-7.4))^2 = 30 \]
- Calculem la suma de quadrats de l'error (SSE):
\[ SSE = 6 + 6 + 6 = 18 \]
- Calculem la suma de quadrats total (SST):
\[ SST = SSR + SSE = 30 + 18 = 48 \]
- Omplem la taula ANOVA:
Font |
Suma de quadrats (SS) |
df |
Quadrats mitjans (MS) |
F |
Fàrmac |
30 |
2 |
15 |
1.67 |
Error |
18 |
12 |
1.5 |
|
Total |
48 |
14 |
|
|
Amb un valor de F de 1.67, comparem això amb el valor crític de F per a un nivell de significació específic per determinar si rebutgem o no la hipòtesi nul·la. Si el valor de F calculat és més gran que el valor crític de F, podem concloure que hi ha una diferència significativa en l'energia d'unió entre els tres fàrmacs.
En aquest cas, no tenim prou evidència per rebutjar la hipòtesi nul·la. Això indica que no hi ha una diferència significativa en l'energia d'unió entre els fàrmacs A, B i C.
Prova de Tukey HSD (Tukey Honest Significant Difference)
- Calculem les diferències entre les mitjanes de tots els parells de grups:
- Per exemple, les diferències serien:
- Grup A i Grup B: \(12.3 - 14.5 = -2.2\)
- Grup A i Grup C: \(12.3 - 11.8 = 0.5\)
- Grup B i Grup C: \(14.5 - 11.8 = 2.7\)
- Calculem les variàncies dins dels grups i entre els grups:
- Per exemple, les variàncies podrien ser:
- Variància dins dels grups (\( MS_{within} \)): \(3.6\)
- Variància entre els grups (\( MS_{between} \)): \(13.7\)
- Calculem l'estadístic de Tukey (\( q \)):
- Per a cada comparació, l'estadístic \( q \) es calcula com:
\[ q = \frac{\bar{X}_i - \bar{X}_j}{\sqrt{\frac{MS_{within}}{n} + \frac{MS_{within}}{n}}} \]
- On \( \bar{X}_i \) i \( \bar{X}_j \) són les mitjanes dels grups que es comparen i \( n \) és el nombre d'observacions per grup.
- Comparem els valors \( q \) amb el valor crític de Tukey:
- Si el valor \( q \) calculat és més gran que el valor crític de Tukey, hi ha una diferència significativa entre les mitjanes dels grups.
Anàlisi de Kruskal-Wallis
- Establim les hipòtesis:
- Hipòtesi nul·la (\( H_0 \)): Les distribucions de tots els grups són iguals.
- Hipòtesi alternativa (\( H_1 \)): Almenys una de les distribucions dels grups difereix.
- Ranguegem les dades:
- Assignem rangs a totes les observacions en els tres grups combinats.
- Calculem l'estadístic de Kruskal-Wallis (\( H \)):
- L'estadístic \( H \) es calcula com:
\[ H = \frac{{12}}{{N(N+1)}} \sum_{j=1}^{k} \frac{{R_j^2}}{{n_j}} - 3(N+1) \]
- On \( N \) és el nombre total d'observacions, \( k \) és el nombre de grups, \( R_j \) és la suma dels rangs en el grup \( j \) i \( n_j \) és el nombre d'observacions en el grup \( j \).
- Comparem l'estadístic \( H \) amb el valor crític:
- Si l'estadístic \( H \) calculat és més gran que el valor crític, rebutgem la hipòtesi nul·la i conclouem que hi ha diferències significatives entre les distribucions dels grups.
Prova Posthoc de Dunn Aparellat
- Calculem els valors de \( Z \) per a cada parell de grups:
- Per a cada comparació, l'estadístic \( Z \) es calcula com:
$$
Z = \frac{| R_i - R_j | - 0.5}{\sqrt{\frac{N(N+1)}{12n(n+1)} \left( \frac{N+1}{2} - \frac{\sum_{i=1}^{k} R_i^2}{N} \right)}}
$$
- On \( R_i \) i \( R_j \) són els rangs mitjans dels dos grups que es comparen i \( n \) és el nombre d'observacions en cada grup.
- Comparem els valors de \( Z \) amb el valor crític:
- Si el valor absolut de \( Z \) calculat és més gran que el valor crític de la distribució normal estàndard, hi ha una diferència significativa entre els grups comparats.
Rang Mitjà
El rang mitjà (\( R_{\text{mitjà}} \)) és una mesura estadística de la dispersió de les dades. Es calcula com la diferència entre el valor màxim (\( \text{màx} \)) i el valor mínim (\( \text{min} \)) dividida pel nombre total de mostres menys un (\( N - 1 \)). La fórmula per calcular el rang mitjà és:
\[ R_{\text{mitjà}} = \frac{R}{N - 1} \]
On:
- \( R \) és el rang de les dades (\( R = \text{màx} - \text{min} \)).
- \( N \) és el nombre total de mostres.