T test x trung bình trừ nhau ra âm

Thân chào các bạn, đây là bài thực hành thứ 5 trong dự án Bayes for Vietnam. Mục tiêu của chúng tôi là phổ cập về phương pháp thống kê theo trường phái Bayes nhằm thay thế hoàn toàn những công cụ truyền thống. Đối tượng của chúng tôi là các bạn bác sĩ và sinh viên y khoa.

Đây cũng là lần đầu tiên một bài giảng có sự góp sức của tất cả 4 thành viên trong Core team của project. Trong những bài đi trước, Bs. Khả Nhi đã cùng các bạn đi qua 4 chặng đường, dùng Bayes thay thế cho Pearson’s r, Student t-test, Chisquared test và phân loại bằng hồi quy Logistic. Các bạn đã bắt đầu quen với cấu trúc ngôn ngữ STAN, quy trình chuyển giả thuyết nghiên cứu thành mô hình Bayes, khai thác phân phố hậu định.

Trong bài hôm nay chúng ta sẽ thay thế phân tích phương sai 1 yếu tố (One-way ANOVA) bằng phương pháp hồi quy Bayes.

Qua 2 bài gần đây nhất, ta thấy rằng:

  1. Phân tích và suy diễn thống kê theo trường phái Bayes có nguyên tắc như nhau trong mọi bài toán:

\[p(\theta |outcome, data)\propto p(outcome|\theta) p(\theta ,data)\]

theo đó, phân phối hậu định của một tham số Theta (xác suất điều kiện của theta khi có thông tin về biến kết quả outcome và matrix/vector dữ liệu) tỉ lệ với tích của hàm likelihood (xác suất có điều kiện cho phép ước tính kết quả khi có theta và dữ liệu) với phân phối tiền định (prior= một giả thuyết về phân phối của theta trước khi ta nhìn thấy dữ liệu và kết quả).

  1. Vấn đề là ta phải chuyển câu hỏi nghiên cứu và dữ liệu thành mô hình Bayes, trong đó theta là mục tiêu cần tìm phân phối hậu định, ta phải mô tả được quy luật của hàm likelihood cho phép ước lượng outcome, và phải chọn prior. Khi đã phác thảo được mô hình trên giấy thì việc viết code chỉ còn là vấn đề kỹ thuật.
  2. Theo nguyên tắc này, ta có thể thay thế tất cả những công cụ thống kê truyền thống dùng null hypothesis testing và p_value bằng phân tích Bayes.
  3. Sự thay thế có thể thực hiện ở 2 cấp độ (theo 2 cách): hoặc chọn trị số thống kê (thí dụ F cho Fisher’s F test và các effect-size trong ANOVA) làm mục tiêu để tìm phân phối hậu định, tức là vẫn bám sát vào truyền thống; hoặc chỉ giữ lại tinh thần của giải pháp mà không chấp chước vào các trị số quy ước, thí dụ thay vì dựng bảng ANOVA và F test thì ta khảo sát trực tiếp phân phối hậu định của trung bình khác biệt giữa các phân nhóm, tức là ta bỏ hẳn công cụ đi và chỉ dùng mô hình.

Như thường lệ, bài giảng sẽ đi theo 3 bước như sau:

Trước hết, chúng tôi sẽ ôn lại lý thuyết về ANOVA đơn biến, đưa ra 1 bài toán tiêu biểu và minh họa quy trình ANOVA cổ điển theo phái frequentist.

Sau đó chúng tôi sẽ chuyển bài toán này thành mô hình Bayes, và hướng dẫn các bạn viết STAN code cho mô hình.

Cuối cùng, chúng ta sẽ khai thác phân phối hậu định cho các tham số cần quan tâm, và suy diễn Bayes.

Ôn tập về ANOVA 1 yếu tố

Bài toán minh họa

Bộ số liệu minh họa trong bài thực hành này có nguồn gốc từ một thử nghiệm lâm sàng đối chứng song song của AstraZeneca. 606 bệnh nhân có chức năng gan ở thời điểm ban đầu tương đương nhau, được phân chia ngẫu nhiên vào 4 phân nhóm điều trị A,B,C và D. Mỗi phân nhóm được điều trị bằng một loại thuốc X với liều khác nhau (A= liều thấp nhất, D= cao nhất) trong một thời gian dài như nhau. Biến số kết quả là nồng độ bilirubin (TBL : total bilirubin level) cuối cùng sau khi điều trị. Câu hỏi nghiên cứu đặt ra là liệu liều thuốc có ảnh hưởng đến giá trị TBL hay không ?

library(tidyverse)
dat0 <- read.csv("http://vincentarelbundock.github.io/Rdatasets/csv/texmex/liver.csv")%>%as_tibble()

Bảng thống kê mô tả:

d=psych::describeBy(dat0$TBL.M,dat0$dose)
t1=rbind(d$A[,c(2:13)],   
         d$B[,c(2:13)],   
         d$C[,c(2:13)],   
         d$D[,c(2:13)])%>%as.data.frame()%>%round(.,2)  
row.names(t1)=c("A","B","C","D")  
knitr::kable(t1)

n mean sd median trimmed mad min max range skew kurtosis se A 152 9.57 3.56 8.46 9.16 2.79 3.25 23.09 19.84 1.27 2.07 0.29 B 148 10.55 4.17 9.49 10.13 3.42 3.42 25.99 22.57 1.16 1.65 0.34 C 148 10.75 5.24 9.40 10.02 3.42 4.28 42.75 38.48 2.90 12.87 0.43 D 158 11.85 5.27 10.60 11.22 4.31 3.93 39.84 35.91 2.01 6.77 0.42

library(ggjoy)
## Warning: package 'ggjoy' was built under R version 3.4.1
mycol4=c("
# fcb614","
# f2600c","
# f20c23","
# 98039e")
dat0%>%ggplot(aes(x=TBL.M,y=dose,fill=dose,col=dose))+  
  geom_joy(alpha=0.5,size=1,scale=1)+  
  geom_rug(alpha=0.1)+  
  scale_x_continuous("Total bilirubin after treatment")+  
  theme_bw()+  
  geom_vline(xintercept=mean(dat0$TBL.M),linetype=2,col="blue",size=1)+  
  coord_flip()+  
  scale_fill_manual(values=mycol4)+ scale_color_manual(values=mycol4)
## Picking joint bandwidth of 1.29

Bây giờ chúng ta sẽ phân tích bài toán này. Có 2 biến số:

  1. kết quả Y (TBL) là một biến định lượng, liên tục
  2. yếu tố phân nhóm (X) là một biến phân loại có ý nghĩa thứ bậc, vì nó biểu thị cho liều thuốc tăng dần.

Có hai điểm chú ý quan trọng mà chúng tôi muốn nhấn mạnh :

Đầu tiên, mục tiêu nghiên cứu có thể được phát biểu theo 2 cách:

  1. So sánh giá trị Y (TBL) giữa 4 phân nhóm A,B,C,D (đây là cách hiểu thông dụng ; có hàm ý so sánh)
  2. Khảo sát tác động của liều thuốc (X) lên sự thay đổi của Y (TBL) (Đây là cách phát biểu theo trường phái mô hình hồi quy)

Cả 2 cách tư duy kể trên đều đúng, và hiểu theo cách nào, thì các bạn cũng nhận ra giải pháp mình cần sử dụng chính là phân tích phương sai 1 yếu tố (gọi tắt là ANOVA đơn biến). Tuy nhiên, ở trường đại học các sinh viên Y khoa thường được dạy nhìn vấn đề theo cách thứ nhất (so sánh giá trị trung bình Yj giữa các phân nhóm Xj), do đó hầu hết bác sĩ và sinh viên tiếp cận ANOVA như một (bộ) công cụ gồm F-test, post-hoc test… ,không khác với những kiểm định rời rạc như Student-t test.

Khi chúng ta tiếp cận theo hướng mô hình, ta sẽ nhận ra bài toán ANOVA chính là một mô hình hồi quy tuyến tính có dạng Y = f(X), và thay vì dùng thuật ngữ «So sánh giữa 4 phân nhóm», ta sẽ nghĩ về « 4 bậc Hiệu ứng » mà yếu tố X đã gây ra cho kết quả Y.

Các phần mềm thống kê thương mại thường che dấu bản chất mô hình GLM của ANOVA, chúng chỉ dẫn dắt người dùng triển khai ANOVA như một gói công cụ dưới hình thức menu và nút bấm. Chỉ có R yêu cầu người dùng làm test F ANOVA qua một mô hình tuyến tính với hàm anova(), song R cũng có hàm aov() cho phép dựng bảng ANOVA mà không qua trung gian lm().

Chúng tôi khuyến khích các bạn suy nghĩ theo cách thứ hai (mô hình GLM), bởi vì nó cho phép các bạn quan sát thế giới sinh lý bệnh như những mô hình, bạn có thể nhìn ra bản chất của hiện tượng và tương tác giữa các yếu tố, hình dung về thiết kế phân nhóm ngay từ khi việc phân nhóm chưa được thực hiện. Mặt khác, khi đã nhìn ra bản chất của ANOVA chính là mô hình hồi quy tuyến tính, bạn sẽ nắm được dễ dàng MANOVA, ANOVA lặp lại, ANCOVA, MANCOVA, Mixed ANOVA… chứ không còn lẫn lộn giữa chúng như từng công cụ rời rạc nữa.

Thứ hai : ANOVA theo trường phái frequentist là một quy trình nhiều bước, chứ không phải là 1 kiểm định duy nhất. Những bước bắt buộc gồm có

  1. Kiểm tra các giả định, trong đó quan trọng nhất là giả định vê quan sát độc lập, giả định phương sai đồng nhất, giả định phân phối chuẩn ở mỗi phân nhóm
  2. Fisher’s F test
  3. hậu kiểm (posthoc) hay phân tích tương phản (contrast analysis), với mục tiêu so sánh bắt cặp tuần tự ;
  4. Tính effect-size.

Đa số các bạn sinh viên chỉ làm bước 2,3 nhưng bỏ qua bước 1 và 4.

Thí dụ: Dữ liệu này đã vi phạm giả định về phân phối chuẩn, dựa theo kết quả D’Agostino test.

dat0%>%  
  split(.$dose)%>%  
  map(~fBasics::dagoTest(.$TBL.M))
## $A  
##   
## Title:  
##  D'Agostino Normality Test  
##   
## Test Results:  
##   STATISTIC:  
##     Chi2 | Omnibus: 40.5507  
##     Z3  | Skewness: 5.4139  
##     Z4  | Kurtosis: 3.3526  
##   P VALUE:  
##     Omnibus  Test: 1.565e-09   
##     Skewness Test: 6.166e-08   
##     Kurtosis Test: 0.0008005   
##   
## Description:  
##  Fri Oct 13 13:04:19 2017 by user: Admin  
##   
##   
## $B  
##   
## Title:  
##  D'Agostino Normality Test  
##   
## Test Results:  
##   STATISTIC:  
##     Chi2 | Omnibus: 33.8696  
##     Z3  | Skewness: 5.0183  
##     Z4  | Kurtosis: 2.9473  
##   P VALUE:  
##     Omnibus  Test: 4.419e-08   
##     Skewness Test: 5.214e-07   
##     Kurtosis Test: 0.003206   
##   
## Description:  
##  Fri Oct 13 13:04:20 2017 by user: Admin  
##   
##   
## $C  
##   
## Title:  
##  D'Agostino Normality Test  
##   
## Test Results:  
##   STATISTIC:  
##     Chi2 | Omnibus: 120.8591  
##     Z3  | Skewness: 8.7442  
##     Z4  | Kurtosis: 6.6632  
##   P VALUE:  
##     Omnibus  Test: < 2.2e-16   
##     Skewness Test: < 2.2e-16   
##     Kurtosis Test: 2.679e-11   
##   
## Description:  
##  Fri Oct 13 13:04:20 2017 by user: Admin  
##   
##   
## $D  
##   
## Title:  
##  D'Agostino Normality Test  
##   
## Test Results:  
##   STATISTIC:  
##     Chi2 | Omnibus: 86.4629  
##     Z3  | Skewness: 7.3941  
##     Z4  | Kurtosis: 5.6383  
##   P VALUE:  
##     Omnibus  Test: < 2.2e-16   
##     Skewness Test: 1.423e-13   
##     Kurtosis Test: 1.717e-08   
##   
## Description:  
##  Fri Oct 13 13:04:20 2017 by user: Admin

Sự vi phạm giả định về phân phối chuẩn của Y tại các phân nhóm, thông thường không cho phép chúng ta dùng ANOVA. Một giải pháp thay thế phi tham số (Kruskal-Wallis test) hoặc hoán chuyển dữ liệu có thể áp dụng. Tuy nhiên với mục đích minh họa, chúng ta tạm chấp nhận bỏ qua vi phạm này, và thực ra khi quan sát 4 density plot của Y, ta thấy chúng có phân phối đồng dạng.

Bây giờ ta thực hiện ANOVA:

Một quy trình ANOVA hoàn chỉnh phải trả lời được 2 câu hỏi :

Câu hỏi 1) X có thật sự gây ra hiệu ứng ý nghĩa làm thay đổi Y hay không ? (Nói cách khác : Mô hình tuyến tính Y=f(X) có cho phép giải thích được phần lớn sai biệt của Y hay không ?), hiệu ứng của X lớn đến mức nào ?

Câu hỏi thứ nhất này được giải quyết bằng F test như sau :

Đầu tiên ta dựng một mô hình tuyến tính M có dạng Y = f(X) (chúng ta sẽ tìm hiểu rõ hơn về nội dung hàm f trong đoạn sau). Áp dụng model M này, ta có thể ước lượng giá trị trung bình Yj của Y tại mỗi cấp bậc j của yếu tố X. Yj được giả định có phân phối chuẩn (Muj, sigmaj), trong đó Muj là giá trị trung bình dự báo, còn sigmaj cho biết sai biệt mang tính nội tại (trong từng phân nhóm) và ngẫu nhiên so với giá trị có thực quan sát được (có thể xem như residual error của model M hay residual sum of squares = SSR).

SSR = Residual sum of squares

\[SSR=\sum_{i=1}^{n}(y_i-\hat{y}_i)^2\]

Ta lại có thể tính được khoảng cách sai biệt giữa Muj và giá trị trung bình của Y cho toàn quần thể (tất cả phân nhóm gộp lại), đây là phần sai biệt do sự phân nhóm gây ra (hay phần biến thiên của Y mà mô hình M có thể giải thích được):

SSM = Model sum of squares

\[SSM=\sum_{i=1}^{n}(\hat{y}_i-\bar{y})^2\] Từ đó ta có:

Trung bình bình phương mô hình: Mean model sum of squares: MSM

\[MSM=\frac{SSR}{k-1}\] Với k = số bậc của yếu tố X

Trung bình bình phương nội tại ngẫu nhiên : Mean residual sum of squares

\[MSR=\frac{SSE}{n-k}\]

Tỉ số F được xác định như sau:

\[F=\frac{MSM}{MSR}\]

Tỉ số F có thể được định nghĩa theo nhiều cách, thí dụ : F= tỉ số giữa hiệu ứng chính giữa các phân nhóm Xj và hiệu ứng nội tại trong từng phân nhóm Xj, hoặc F=tỉ số giữa phương sai do yếu tố X và phương sai do ngẫu nhiên, hoặc : F = tỉ số giữa phần phương sai mà mô hình cho phép giải thích và phần phương sai còn lại mà mô hình không thể giải thích.

Kiểm định F được Giáo sư Ronald A. Fisher (1890-1962), một nhà di truyền và thống kê học người Anh thiết kế ra năm 1920. Bản chất của F test là một phản nghiệm với lý luận như sau:

Nếu X thực sự gây hiệu ứng quan trọng đối với Y (tức là gây ra thay đổi lớn hơn sự biến thiên ngẫu nhiên của chính Y), một mô hình M ước lượng Y theo X hẳn phải rất phù hợp với dữ liệu, các điểm giá trị Yij sẽ nằm rất gần đường thẳng hồi quy M=f(X). M sẽ cho phép giải thích hầu hết phương sai của Y và chỉ để lại phần sai số dư nhỏ như vậy, như vậy MSM chắc chắn là lớn hơn so với MSR.

Nếu ta dùng 1 giá trị F đại diện cho tỉ lệ MSM/MSR, hiệu ứng của X càng quan trọng thì F càng lớn.

Bước tiếp theo của phản nghiệm (như mọi Null hypothesis testing khác), ta sẽ dùng F đại diện cho hiệu ứng của X: Ta muốn chứng minh là F đủ lớn để có thể gọi là có ý nghĩa.

Giả thuyết 0 do đó sẽ là: Có 1 giá trị F’ còn lớn hơn F nữa ! (H0: F’ > F) Giả thuyết H1 sẽ là : F’ không lớn hơn F.

Xác suất tìm ra F’ được xác định từ hàm pdf của một phân phối “F”, với 2 tham số độ tự do tương ứng với (k-1) : số phân nhóm hay bậc của X trừ 1, và (N-k) với N=cỡ mẫu. Mật độ xác suất (giá trị p) so với ngưỡng ý nghĩa thống kê được chọn, thí dụ alpha = 0.05 sẽ cho biết khả năng H0 đúng là thấp hơn hay cao hơn 0.05.

Nếu p<0.05 thì ta có thể loại bỏ giả thuyết H0. Kết quả này tương đương với việc khẳng định: F đủ lớn để cho phép suy diễn rằng hiệu ứng của X có ý nghĩa thống kê.

Sau đây là F test và bảng ANOVA cổ điển trong R:

Đầu tiên, Levene test cho phép khẳng định thỏa mãn giả định phương sai đồng nhất,sau đó là kết quả của hàm aov() cung cấp SSM, SSR,MSM,MSR và df của chúng.

Ta có F(3,602) = 6.318, có ý nghĩa thống kê với p=0.0003

aov(TBL.M ~ dose, dat0)%>%car::leveneTest()
## Levene's Test for Homogeneity of Variance (center = median)  
##        Df F value  Pr(>F)    
## group   3  2.2155 0.08521 .  
##       602                    
## ---  
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
d=psych::describeBy(dat0$TBL.M,dat0$dose)
t1=rbind(d$A[,c(2:13)],   
         d$B[,c(2:13)],   
         d$C[,c(2:13)],   
         d$D[,c(2:13)])%>%as.data.frame()%>%round(.,2)  
row.names(t1)=c("A","B","C","D")  
knitr::kable(t1)

0

d=psych::describeBy(dat0$TBL.M,dat0$dose)
t1=rbind(d$A[,c(2:13)],   
         d$B[,c(2:13)],   
         d$C[,c(2:13)],   
         d$D[,c(2:13)])%>%as.data.frame()%>%round(.,2)  
row.names(t1)=c("A","B","C","D")  
knitr::kable(t1)

1

Ngoài F test, ta còn có thể tính những Effect-sizes (kích thước hiệu ứng), thí dụ: Etasquared, r và Omegasquared

\[\eta ^{2} = \frac{SSM}{SST}\]

\[\omega ^{2} = \frac{SSM-dfmodel*MSR}{SST+MSR}\]

\[r = \sqrt{\frac{SSM}{SST}}\]

d=psych::describeBy(dat0$TBL.M,dat0$dose)
t1=rbind(d$A[,c(2:13)],   
         d$B[,c(2:13)],   
         d$C[,c(2:13)],   
         d$D[,c(2:13)])%>%as.data.frame()%>%round(.,2)  
row.names(t1)=c("A","B","C","D")  
knitr::kable(t1)

2

d=psych::describeBy(dat0$TBL.M,dat0$dose)
t1=rbind(d$A[,c(2:13)],   
         d$B[,c(2:13)],   
         d$C[,c(2:13)],   
         d$D[,c(2:13)])%>%as.data.frame()%>%round(.,2)  
row.names(t1)=c("A","B","C","D")  
knitr::kable(t1)

3

Giá trị omegaSqr hay Etasqr thường được diễn giải ở 3 mức: hiệu ứng nhỏ nếu < 0.05 trung bình : từ 0.01-0.05 và lớn nếu > 0.15, r được so sánh với ngưỡng 0.5, càng gần 1 thì hiệu ứng càng cao

Câu hỏi 2) Sự khác biệt giữa các phân nhóm với nhau là bao nhiêu ? Có ý nghĩa hay không ? (Mục tiêu so sánh bắt cặp giữa các phân nhóm, hay định vị sự khác biệt giữa các thứ bậc của X).

Câu hỏi thứ 2 này có hàm ý so sánh trung bình giữa các phân nhóm. Có hai cách giải quyết câu hỏi này, đó là post-hoc test (có hàng chục loại,như Tukey, Bonferroni, Sidak, Scheffe, Hochberg, Gabriel, Waller-Duncan, Dunett, Newman Keuls, LSD, Tamhane, Ryan-Einot-Gabriel Welsch) hay phân tích Contrast.

Post-hoc test được dùng khi ta không có giả thuyết nào cụ thể; phổ biến nhất là Bonferroni hay Tukey; trong khi contrast là một thí nghiệm mang tính chủ quan, trong đó ta dựng mô hình có áp dụng trọng số để tạo ra tương phản trên model matrix.

Sau đây là thí dụ với Bonferroni post-hoc test:

d=psych::describeBy(dat0$TBL.M,dat0$dose)
t1=rbind(d$A[,c(2:13)],   
         d$B[,c(2:13)],   
         d$C[,c(2:13)],   
         d$D[,c(2:13)])%>%as.data.frame()%>%round(.,2)  
row.names(t1)=c("A","B","C","D")  
knitr::kable(t1)

4

d=psych::describeBy(dat0$TBL.M,dat0$dose)
t1=rbind(d$A[,c(2:13)],   
         d$B[,c(2:13)],   
         d$C[,c(2:13)],   
         d$D[,c(2:13)])%>%as.data.frame()%>%round(.,2)  
row.names(t1)=c("A","B","C","D")  
knitr::kable(t1)

5

VÀ Tukey post-hoc test

d=psych::describeBy(dat0$TBL.M,dat0$dose)
t1=rbind(d$A[,c(2:13)],   
         d$B[,c(2:13)],   
         d$C[,c(2:13)],   
         d$D[,c(2:13)])%>%as.data.frame()%>%round(.,2)  
row.names(t1)=c("A","B","C","D")  
knitr::kable(t1)

6

d=psych::describeBy(dat0$TBL.M,dat0$dose)
t1=rbind(d$A[,c(2:13)],   
         d$B[,c(2:13)],   
         d$C[,c(2:13)],   
         d$D[,c(2:13)])%>%as.data.frame()%>%round(.,2)  
row.names(t1)=c("A","B","C","D")  
knitr::kable(t1)

7

d=psych::describeBy(dat0$TBL.M,dat0$dose)
t1=rbind(d$A[,c(2:13)],   
         d$B[,c(2:13)],   
         d$C[,c(2:13)],   
         d$D[,c(2:13)])%>%as.data.frame()%>%round(.,2)  
row.names(t1)=c("A","B","C","D")  
knitr::kable(t1)

8

Còn đây là thí dụ minh họa về 1 phân tích contrast:

d=psych::describeBy(dat0$TBL.M,dat0$dose)
t1=rbind(d$A[,c(2:13)],   
         d$B[,c(2:13)],   
         d$C[,c(2:13)],   
         d$D[,c(2:13)])%>%as.data.frame()%>%round(.,2)  
row.names(t1)=c("A","B","C","D")  
knitr::kable(t1)

9

library(ggjoy)

0

Phái Frequentist và vấn đề cỡ mẫu

Sau khi tìm hiểu về nội dung của ANOVA cổ điển, chắc các bạn đã có thể hình dung về một số đặc tính của những công cụ thống kê cổ điển, đó là :

Các nhà thống kê cổ điển thường không giải quyết trực tiếp câu hỏi (giả thuyết) nghiên cứu từ dữ liệu ; nhưng họ đặt ra một trị số thống kê mang tính đại diện, thí dụ t trong Student t test, Chi2 trong Pearson’s Chisquared test, F trong Fisher’s F test ; sau đó họ dùng phương pháp Phản nghiệm, để chuyển giả thuyết nghiên cứu thành một giả thuyết H1 đối lập với 1 giả thuyết H0. Họ cho rằng nếu bác bỏ được H0 thì xem như H1 đúng. Cách làm này là không hoàn hảo trên thực tế. Đầu tiên, giả thuyết H0 được kiểm chứng duy nhất bằng trị số thống kê trung gian và đại diện mà ta vừa nói, và dựa vào một phân phối mang tính chất « tưởng tượng, giả định » của trị số này, thí dụ Chisquared, t, F. Sau nữa là cách phát biểu giả thuyết H0, H1. Ngay cả khi bác bỏ được H0, không đồng nghĩa với việc H1 là đúng (có thể còn nhiều giả thuyết thay thế khác như H2, H3 ?). Sau nữa, việc đặt ra ngưỡng ý nghĩa 0.05 cho trị số p vô tình đã khiến người nghiên cứu nhìn thế giới chỉ bằng 2 màu Trắng hoặc Đen, trong khi sự thật lại là màu xám.

Một nhược điểm khác của phái Frequentist, đó là mọi thứ đều phụ thuộc vào cỡ mẫu. Chúng ta có thể minh họa cho vấn đề này qua thí nghiệm nhỏ sau đây : Tưởng tượng cùng nghiên cứu này, chúng ta thực hiện ANOVA cho 17 mẫu khác nhau có kích thước N tăng dần từ 60 (10%) đến 606 (100%).

library(ggjoy)

1

Kết quả mô phỏng cho thấy : giá trị của F, p_value của F_test, và các effect size đều phụ thuộc vào cỡ mẫu. Chúng chỉ trở nên ổn định và đáng tin cậy với ít nhất N>200 N càng cao thì F càng cao; p_value không có ý nghĩa nếu N quá thấp, và effect-size chỉ ổn định với N đủ lớn.

Đó là nguyên nhân khiến nhóm BAV quyết định phát động dự án Bayes For Vietnam, nhằm giới thiệu một hướng đi khác so với trường phái Frequentist cổ điển và Null hypothesis testing. Trường phái Bayes cho phép các bạn định vị, xác lập trạng thái của H1, hay nói cách khác, là mức độ khả tín, niềm tin của các bạn vào H1 dựa vào dữ liệu thực tế, hiện tại mà bạn đang có (Chúng ta không cần đến p_value nữa). Bayes còn cho phép hòa hợp được thông tin, giả thuyết tiền định và likelihood để tìm ra phân phối hậu định

Đến đây, ta tạm dừng phần ANOVA cổ điển và chuyển sang phần chính của bài, đó là ANOVA theo Bayes:

Giải pháp Bayes cho ANOVA 1 yếu tố

Có nhiều cách để biểu diễn hàm f(X) trong mô hình y~f(X), thí dụ :

Y ~ 1 + (1|Xj) : Mô hình này tương đương với một hàm xác suất có điều kiện, cho phép tính trung bình Mu của Y tại mỗi phân nhóm Xj

Y~X, mô hình này có matrix bao gồm 4 biến : Intercept (tham số beta1) đại diện cho cấp bậc thứ nhất của X (thí dụ phân nhóm A), và 3 biến giả (dummy var) đại diện cho 3 phân nhóm B,C,D). Như vậy

Y ~ beta1 + beta2.(X=B)+beta3.(X=C) + beta4*(X=D).

Tuy nhiên, tham số hồi quy beta2, beta3, beta4 chỉ cho biết khác biệt trung bình của Y tại B,C,D so với A

Y ~ X – 1 ; mô hình này tương đương với mô hình 1 nhưng không chứa Intercept (-1), khi đó matrix của mô hình sẽ là 4 dummy variables (A,B,C,D) tương ứng với 4 tham số hồi quy beta1, beta2, beta3, beta4 – lần lượt chính là trung bình của Y tại mỗi phân nhóm.

Dù là mô hình nào, ta đều có thể trả lời câu thứ 1, vì F test dựa vào việc tính sum of squares, nhưng chúng ta phải chọn cách nào cho phép giải đáp cả câu thứ 2 thì mới là tối ưu. Do đó hàm f(X) của mô hình thứ 3 (không chứa intercept) được chọn để dựng mô hình Bayes.

Mô hình Bayes trong STAN

Như vậy trong bài này, chúng ta sẽ chuyển giá trị trung bình Y tại mỗi phân nhóm A,B,C,D thành 4 tham số beta1, beta2, beta3 và beta4. Mô hình có dạng:

\[y_{ij} = \beta _{1i}+\beta _{2i}+\beta _{3i} + \beta _{4i} + \epsilon _{ij}\]

Trong đó, yij là giá trị của biến kết quả Y tại trường hợp thứ i và phân nhóm j; betaji là giá trị trung bình dự báo của phân nhóm j, và eij là sai số tồn lưu của mô hình.

Trước hết ta viết mô hình trong STAN với cấu trúc như sau:

STAN code được lưu dưới dạng chuỗi kí tự (string),

model.text <- “…..”

một chương trình STAN có nhiều block và mỗi block có vai trò khác nhau:

  1. Block data: Tên gọi, loại và phạm vi của từng yếu tố trong dữ liệu đầu vào phải được khai báo trong block này

N là một số nguyên dương chỉ cỡ mẫu

J là 1 số nguyên dương, chỉ số bậc của yếu tố X (số phân nhóm)

y là 1 vector số thực có độ dài = N

x là 1 vector số nguyên dương, dao động từ 1 đến J và có độ dài N

  1. Block parameter:

Như tên gọi của nó, đây là nơi khai báo về các tham số mà ta cần trong mô hình. Như đã trình bày, ta có 2 loại tham số: beta (trung bình mỗi phân nhóm, hay tham số hồi quy trong mô hình), là một vector số thực có kích thước J (J=1,2,3,4) và sigma là SD của residual, là 1 số thực

  1. Block Transformed parameters:

Block này không bắt buộc phải có cho mọi mô hình vì nó tùy thuộc vào mục đích của người viết code và độ phức tạp của mô hình. Cần chú ý là mọi tham số tạo ra trong block này cũn sẽ được lấy mẫu cho chuỗi MCMC và xuất ra kết quả mô hình như các tham số trong block parameter.

Trong block này, ta khai báo tham số Mu là trung bình dự báo của Y, với likelihood là Y được mô tả bằng phân phối chuẩn có trung bình Mu và SD=sigma; sau đó ta viết 1 vòng lặp để liên kết Mu và Beta cho mỗi case i

  1. Block Model: Trong block này ta sẽ khai báo về thành phần likelihood và priors (giả thuyết tiền định về phân phối của từng tham số).

Trong mô hình này, likelihood là y ~ normal (Mu, sigma); Ta có 2 tham số là beta và Sigma. Nếu ta không khai báo prior, STAN sẽ mặc định dùng prior Uniform cho tham số đó. Ở đây ta dùng prior “non informative” là half-Cauchy cho sigma, và 1 giả thuyết tiền định rằng beta có phân phối chuẩn, dao động quanh trung bình = 10 và sd=100.

Ngoài ra, ta còn có thể dùng thêm block thứ 5 để lấy mẫu cho các tham số phụ hay phái sinh từ các parameter có sẵn trong mô hình; tuy nhiên việc này không thực sự quan trọng, nhất là việc tính toán nhiều tham số bằng cách lấy mẫu sẽ làm quy trình tạo MCMC quá tải một cách không cần thiết.

library(ggjoy)

2

Sau khi code mô hình, ta sẽ tạo ra dữ liệu đầu vào cho phân tích Bayes, dưới dạng 1 list, trong đó ta khai báo các thành phần mà block data đã mô tả, gồm vector y, x, 2 số nguyên N và J

library(ggjoy)

3

Ta đưa data vào mô hình và kích hoạt quy trình lấy mẫu MCMC với các tùy chỉnh Ta sẽ chạy 2 chuỗi song song: Trước hết sampler sẽ chạy 500 lượt khởi động, khi ổn định thì kết quả MCMC bắt đầu được ghi lại 2500 lượt cho mỗi chuỗi, và chạy song song trên tối đa 4 cores của máy tính.

library(ggjoy)

4

library(ggjoy)

5

Quy trình converged khá nhanh sau vài phút. Bây giờ ta có 1 object khá lớn, chứa 2 chuỗi MCMCx2500 lượt cho 4 tham số beta, cho sigma, và 606 tham số Mu. Tuy nhiên ta chỉ cần khảo sát 4 tham số beta.

Phân phối hậu định của 4 tham số beta1,2,3,4 (chính là trung bình của TBL cho 4 phân nhóm) có thể được khảo sát như sau :

library(ggjoy)

6

library(ggjoy)

7

library(ggjoy)

8

library(ggjoy)

9

Trước hết, ta thấy rằng mô hình Bayes không thể ước lượng chính xác phân phối thực tế của TBL, nó chỉ cho phép ước lượng giá trị trung bình (Muj) tại mỗi phân nhóm thông qua các tham số beta.

Tuy nhiên bản thân tham số beta chưa cho phép ta trả lời 2 câu hỏi ở trên. Do đó ta phải làm tiếp bước 2 : Dựng bảng ANOVA từ mô hình BAYES

Bảng ANOVA từ mô hình BAYES

Nội dung của bước này là tương tự như cách ta làm để dựng bảng ANOVA cổ điển, chỉ khác đó là MSM và MSR và các sum of squares không được xác định từ mô hình tuyến tính dùng algorithm Least square hay REML, mà dùng chính mô hình Bayes với 4 tham số Beta. Để đơn giản, ta lấy Trung vị của phân phối hậu định của mỗi Beta để tạo ra 1 mô hình đại diện :

Sau đó, từ mô hình đại diện Bayes này, ta tính các SS, MSM, MSR, F values cũng như các effect-sizes

## Warning: package 'ggjoy' was built under R version 3.4.1

0

## Warning: package 'ggjoy' was built under R version 3.4.1

1

Như vậy, đây là một giải pháp “lai” giữa hồi quy Bayes và null hypothesis testing. Thậm chí ta có cả p values.

Kết quả trên đây có thể xem như tương đương với kết quả của hàm aov(), trường phái Frequentist.Giá trị p 1 sided là như nhau. Một kết quả không tệ ?

## Warning: package 'ggjoy' was built under R version 3.4.1

2

## Warning: package 'ggjoy' was built under R version 3.4.1

3

Đến đây, ta đã trả lời xong câu hỏi thứ 1, tiếp theo sẽ là việc so sánh bắt cặp tuần tự giữa 4 phân nhóm để trả lời câu hỏi thứ 2

Post-hoc test theo BAYES

Quy trình này thực sự thay thế post-hoc test theo phái frequentist bằng phương pháp Bayes. Nội dung của post hoc test theo Bayes rất đơn giản: Ta sẽ tạo ra 6 chuỗi MCMC chứa phân phối hậu định của “khác biệt trung bình” giữa 2 phân nhóm được bắt cặp tuần tự (Ta có 4 phân nhóm, nên có 6 cặp so sánh ). Suy diễn Bayes sẽ được thực hiện trực tiếp trên mỗi chuỗi MCMC, không cần dùng p_value hay hiệu chỉnh.

## Warning: package 'ggjoy' was built under R version 3.4.1

4

## Warning: package 'ggjoy' was built under R version 3.4.1

5

Suy diễn Bayes được thực hiện bằng cả 2 phương pháp : ROPE (Kruschke) và Bayes Factor. Chú ý rằng chúng ta lấy MuA-MuB, nên khác biệt trung bình <0 cho cặp so sánh AB có nghĩa là MuB lớn hơn MuA

Trước hết, ta hãy xem qua phân tích ROPE phân phối hậu định của 6 khác biệt trung bình :

Nhắc lại, ROPE là một khoảng vô nghĩa thực dụng, thí dụ ta giả địng rằng nếu khác biệt trung bình nằm trong khoảng +/- 0.5 xem như vô nghĩa.

## Warning: package 'ggjoy' was built under R version 3.4.1

6

## Warning: package 'ggjoy' was built under R version 3.4.1

7

Kết quả: Ngoại trừ cặp BC, 5 cặp còn lại đều cho thấy một sự tương phản khá rõ, vì mật độ phân phối hậu định của khác biệt trung bình nằm trong ROPE thấp nhất là 6.5% (cặp BD) , cao nhất chỉ có 18.6% (cặp AB), sự khác biệt này theo hướng : Liều thuốc cao hơn tương ứng với giá trị TLB cao hơn (khác biệt càng âm), vì mật độ phân phối hậu định nằm dưới ROPE dao động từ 81% cho cặp AB đến 90% cho cặp AC, 93.4% cho cặp BD, 87.8% cho cặp CD và cao nhất là 99.9% cho cặp AD.

## Warning: package 'ggjoy' was built under R version 3.4.1

8

Kết quả này hoàn toàn tương đồng với kết quả của Bootstrap 1000 lần post-hoc test Tukey:

## Warning: package 'ggjoy' was built under R version 3.4.1

9

Như vậy chúng ta có thể an tâm rằng Bayesian post hoc test có thể thay thế cho Tukey post hoc test, nhưng còn về ý nghĩa thống kê thì sao ? Ta thử đối chiếu phân tích ROPE và p value của Tukey test cũng như của Bonferroni test:

mycol4=c("
# fcb614","
# f2600c","
# f20c23","
# 98039e")
dat0%>%ggplot(aes(x=TBL.M,y=dose,fill=dose,col=dose))+  
  geom_joy(alpha=0.5,size=1,scale=1)+  
  geom_rug(alpha=0.1)+  
  scale_x_continuous("Total bilirubin after treatment")+  
  theme_bw()+  
  geom_vline(xintercept=mean(dat0$TBL.M),linetype=2,col="blue",size=1)+  
  coord_flip()+  
  scale_fill_manual(values=mycol4)+ scale_color_manual(values=mycol4)

0

mycol4=c("
# fcb614","
# f2600c","
# f20c23","
# 98039e")
dat0%>%ggplot(aes(x=TBL.M,y=dose,fill=dose,col=dose))+  
  geom_joy(alpha=0.5,size=1,scale=1)+  
  geom_rug(alpha=0.1)+  
  scale_x_continuous("Total bilirubin after treatment")+  
  theme_bw()+  
  geom_vline(xintercept=mean(dat0$TBL.M),linetype=2,col="blue",size=1)+  
  coord_flip()+  
  scale_fill_manual(values=mycol4)+ scale_color_manual(values=mycol4)

1

d=psych::describeBy(dat0$TBL.M,dat0$dose)
t1=rbind(d$A[,c(2:13)],   
         d$B[,c(2:13)],   
         d$C[,c(2:13)],   
         d$D[,c(2:13)])%>%as.data.frame()%>%round(.,2)  
row.names(t1)=c("A","B","C","D")  
knitr::kable(t1)

4

d=psych::describeBy(dat0$TBL.M,dat0$dose)
t1=rbind(d$A[,c(2:13)],   
         d$B[,c(2:13)],   
         d$C[,c(2:13)],   
         d$D[,c(2:13)])%>%as.data.frame()%>%round(.,2)  
row.names(t1)=c("A","B","C","D")  
knitr::kable(t1)

5

Kết quả đối chiếu cho thấy: Vì Bonferroni là 1 test rất bảo thủ, nó phủ nhận toàn bộ ý nghĩa của khác biệt trung bình giữa các cặp AB,BC,AC,CD và BD, chỉ duy nhất cặp AD với tương phản mạnh nhất là nhận p_value < 0.05

Khi không hiệu chỉnh bằng Bonferroni, 1 test Tukey thông thường chỉ bác bỏ ý nghĩa của khác biệt giữa 2 cặp AB và BC, nhưng các cặp còn lại đều nhận p<0.05;

Chúng tôi không muốn áp đặt ý kiến riêng nào cả về kết quả này. Các bạn có toàn quyền Tin hoặc không Tin về khác biệt có ý nghĩa cho cặp AB ngay cả khi post-hoc test đã phủ nhận giả thuyết này, biết rằng có đến 81% mật độ phân phối hậu định của khác biệt A-B nằm dưới -0.5; tương tự, bạn có quyền tin hay không tin rằng TBL ở liều thuốc D so với C là khác nhau, dù p_value =0.23, biết rằng 87.8% mật độ phân phối của khác biệt < -0.5

Có một cách khác nếu bạn muốn phân định Trắng/Đen: đó là dùng Bayes Factor, với ngưỡng so sánh là zero (không có khác biệt), tỉ trọng chứng cứ ủng hộ cho giả thuyết H1 (khác biệt < 0):

mycol4=c("
# fcb614","
# f2600c","
# f20c23","
# 98039e")
dat0%>%ggplot(aes(x=TBL.M,y=dose,fill=dose,col=dose))+  
  geom_joy(alpha=0.5,size=1,scale=1)+  
  geom_rug(alpha=0.1)+  
  scale_x_continuous("Total bilirubin after treatment")+  
  theme_bw()+  
  geom_vline(xintercept=mean(dat0$TBL.M),linetype=2,col="blue",size=1)+  
  coord_flip()+  
  scale_fill_manual(values=mycol4)+ scale_color_manual(values=mycol4)

4

mycol4=c("
# fcb614","
# f2600c","
# f20c23","
# 98039e")
dat0%>%ggplot(aes(x=TBL.M,y=dose,fill=dose,col=dose))+  
  geom_joy(alpha=0.5,size=1,scale=1)+  
  geom_rug(alpha=0.1)+  
  scale_x_continuous("Total bilirubin after treatment")+  
  theme_bw()+  
  geom_vline(xintercept=mean(dat0$TBL.M),linetype=2,col="blue",size=1)+  
  coord_flip()+  
  scale_fill_manual(values=mycol4)+ scale_color_manual(values=mycol4)

5

Ta khảo sát BF cho 10 ngưỡng H0 từ 0 đến -3, tuy nhiên ta quan tâm đến ngưỡng 0, để đối chiếu với p_values:

Nếu ta lấy tiêu chí: BF > 30 là đủ cao cho một suy diễn ý nghĩa thống kê, và BF>100 là rất cao, cho phép xác tín về ý nghĩa này; thì kết qủa của 6 phân phối hậu định của ta cho thấy:

Tỉ trọng chứng cứ ủng hộ cho giả thuyết H1: khác biệt trung bình < 0 thấp hơn 30 ở 2 cặp AB và BC, nhưng cao hơn 30 cho 4 cặp còn lại, thậm chí > 100 cho 2 cặp AD và BD.

Như vậy, Suy diễn Bayes có tính linh hoạt rất cao so với post-hoc test theo frequentist; không còn khái niệm test bảo thủ hay quá nhạy,không có ngưỡng nguy cơ sai lầm alpha = 0.05, v.v. Chính người thầy thuốc có quyền tự chủ trong suy luận của mình khi đọc kết quả mà phân tích Bayes đưa ra.

mycol4=c("
# fcb614","
# f2600c","
# f20c23","
# 98039e")
dat0%>%ggplot(aes(x=TBL.M,y=dose,fill=dose,col=dose))+  
  geom_joy(alpha=0.5,size=1,scale=1)+  
  geom_rug(alpha=0.1)+  
  scale_x_continuous("Total bilirubin after treatment")+  
  theme_bw()+  
  geom_vline(xintercept=mean(dat0$TBL.M),linetype=2,col="blue",size=1)+  
  coord_flip()+  
  scale_fill_manual(values=mycol4)+ scale_color_manual(values=mycol4)

6

Diễn đạt văn bản khoa học

Phương pháp thống kê:

Hiệu ứng của liều thuốc tăng dần đối với giá trị nồng độ bilirubin được khảo sát bằng một mô hình ANOVA theo phương pháp Bayes. Mô hình này cho phép ước lượng phân phối hậu định của giá trị TBL trung bình cho mỗi phân nhóm. Dựa vào kết quả này, chúng tôi có thể kiểm tra ý nghĩa và kích thước của hiệu ứng bằng F test theo Fisher, cũng như suy diễn về sự tương phản giữa 4 phân nhóm dựa vào phân phối hậu định của khác biệt trung bình, sử dụng Bayes Factor và ROPE (theo J. Kruschke).

Kết quả:

Liều thuốc tăng dần đã gây ra một hiệu ứng yếu nhưng có ý nghĩa thống kê làm thay đổi giá trị TBL giữa 4 phân nhóm (F(3,602)=6.27 ; p_value = 0.0003 ; etasquared = 0.03). Cụ thể, nồng độ Bilirubin có khuynh hướng tăng dần từ liều thấp nhất đến liều cao nhất. Tuy nhiên, sự khác biệt chỉ thực sự có ý nghĩa khi so sánh liều cơ bản (A) với liều cao (C) và rất cao (D) ; cũng như có sự tương phản ý nghĩa giữa liều cao nhất (D) và 2 liều thấp hơn là B và C. Việc tăng liều từ A sang B và từ B sang C không gây ra sự thay đổi đáng kể về TBL.

Tổng kết

Bài thực hành đến đây là hết. Các bạn đã khám phá lại ANOVA theo một cách làm hoàn toàn khác, với nhiều ưu điểm hơn so với phương pháp truyền thống. ANOVA là một chủ đề rất thú vị, vì nó kết hợp hầu hết những yếu tố đặc trưng của môn Thống Kê học, bao gồm phân tích hồi quy, phân phối và xác suất, phản nghiệm null hypothesis testing và effect-size, tương quan và so sánh…

Như chúng tôi từng nói, việc thực hành Bayes giúp (bắt buộc) người học xây dựng một kiến thức về xác suất, thống kê vững chắc hơn nhiều so với cách học truyền thống. Thực hành Bayes cũng tạo cho các bạn một kỹ năng viết R codes phong phú hơn nhiều so với việc sử dụng package từ ngày này qua ngày khác ; vì khi phải làm thủ công mọi việc, bạn sẽ học được nhiều hơn về cú pháp. Những thông điệp quan trọng sau đây đã được truyền tải trong bài :

  1. Bản chất ANOVA chính là Generalized linear model
  2. Quy trình ANOVA 1 yếu tố có mục tiêu trả lời 2 câu hỏi về kích thước/ý nghĩa của hiệu ứng, và khác biệt giữa các phân nhóm
  3. Có thể thay thế hoàn toàn quy trình ANOVA cổ điển bằng phương pháp Hồi quy Bayes.
  4. Phương pháp suy diễn Bayes linh hoạt và có nhiều ưu thế hơn so với Null hypothesis testing và P_value

Nhóm BAV xin chân thành cảm ơn sự ủng hộ của các bạn. Chúng tôi sẽ gặp lại các bạn trong một bài khác.

