Hai sai sót phổ biến trong nghiên cứu y khoa

gs-nguyen-van-tuan-nghien-cuu-y-khoa
GS Nguyễn Văn Tuấn

Hai sai sót phổ biến trong nghiên cứu y khoa

Có dịp quan sát và tham gia nghiên cứu y khoa ở Việt Nam tôi phát hiện ra một số sai sót liên quan đến cách thiết kế, phân tích và diễn giải kết quả. Trong loạt bài giảng sắp tới tôi sẽ giải thích những sai sót đó và hướng dẫn cách giải quyết vấn đề. Còn ở đây tôi giới thiệu 2 bài giảng bàn về vấn đề cắt biến số liên tục thành nhiều nhóm và vấn đề phân tích trước và sau can thiệp.

Sai sót 1: Phân tích trước – sau (before-after study)

Trong nhiều nghiên cứu lâm sàng, nhà nghiên cứu có thể có 2 nhóm bệnh nhân (ví dụ như cao huyết áp), một nhóm chứng và một nhóm được can thiệp bằng thuốc. Mục tiêu là đánh giá xem thuốc có hiệu quả giảm huyết áp hay không. Mỗi bệnh nhân được đo 2 lần, trước và sau can thiệp. Biến số đo lường có thể là (ví dụ) huyết áp. Nếu thuốc có hiệu quả, nhà nghiên cứu kì vọng rằng nhóm can thiệp sẽ giảm huyết áp, còn nhóm chứng thì không.

Phương pháp phân tích rất phổ biến là nhà nghiên cứu tính phần trăm thay đổi huyết áp cho mỗi bệnh nhân. Gọi huyết áp trước khi can thiệp là X0, và sau can thiệp là X1, thì phương pháp này tính pct = 100*(X1 – X0) / X0. Sau đó, nhà nghiên cứu sẽ dùng t-test để so sánh pct giữa nhóm can thiệp và nhóm chứng. Nếu t-test cho ra kết quả P < 0.05, nhà nghiên cứu kết luận rằng thuốc có hiệu quả, còn nếu P > 0.05 thì … bac luck (làm nghiên cứu tiếp).

Nhưng phương pháp trên là sai. Để hiểu tại sao sai, chúng ta có thể lấy một ví dụ đơn giản: một bệnh nhân có kết quả đo huyết áp trước và sau can thiệp là 100 và 110 mmHg. Dùng phương pháp trên, nhà nghiên cứu sẽ kết luận rằng huyết áp của bệnh nhân tăng 10% (tức lấy 110 trừ cho 100, rồi chia kết quả cho 100). Nhưng nếu nhà nghiên cứu muốn biết so với sau can thiệp, huyết áp trước can thiệp giảm bao nhiêu, thì kết quả là giảm 9% (lấy 100 trừ cho 110, rồi lấy kết quả chia cho 110). Tại sao so với trước điều trị thì tăng 10%, còn so với sau điều trị thì giảm 9% (đáng lí ra là 10% chớ). Lí do là vì cách tính đó (pct) thiếu tính cân đối, hay tiếng Anh gọi là ‘asymmetry’. Con số phần trăm thay đổi so với baseline thiếu tính cân đối, và vì thế nó thể hiện một sai sót trong phân tích dữ liệu.

Đọc thêm  Những sai sót phổ biến về tiếng Anh trong bài báo khoa học

Cách tính đúng hơn cho bệnh nhân trên là: (a) tính số trung bình cho bệnh nhân, tức (100 + 110)/2 = 105 mmHg; (b) tính phần trăm thay đổi delta = (110 – 100) / 105 = 9.5%. Nhà nghiên cứu nên dùng delta để làm t-test thì chính xác hơn. Có nhiều lí do tại sao dùng delta chính xác hơn là pct, kể cả lí do về sai số đo lường và hồi qui về số trung bình mà tôi nghĩ không cần giải thích ở đây.

Tuy nhiên, ngay cả phương pháp delta mô tả trên cũng không phải là tốt nhứt. Phương pháp tốt nhứt là ancova, mà tôi sẽ giải thích trong bài giảng hôm nay:

Sai sót 2: Chia nhóm tuỳ tiện.

Trong phần lớn các bài báo khoa học, các tác giả có xu hướng chia một biến số liên tục (như độ tuổi, lymphocyte, thời gian, v.v.) thành nhiều nhóm một cách tùy tiện.  Chẳng hạn như có tác giả chi độ tuổi thành từng nhóm theo 10-tuổi như 40-49, 50-59, và 60-69, nhưng một nghiên cứu khác có tác giả chia thành nhóm tuổi lẻ như 35-45, 46-55, và trên 55. Có khi ngay trong một nghiên cứu, tác giả lại tự mình mâu thuẫn: lúc đầu thì chia thành 4 nhóm độ tuổi (1 đến 12 tháng, 1 – 5 tuổi, 6-10, 10-15) nhưng ngay sau đó lại chia thành 3 nhóm (1 – 12 tháng, 13 tháng đến 5 tuổi, và 6 đến 15 tuổi)!  Ngay cả các biến như huyết áp cũng bị cắt thành từng nhóm như thế, và cách chia cắt đó hoàn toàn không có một lí do lâm sàng nào.

Đọc thêm  Một chút lịch sử 'randomization'

Đứng trên phương diện lí thuyết đo lường, việc biến đổi một một biến số liên tục thành một biến số không liên tục (như cách chia cắt trên) là một sai sót, bởi vì việc biến đổi đó làm cho thông tin bị mất (information loss) của biến số.  Chẳng hạn như một phân tích tiên đoán nguy cơ mắc bệnh dựa vào hai biến liên tục như độ tuổi và trọng lượng của bệnh nhân, nếu phân tích dựa trên biến liên tục thì số tham số cần thiết lúc nào cũng ít hơn so với mô hình dùng biến phân nhóm.

Ngoài ra, đứng trên phương diện logic và thực tế lâm sàng, không có lí do gì để chia hai bệnh nhân với trọng lượng 55 kg và 56 kg thành hai nhóm khác nhau cả.  Chính vì thế mà các tập san y khoa khuyến cáo nên tránh cách phân chia một biến số liên tục một cách tùy tiện.

Tỉ số odds

Khi được hỏi tại sao chia biến liên tục thành nhiều nhóm, thì có tác giả giải thích là phải làm như vậy để tính tỉ số odds (OR) vì nếu để biến liên tục thì không tính được OR. Nhưng đây là một hiểu lầm. Trong thực tế, nhà nghiên cứu vẫn có thể tính OR cho biến liên tục, và đơn vị là thay vì tính trên mỗi kilogram cân nặng, người ta có thể tính trên mỗi 5 kg hay 10 kg. Cái nguy hiểm của chia biến số thành nhiều nhóm để tính OR là kết quả có thể sai. Thật vậy, đã có nhiều trường hợp khi phân tích trên biến liên tục thì kết quả có P < 0.05, nhưng khi phân tích theo nhóm thì P > 0.05. Lí do là vì khi cắt biến số thành nhiều nhóm thì số cỡ mẫu cũng giảm đi và do đó độ nhậy của kết quả cũng suy giảm theo.

Bài giảng trên youtube sẽ bàn về vấn đề này và giúp các bạn phân tích đúng:

3. Bài giảng về loãng xương

Ngoài ra, tôi cũng upload một bài giảng tổng quan về các loại thuốc đang được dùng cho điều trị loãng xương:

Đọc thêm  9 lổ hổng về kỹ năng nghiên cứu khoa học trong ngành Y

Đây là bài đầy đủ nhứt và cập nhựt mới nhứt tính đến tháng 2/2021.

****

Sai sót trong các nghiên cứu lâm sàng và dịch tễ học thì rất nhiều. Có thể nói rằng không có nghiên cứu nào là không có sai sót. Ngay cả những nghiên cứu đã được công bố cũng có nhiều sai sót. Tuy nhiên, những sai sót này chỉ ảnh hưởng đến phẩm chất khoa học của nghiên cứu, chớ ít khi nào ảnh hưởng đến kết luận của nghiên cứu.

Những sai sót này thường liên quan đến vấn đề thiết kế và phân tích. Cách chọn mẫu nghiên cứu không thích hợp hay thiếu hệ thống, tính toán sai về cỡ mẫu, phương pháp đo lường đơn sơ, và nhứt là sai sót về phân tích dữ liệu. Những sai sót về phân tích dữ liệu trong các nghiên cứu ở Việt Nam không phải là mới, vì đã được đề cập nhiều lần trong các nghiên cứu ở nước ngoài. Cách đây hơn 10 năm tôi có nêu ra những sai sót về thiết kế trên Tạp chí Thời sự Y học, nhưng cho đến nay tình hình vẫn còn nhiều sai sót.

Trong thế giới khoa học ngày nay, mức độ cạnh tranh để có công bố trên những tập san ‘chánh thống’ rất cao. Những tập san này thường đòi hỏi phẩm chất khoa học phải cao, nhứt là phương pháp phân tích phải đúng và cách trình bày phải chỉnh chu, chuyên nghiệp. Hi vọng rằng loạt bài giảng này sẽ giúp cho các đồng nghiệp nâng cao cơ may được công bố trên các tập san hàng đầu trên thế giới.

Nguồn: Hai sai sót phổ biến trong nghiên cứu y khoa | Nguyễn Văn Tuấn (nguyenvantuan.info)

-VNEconomics tổng hợp các bài viết của GS Nguyễn Văn Tuấn

# nghiên cứu y khoa

VNEconomics – Chúng tôi mong muốn đem tri thức khoa họccông nghệkinh tế đến với nhiều người Việt Nam. Đặc biệt là kiến thức về Blockchain & tiền mã hóa