Mô tả biến số trong nghiên cứu khoa học
Các em sinh viên Y6 thân mến, bài viết sau đây nhằm trợ giúp cho những bạn nào đang viết và chuẩn bị trình đề cương nghiên cứu cho khóa luận tốt nghiệp.
Chủ đề được bàn lần này là mục “Xác định biến số” trong phần Phương pháp nghiên cứu. Đây là phần có ý nghĩa quan trọng, thậm chí còn hơn cả kế hoạch phân tích, bởi vì thông qua việc mô tả này, các em sẽ định hình bài toán và những nhân tố trong thí nghiệm.
Trong tài liệu hướng dẫn của trường, chỉ giải thích vắn tắt : Xác định các biến số độc lập và phụ thuộc, tuy nhiên Nhi thấy đây chỉ là định nghĩa hẹp: vì độc lập hay phụ thuộc là 2 thuật ngữ cổ điển trong thống kê và chỉ áp dụng cho một mô hình (thậm chí, là một mô hình tương đối đơn giản), mà thống kê chỉ là phương tiện, không phải là mục tiêu luận văn sẽ nhắm tới.
Khi thực hiện một đề tài, đối tượng của chúng ta là một bệnh lý, hay vấn đề lâm sàng. Mỗi bệnh lý lại là một không gian rộng lớn, nên thí nghiệm chỉ tập trung vào một giới hạn nào đó.
Trong không gian nhỏ hơn này sẽ gồm một số nhân tố, đại lượng quan trọng cần khảo sát; sau đó tùy theo mục tiêu muốn nhắm tới, vai trò của mỗi biến trong mô hình thống kê có thể thay đổi, tuy nhiên bản chất sinh lý/bệnh học của chúng là không đổi.
Do đó, Nhi cho rằng cần phân biệt 2 không gian, Lâm sàng và Thống kê.
Trong không gian lâm sàng, ta cần xác định :
Bản chất sinh học, vật lý, sinh lý của đại lượng là gì ? (thí dụ: nồng độ của một nội tiết tố trong máu, kích thước trong hình ảnh học, số lượng tế bào, tần suất phát sinh một biến cố, sự hiện diện của một triệu chứng); kỹ thuật đo lường để đo, đếm đại lượng này (thí dụ: xét nghiệm định lượng đường huyết, hô hấp ký, siêu âm, thang điểm, bảng câu hỏi, phép đếm tần suất, thăm khám thực thể…);
Lưu ý: một số đại lượng mang ý nghĩa lý thuyết, toán học, không phải là kết quả của phép đo, nhưng được ước tính ra từ công thức toán/vật lý, thí dụ tỉ lệ giữa 2 đại lượng, sai biệt giữa kết quả 2 thiết bị đo, điểm số lâm sàng, tần suất phát sinh 1 biến cố trong 1 giờ, 1 tham số trong mô hình vật lý, 1 hằng số sinh học, thông tin có thể được ước lượng bởi mô hình thống kê, thí dụ gía trị tham chiếu của dung tích phổi, khuynh hướng tăng/giảm theo thời gian. Có những biến nhị phân là kết quả sinh ra từ 1 ngưỡng cắt của 1 biến định lượng.
Khi yếu tố là kết quả của một bảng câu hỏi, quy luật/lưu đồ chẩn đoán , hệ thống xếp loại độ nặng theo khuyến cáo quốc tế, cần nêu tên của khuyến cáo này.
Ta cũng có thể phân loại các yếu tố này theo ý nghĩa thực dụng trên lâm sàng với những thuật ngữ : đặc điểm nhân trắc học, yếu tố dịch tễ, yếu tố nguy cơ, triệu chứng, yếu tố tiên lượng, đặc tính lâm sàng, yếu tố dự báo; can thiệp; độ nặng; kiểu hình; chẩn đoán; kết quả điều trị; …
Trong không gian Thống kê, lúc này mỗi đại lượng lâm sàng được biểu thị, mô tả bằng 1 biến số đại diện. Ta cần mô tả các thông tin về biến số đó như: Loại biến và thang đo (Định lượng liên tục/rời rạc, định tính nhị phân/đa giá trị, thứ hạng…).
Về thang đo, có ý nghĩa quan trọng để lựa chọn phân phối phù hợp cho biến số, thí dụ biến số có giá trị dương (luôn > 0) gợi ý phân bố Log Normal hay Gamma, những tỉ lệ và xác suất chỉ có thể nhận giá trị từ 0-1, số đếm rời rạc hay số thứ tự gợi ý về phân phối Poisson – thí dụ số lần nhập viện, số cơn kịch phát (biến cố lâm sàng, outcome của điều trị)
Đôi khi, phương pháp đo sẽ quyết định tính chất liên tục hay rời rạc của thang đo và đơn vị; thí dụ Thời gian có thể là biến liên tục, số đếm, hay định tính tùy theo độ chính xác của phép đo.
Tiếp theo, ta lại xét về vai trò của biến trong mô hình thống kê: nó sẽ được sử dụng như biến kết quả (phụ thuộc) ? hay hiệp biến ? yếu tố phân nhóm ? điều kiện ? …
Như vậy, để dễ theo dõi, nên tổ chức các biến theo từng nhóm, cụm khi lập bảng mô tả biến:
Trong trường hợp tên đề tài và mục tiêu có hàm ý một mô hình thống kê duy nhất, thí dụ: xây dựng mô hình tiên lượng tử vong, tiên lượng kết quả điều trị, mô hình chẩn đoán, khảo sát hiệu quả can thiệp…; ta có thể tiếp cận bằng không gian thống kê, khi gom những biến của dữ liệu đầu vào thành 1 nhóm; thí dụ yếu tố tiên lượng, yếu tố chẩn đoán, và chỉ ra được cụ thể biến kết quả.
Trong trường hợp mục tiêu chung chung, không rõ ràng, có hàm ý mô tả, thí dụ: khảo sát đặc tính lâm sàng, khảo sát mối liên hệ giữa các đại lượng, … nên tiếp cận qua không gian lâm sàng, lúc này ta nên phân chia các đại lượng, yếu tố theo bản chất của nó trong thế giới thực, thí dụ nhóm triệu chứng, nhóm xét nghiệm, nhóm biến số nhân trắc, nhóm phân loại lâm sàng (độ nặng, chẩn đoán, thể bệnh…).
Dù phân chia nhóm như thế nào, thì cho mỗi biến ta cần nêu định nghĩa của đại lượng, kỹ thuật đo, thang đo, đơn vị, và vai trò của nó trong mô hình thống kê (hiệp biến số, yếu tố phân nhóm, can thiệp, kết cục, kết quả); sau đó là loại biến (định tính/định lượng…).
Chú ý những biến có ý nghĩa trong không gian thống kê, nhưng dễ bị bỏ sót trong bảng mô tả, thí dụ: Thời gian theo dõi, thời điểm khảo sát (trong bài toán longitudinal, survival), mã số định danh của bệnh nhân (grouping effect trong mô hình mixed model), xác suất thành công/thất bại, hiện diện bệnh lý (mặc dù outcome của mô hình logistic hay CoxPH là 1 biến nhị phân, nhưng thực chất những mô hình này ước lượng xác suất/nguy cơ), thời gian an toàn đến khi phát sinh biến cố tử vong/biến chứng (mô hình Survival).
Cho những biến định tính, đừng quên ghi chú về quy tắc mã hóa khi nhập liệu, thí dụ nhãn giá trị 0 = Âm tính/Không; 1 = Có.
Một bảng mô tả biến số tốt có thể chuyển thành khuôn mẫu cho bảng tính trong Excel dùng cho việc nhập liệu.
Nhi chúc các em thực hiện thành công một bảng mô tả biến số đầy đủ, hợp lý và chính xác, tạo ấn tượng cho Thầy Cô về khả năng phân tích vấn đề, thiết kế thí nghiệm của mình.
Nguồn: Lê Ngọc Khả Nhi
# Mô tả biến số