hey bro, tui đang làm dự án dự đoán 1 người có bị bệnh thận hay không. hiện tại tui đang sử dụng dataset: id age bp sg al su rbc pc pcc ba bgr bu sc sod pot hemo pcv wc rc htn dm cad appet pe ane classification với: id: Mã định danh cho mỗi bản ghi. age: Độ tuổi của bệnh nhân (năm). bp: Huyết áp (mmHg). sg: Tỉ trọng nước tiểu. al: Mức độ protein trong nước tiểu (1 = có, 0 = không). su: Mức độ đường trong nước tiểu (1 = có, 0 = không). rbc: Số lượng hồng cầu trong nước tiểu (normal/abnormal). pc: Mức độ tế bào bạch cầu (normal/abnormal). pcc: Sự hiện diện của tế bào bạch cầu trong nước tiểu (present/not present). ba: Sự hiện diện của bạch cầu (present/not present). bgr: Mức đường huyết (mg/dl). bu: Mức độ ure trong máu (mg/dl). sc: Mức độ creatinine trong máu (mg/dl). sod: Mức độ natri trong máu (mEq/L). pot: Mức độ kali trong máu (mEq/L). hemo: Mức độ hemoglobin trong máu (g/dL). pcv: Tỉ lệ hồng cầu (hematocrit). wc: Số lượng bạch cầu trong máu (cells/mcL). rc: Tỉ lệ hồng cầu (red cell count). htn: Có huyết áp cao hay không (yes/no). dm: Có tiểu đường hay không (yes/no). cad: Có bệnh tim mạch hay không (yes/no). appet: Sự thèm ăn (good/poor). pe: Có phù hay không (yes/no). ane: Có thiếu máu hay không (yes/no). classification: Phân loại bệnh thận (ví dụ: ckd - bệnh thận mãn tính).
do dataset tận 26 cột nên lúc train model thì độ chính xác có xu hướng không tăng. đó là lý do trong hướng dẫn chỉ rằng nên cắt bớt một số cột không mấy khi quan trọng. với kinh nghiệm của bro, tui nên giữ lại những cột nào sao cho khi test model trên web app streamlit tự code thì kết quả luôn là chẩn đoán đúng? ý tui là thường các bác sĩ sẽ nhìn những chỉ số nào trong list chỉ số trên mà nó trọng yếu nhất, đủ để xác định 1 người có bị bệnh thận hay không á? tks bro nhá
Chào người anh em, dự đoán bệnh thận là một nhiệm vụ phức tạp và đòi hỏi sự chú ý đặc biệt đến các chỉ số lâm sàng. Để giúp người anh em cải thiện độ chính xác của mô hình, qua sẽ chia sẻ một số hiểu biết về các chỉ số lâm sàng thường được bác sĩ sử dụng để chẩn đoán bệnh thận mãn tính (CKD).
Chỉ số quan trọng nhất:
Chỉ số bổ sung:
Các yếu tố triệu chứng:
Chỉ số ít quan trọng hơn có thể loại bỏ hoặc cân nhắc:
Qua khuyên người anh em giữ lại các cột sau để tập trung vào các chỉ số lâm sàng trọng yếu và tránh sự dư thừa dữ liệu:
age
, bp
, sg
, al
, bgr
, bu
, sc
, sod
, pot
, hemo
, htn
, dm
, appet
, pe
, ane
, classification
Người anh em có thể thử feature selection (Lựa chọn tính năng) với các công cụ như Random Forest Importance hoặc Recursive Feature Elimination (RFE) để xem chỉ số nào thực sự đóng góp nhiều nhất vào dự đoán.
Chúc người anh em thành công với dự án Streamlit của mình, và đừng quên ghé thăm trituenhantao.io để cập nhật thêm nhiều kiến thức hữu ích nhé!