Độ tin cậy của Thỏa thuận Doha trong việc phân loại chấn thương háng

Giới thiệu

Vào năm 2014, một hệ thống phân loại lâm sàng đã được một nhóm chuyên gia của cuộc họp thỏa thuận Doha xây dựng. Hệ thống phân loại được công bố bởi Weir et al. (2015) và đã tìm được cách tiếp cận các bác sĩ lâm sàng làm việc với các vận động viên và chấn thương háng trên toàn thế giới. Vì hệ thống phân loại chấn thương háng thường được sử dụng nên phải đảm bảo độ tin cậy là đủ. Đó chính là mục đích nghiên cứu của bài báo này.

Phương pháp

Ủy ban thỏa thuận Doha đã định nghĩa 4 thực thể lâm sàng của đau háng: liên quan đến cơ khép, liên quan đến cơ chậu, liên quan đến cơ bẹn và liên quan đến cơ mu. Bên cạnh đó, các nguyên nhân liên quan đến hông gây đau háng và các nguyên nhân khác cũng đã được xác định.

hệ thống phân loại chấn thương háng — Từ: Heijboer và cộng sự, Scand J Med Sci Sports (2022)

Nghiên cứu này được thiết lập để kiểm tra độ tin cậy giữa các nhà đánh giá khi sử dụng hệ thống phân loại. Một bác sĩ phẫu thuật và một chuyên gia vật lý trị liệu đã độc lập khám cho các vận động viên nam trưởng thành bị đau háng, tình trạng này khởi phát dần dần và trở nên tồi tệ hơn khi tập thể dục hoặc khởi phát đột ngột và kéo dài hơn 6 tuần.

Bằng cách sử dụng đối thoại bán cấu trúc, các triệu chứng và tiền sử chấn thương của bệnh nhân đã được đặt câu hỏi. Những câu hỏi này dựa trên phân loại của thỏa thuận Doha nhưng các bác sĩ lâm sàng cũng được phép đặt những câu hỏi khác. Bên cạnh cuộc phỏng vấn, những người tham gia đã hoàn thành phiên bản tiếng Ả Rập của Điểm kết quả hông và bẹn Copenhagen (HAGOS). Phiếu câu hỏi này được thiết kế để đo lường các triệu chứng, cơn đau, chức năng trong cuộc sống hàng ngày, chức năng chơi thể thao và giải trí, sự tham gia vào các hoạt động thể chất và chất lượng cuộc sống liên quan đến hông và/hoặc bẹn. Điểm số dao động từ 0-100 và 0 biểu thị các triệu chứng cực độ ở hông và/hoặc bẹn.

Bên cạnh việc xác định các triệu chứng, chúng tôi tiến hành khám lâm sàng bao gồm các xét nghiệm kích thích đau (sờ nắn, kiểm tra sức đề kháng, kéo giãn), kiểm tra phạm vi chuyển động của hông và kiểm tra chèn ép hông (gập-khép-xoay trong (FADIR) và gập-dạng-xoay ngoài (FABER)). Sử dụng thông tin này và thông tin thu được từ cuộc phỏng vấn, cơn đau háng được phân loại theo thỏa thuận Doha. Có thể phân loại nhiều thực thể lâm sàng và điều này tùy thuộc vào quyết định của người kiểm tra. Các thực thể được xếp hạng trong trường hợp nhiều nguyên nhân gây đau háng đã được xác định.

Độ tin cậy giữa các giám khảo được nghiên cứu bằng cách sử dụng thống kê Kappa của Cohen. Giải thích về giá trị Kappa như sau:

gần như hoàn hảo (κ = 0,81–1,00),
đáng kể (κ = 0,61–0,80),
trung bình (κ = 0,41–0,60),
công bằng (κ = 0,21–0,40),
nhẹ (κ = 0–0,20),
và kém (κ < 0).

Kết quả

Bốn mươi tám nam giới bị đau háng đã được đưa vào nghiên cứu này. Mười tám người trong số họ có triệu chứng ở cả hai bên và do đó tổng cộng có 66 bên được kiểm tra. Đối với 4 thực thể lâm sàng của đau háng, độ tin cậy giữa các bác sĩ kiểm tra được xác định là trung bình đối với các trường hợp liên quan đến cơ khép, trung bình đối với các trường hợp liên quan đến cơ chậu và cơ bẹn, và nhẹ đối với các trường hợp đau háng liên quan đến cơ mu (Kappa theo diễn giải thang phân đôi).

Khi các thực thể lâm sàng, trong trường hợp xác định được nhiều nguyên nhân gây đau háng, được xếp hạng theo thứ tự giảm dần về tầm quan trọng lâm sàng được nhận thức, các giá trị Kappa cho thấy độ tin cậy đáng kể đối với các nguyên nhân liên quan đến cơ khép và cơ chậu, độ tin cậy trung bình đối với các nguyên nhân liên quan đến cơ bẹn và độ tin cậy thấp đối với các nguyên nhân liên quan đến cơ mu. Điều này có thể thấy được khi giải thích giá trị Kappa theo thang thứ tự.

Trong số 48 người tham gia, chỉ có 7 người được chẩn đoán mắc 1 bệnh lý lâm sàng. Ở đây, sự đồng thuận giữa các giám khảo bị mù là 100%. Tuy nhiên, phần lớn người tham gia được phân loại là có nhiều hơn 1 thực thể lâm sàng gây đau háng và sự đồng thuận giữa các giám định viên ở đây thấp hơn nhiều. Các giám khảo đã nhất trí về sự kết hợp phân loại giống nhau ở 29% và 23% các mặt.

Câu hỏi và suy nghĩ

Có vẻ như có nhiều sự khác biệt trong chẩn đoán chấn thương háng giữa 2 người giám định. Có thể là do sự ảnh hưởng từ nghề nghiệp khác nhau của cả hai (bác sĩ phẫu thuật so với bác sĩ vật lý trị liệu) không? Có vẻ như việc sử dụng hệ thống phân loại Doha cho chấn thương háng không mang lại sự thống nhất trong chẩn đoán giữa các giám định viên khác nhau. Lý do có thể được giải thích một phần bởi thực tế là có thể chẩn đoán nhiều thực thể lâm sàng gây ra chấn thương háng và thực tế là các nhà điều tra được yêu cầu xếp hạng các thực thể này theo nhận thức của họ về tầm quan trọng lâm sàng của chúng từ quan trọng nhất đến ít quan trọng nhất. Các thứ hạng này được phân tích như một biến thứ tự, nghĩa là thứ tự rất quan trọng. Khi phân loại lâm sàng được xếp hạng như vậy, các giám khảo đã đồng ý ở mức độ cao hơn.

Bảng 1 cho thấy việc kiểm tra của giám khảo thứ hai không được thực hiện vào cùng ngày đối với một phần ba số người tham gia. Ở 13% trường hợp, phẫu thuật được thực hiện sau 1-2 ngày, ở 15% sau 3-5 ngày và ở 6% sau 6-7 ngày. Điều này có thể có ưu và nhược điểm. Việc trì hoãn lần khám thứ hai có thể ảnh hưởng đến thỏa thuận giữa các giám định viên vì các triệu chứng có thể đã thay đổi. Mặt khác, việc tránh tái khám vào cùng ngày có thể hạn chế sự kích thích và làm trầm trọng thêm các triệu chứng trong lần khám thứ hai.

Bài viết có nêu nội dung sau: “Cả hai giám khảo mù đều đồng ý về cùng một phân loại/kết hợp phân loại ở 14/48 (29%) người tham gia và 15/66 (23%) bên”. Vì vậy, trong chưa đầy một phần ba số trường hợp, các giám định viên thống nhất về nguyên nhân gây chấn thương háng. Khi chỉ có 1 thực thể lâm sàng là đau háng được xác định, tỷ lệ đồng thuận là 100%, nhưng chỉ có 7 trong số 48 người tham gia có triệu chứng đơn phương và chỉ có một thực thể lâm sàng. Có vẻ như rõ ràng là trong những hình ảnh lâm sàng rõ ràng hơn, mức độ đồng thuận cao hơn nhiều so với trường hợp cho rằng chấn thương háng là kết quả của các vấn đề khác. Nhưng tôi tự hỏi làm sao một hệ thống phân loại rất chi tiết lại có thể có nhiều sự chồng chéo đến vậy. Người ta giải thích rằng người giám định có thể phân loại chấn thương ngay cả khi không có đủ tất cả các tiêu chí. Tôi thực sự nghe thấy bạn nghĩ về tính hữu ích của việc phân loại. Khi chỉ phân tích những chấn thương đáp ứng mọi tiêu chí của hệ thống phân loại, sự thống nhất giữa các giám định viên được cải thiện.

Vậy tại sao họ không tuân thủ theo các 'quy tắc' của hệ thống phân loại? Phân loại Doha để lại chỗ cho việc diễn giải như được các tác giả mô tả: “ Ví dụ, định nghĩa về đau háng liên quan đến cơ chậu thắt lưng (“đau cơ chậu thắt lưng và có nhiều khả năng xảy ra hơn nếu có đau khi chống lại sự gấp hông và/hoặc đau khi kéo giãn cơ gấp hông”) cho phép nhiều người kiểm tra có thể diễn giải theo ý mình. Nếu một vận động viên có các triệu chứng thứ phát nhẹ xuất hiện trong quá trình kiểm tra ấn cơ chậu thắt lưng, nhưng không xuất hiện trong quá trình kiểm tra kéo giãn hoặc kháng lực, một giám định viên có thể phân loại đây là đau háng liên quan đến cơ chậu thắt lưng trong khi giám định viên khác thì không. Điều này có thể dẫn đến nhiều cách giải thích khác nhau và sau đó là sự đồng thuận thấp hơn. Mặt khác, tôi khuyến khích bạn nên duy trì thái độ thận trọng và tránh đánh dấu vào các ô trong quá trình khám lâm sàng. Lý luận lâm sàng vẫn là phần quan trọng nhất trong quá trình chẩn đoán của bạn.

Bản dịch tiếng Ả Rập của điểm số HAGOS đã được sử dụng, tuy nhiên, phiên bản này vẫn cần được xác thực. Điều này không phải là vấn đề lớn vì điểm số chỉ được sử dụng để mô tả các đặc điểm cơ bản của người tham gia.

Nói chuyện với tôi một cách ngớ ngẩn

Điều quan trọng khi diễn giải những kết quả này là cả hai nhà nghiên cứu đều là thành viên của nhóm chuyên gia tham gia phát triển hệ thống phân loại Doha dành cho chấn thương háng được sử dụng trong nghiên cứu này. Họ có chuyên môn lâm sàng trong lĩnh vực này. Điều này có thể hạn chế khả năng khái quát hóa những kết quả này đối với những người đánh giá ít kinh nghiệm hơn. Nó cũng có thể gây ra sự thiên vị trong kết quả vì kết quả có thể được diễn đạt hơi khác nhau. Ví dụ, chúng ta thấy điều này khi tác giả nói rằng độ tin cậy dao động giữa mức độ nhẹ và mức độ đáng kể. Tuy nhiên, điều này đúng khi xem xét dữ liệu thứ tự (khi các thực thể lâm sàng khác nhau được xếp hạng theo tầm quan trọng lâm sàng của chúng). Tuy nhiên, khi chúng ta xem xét dữ liệu danh nghĩa (khi không có thứ hạng nào được đưa ra về tầm quan trọng của các nguyên nhân khác nhau gây đau háng ở 1 bệnh nhân), chúng ta thấy rằng độ tin cậy giữa những người đánh giá dao động từ nhẹ đến trung bình. Ở đây bạn có thể thấy một ví dụ về cách diễn đạt kết quả đôi khi hơi khác một chút. Các tác giả này đã tham gia vào quá trình phát triển phân loại này và rõ ràng muốn có kết quả tốt. Sẽ tốt hơn nếu nghiên cứu này được thực hiện bởi các nhà đánh giá độc lập không tham gia vào hội đồng chuyên gia hoặc các nhà nghiên cứu ít kinh nghiệm hơn. Nhưng tất nhiên, điều này vẫn có thể xảy ra trong tương lai.

Bảng 2 cho thấy tỷ lệ mắc các nguyên nhân liên quan đến vùng mu, hông và các nguyên nhân khác tương đối thấp. Tuy nhiên, giá trị kappa bị ảnh hưởng bởi mức độ phổ biến của tình trạng bệnh. Do đó, kết quả chẩn đoán đau háng liên quan đến xương mu, hông và các nguyên nhân khác có thể không chính xác. Chỉ số sai lệch được đo lường sẽ cho biết mức độ mà người đánh giá không đồng tình về tỷ lệ các trường hợp dương tính hoặc âm tính. Khi độ thiên vị cao, điều này có nghĩa là người đánh giá không đồng tình nhiều hơn. Điều này có thể dẫn đến việc ước tính quá cao giá trị kappa.

Những thông điệp mang về nhà

Nghiên cứu này đã kiểm tra độ tin cậy giữa các đánh giá viên của hệ thống phân loại Doha đối với chấn thương háng. Kết quả cho thấy sự thống nhất giữa hai người giám định là tốt khi chỉ xác định được 1 nguyên nhân gây đau háng. Trong trường hợp có nhiều thực thể lâm sàng, độ tin cậy sẽ tốt nhất khi được xếp hạng theo tầm quan trọng về mặt lâm sàng được nhận thấy của chấn thương đối với đau háng liên quan đến cơ khép, cơ bẹn và cơ chậu, nhưng không phải đối với đau háng liên quan đến xương mu, liên quan đến hông và các nguyên nhân khác gây đau háng. Có thể nói rằng ngay cả các chuyên gia cũng không phải lúc nào cũng đồng ý, ngay cả khi họ sử dụng chặt chẽ các tiêu chí lâm sàng như đã đề xuất trong Hiệp định Doha. Vì vậy, tôi khuyên bạn nên làm quen với các tiêu chí trước khi sử dụng chúng. Tốt hơn hết là bạn nên ghi chép rõ ràng những phát hiện của mình để có thể so sánh quyết định của mình với đồng nghiệp khác và để có thể biện minh cho chẩn đoán của mình tốt hơn.