エレン・ヴァンディック
リサーチ・マネージャー
2014年、ドーハ協定会議の専門家パネルによって臨床分類システムが開発された。 この分類システムは ウィアーら (2015)で紹介され、世界中のアスリートと鼠径部の怪我に携わる臨床医の手に届くようになった。 鼠径部損傷の分類システムは頻繁に使用されるため、信頼性が十分であることを確認する必要がある。 それが本稿の研究目的である。
ドーハ協定委員会は、鼡径部痛の4つの臨床領域(内転筋関連、腸腰筋関連、鼠径部関連、恥骨関連)を定義した。 これらに次いで、股関節に関連した鼠径部痛の原因やその他の原因も定義された。
この研究は、分類システムを使用する際の評価者間信頼性を調べるために設定された。 外科医と理学療法士が、徐々に発症し運動により悪化する鼠径部痛、または突然発症し6週間以上持続する鼠径部痛を有する成人男性アスリートを別々に診察した。
半構造化された対話を用いて、患者の症状と負傷歴が質問された。 これらはドーハ協定の分類に基づくものだが、臨床医はそれ以外の質問も許された。 インタビューに続いて、アラビア語版のCopenhagen Hip and Groin Outcome Score(HAGOS)が参加者に記入された。 この質問票は、症状、疼痛、日常生活機能、スポーツ・レクリエーション機能、身体活動への参加、股関節および/または鼠径部に関連したQOLを測定するために作成された。 スコアは0~100の範囲で、0は極度の股関節および/または鼠径部の症状を表す。
臨床検査では、症状の説明に続いて、疼痛誘発テスト(触診、抵抗テスト、ストレッチ)、股関節可動域テスト、股関節インピンジメントテスト(屈曲-内転-内旋(FADIR)、屈曲-外転-外旋(FABER))が行われた。 この情報とインタビューで得た情報をもとに、ドーハ協定を用いて鼠径部の痛みを分類した。 複数の臨床実体を分類することは可能であり、これは審査官の裁量に任された。 鼡径部痛の原因が複数特定された場合は、その原因をランク付けした。
検査者間の信頼性はCohenのKappa統計量を用いて調べた。 カッパ値の解釈は以下の通りである:
この研究には、鼠径部痛を有する男性48人が参加した。 そのうち18人は両側の症状があったため、合計66の両側を検査した。 鼡径部痛の4つの臨床症状について、検査者間の信頼性は、内転筋関連ではまずまず、腸腰筋関連と鼠径部関連では中程度、恥骨関連鼡径部痛ではわずかであることがわかった(二分尺解釈によるカッパ)。
鼡径部痛の原因が複数同定された場合、その臨床的実体を臨床的に重要であると思われる順にランク付けしたところ、カッパ値は、内転筋関連と腸腰筋関連ではかなりの信頼性を示し、鼠径部関連では中程度の信頼性を示し、恥骨関連ではわずかな信頼性を示した。 このことは、順序尺度のカッパ値の解釈に見ることができる。
参加者48人のうち7人では、診断された臨床症状は1つだけであった。 盲検者間の一致率は100%であった。 しかし、参加者の大半は、鼡径部痛の原因となる臨床症状が1つ以上あると分類されており、検査者間の一致度はここでかなり低くなった。 審査官は29%と23%のサイドで同じ分類の組み合わせに同意した。
鼠径部損傷の診断には、2人の検査者によって大きな差があるようだ。 両者の職業の違い(外科医と理学療法士)が影響しているのだろうか? 鼡径部損傷にドーハ分類法を用いても、異なる検査者間で診断が統一されることはないようだ。 その理由の一部は、鼠径部損傷の原因となった複数の臨床的病態を診断することが可能であったこと、また、これらの病態の臨床的重要性を最も重要なものから最も重要でないものまでランク付けするよう調査者に求めたことによると考えられる。 これらの順位は順序変数として分析された。 臨床分類がこのようにランク付けされた場合、試験官たちの意見はより一致した。
表1から、3分の1の被験者で、2人目の検査者による検査が同じ日に行われなかったことがわかる。 13%が1-2日後、15%が3-5日後、6%が6-7日後に行われた。 これには賛否両論あるだろう。 2回目の検査が遅れたことで、症状が変化した可能性があり、検査者間の合意に影響を与えた可能性がある。 一方、同日の再検査を避けたことで、2回目の検査での誘発や症状の悪化が抑えられた可能性もある。
記事には次のように書かれている: 「14/48人(29%)の参加者と15/66人(23%)の両側の盲検者が、同じ分類/分類の組み合わせに同意した」。 このように、鼠径部損傷の原因について検査官たちが合意したケースは3分の1以下であった。 鼡径部痛の臨床的病態が1つだけ定義された場合、一致率は100%であったが、片側の症状で臨床的病態が1つだけであったのは48人中7人だけであった。 より明確な臨床写真では、鼠径部の損傷が異なる問題から生じたと考えられる場合よりも、一致度がはるかに高いことは明らかである。 しかし、非常に詳細な分類システムなのに、これほど重複が多いというのはどういうことなのだろう。 すべての基準が満たさなくても、検査官は傷害を分類することができると説明されている。 分類の有用性については、確かにそう考えているようだ。 分類システムのすべての基準を満たした傷害のみを分析した場合、評価者間一致率は向上した。
では、なぜ彼らは分類システムの「ルール」にこだわらなかったのだろうか? ドーハの分類は、著者が述べているように解釈の余地を残している: 「例えば、腸腰筋に関連した鼠径部痛の定義(「腸腰筋の圧痛があり、股関節の屈曲抵抗時痛および/または股関節屈筋の伸張時痛があれば可能性が高い」)は、検査者個々の解釈をかなり許容するものである。 ある選手が腸腰筋の触診テストでは軽度の二次的症状が再現されるが、ストレッチテストやレジスタンステストでは再現されない場合、ある検査者は腸腰筋に関連した鼡径部痛と分類するが、他の検査者は分類しないことがある。 このことが、解釈の違い、ひいては合意の低さにつながっているのかもしれない。 その一方で、臨床検査では批判的な姿勢を崩さず、チェックボックスにチェックを入れないことを勧める。 臨床的推論が診断ワークアップの最も重要な部分であることに変わりはない。
HAGOSスコアのアラビア語訳が使用されたが、このバージョンはまだ検証が必要である。 この点数は、参加者のベースライン特性を説明するために用いられただけなので、さほど問題にはならない。
これらの結果を解釈する上で重要なのは、両研究者が、本研究で使用した鼠径部損傷のドーハ分類システムの開発に携わった専門家パネルの一員であったことである。 彼らはこの分野で臨床的な専門知識を持っていた。 このことは、経験の浅い評価者に対するこれらの結果の一般化可能性を制限するかもしれない。 また、結果の表現が微妙に異なるため、結果に偏りが生じる可能性もある。 例えば、信頼性はわずかなものと実質的なものの間で変動する、と著者が述べていることからもわかる。 しかし、これは順序データ(異なる臨床的実体を臨床的重要性に応じてランク付けした場合)を見た場合に当てはまる。 しかし、名目的なデータ(1人の患者における鼡径部痛のさまざまな原因の重要性について順位付けをしなかった場合)を見ると、査読者間の信頼性はわずかから中程度まで変動していることがわかる。 ここでは、結果が微妙に異なる表現になっている例を見ることができる。 これらの著者はこの分類の開発に携わっており、明らかに良い結果を望んでいる。 この研究は、専門家パネルに関与していない独立したレビュアーや、経験の浅い研究者によって実施された方が良かっただろう。 しかしもちろん、これは将来も起こりうることだ。
表2から、恥骨関連、股関節関連、その他の原因の有病率は比較的低いことがわかる。 しかし、カッパ値は病態の有病率に影響される。 したがって、恥骨関連、股関節関連、その他の鼡径部痛の原因による転帰は不正確である可能性がある。 測定されたバイアス指数は、肯定的または否定的なケースの割合について、評価者がどの程度同意しないかを示すものである。 バイアスが高いということは、評価者の意見の相違が大きいことを意味する。 その結果、κ値が過大評価される可能性がある。
この研究では、鼠径部損傷に対するドーハ分類システムの評価者間信頼性を検討した。 その結果、鼡径部痛の原因が1つしか特定されなかった場合、両検査者間の一致は良好であった。 複数の臨床症状が存在する場合、内転筋関連、鼠径部関連、腸腰筋関連の鼡径部痛については、傷害の臨床的重要性の認識に従ってランク付けした場合の信頼性が最も高かったが、恥骨関連、股関節関連、その他の原因の鼡径部痛についてはそうではなかった。 ドーハ協定で提案された臨床基準を厳密に用いても、専門家でさえ必ずしも意見が一致しなかったと言える。 だから、使う前に基準をよく理解することをお勧めする。 また、自分の判断を他の同僚と比較しやすくし、自分の診断を正当化しやすくするためにも、所見を明確に文書化したほうがよい。
Sim J, Wright CC.信頼性研究におけるκ統計量:使用、解釈、サンプルサイズの必要性。 Phys Ther. 2005 Mar;85(3):257-68. PMIDだ: 15733050.