多哈协议》对腹股沟损伤分类的可靠性

导言

2014 年，多哈协议会议专家小组制定了临床分类系统。该分类系统由 Weir et al. (2015），并被世界各地从事运动员和腹股沟损伤工作的临床医生所采用。由于腹股沟损伤的分类系统经常被使用，因此必须确定其可靠性是否足够。这就是本文的研究目的。

方法

多哈协议小组定义了腹股沟疼痛的 4 个临床实体：内收肌相关、髂腰肌相关、腹股沟相关和耻骨相关。除此之外，还定义了腹股沟疼痛的髋关节相关原因和其他原因。

腹股沟损伤分类系统 — 来自 Heijboer 等人，《Scand J Med Sci Sports》（2022 年）

这项研究的目的是检查使用分类系统的评分者之间的可靠性。一名外科医生和一名理疗师分别对腹股沟疼痛的成年男性运动员进行了检查，这些运动员的腹股沟疼痛是逐渐出现的，并在运动时加重，或者是突然出现的，并持续 6 周以上。

通过半结构式对话，对患者的症状和受伤史进行了询问。这些问题以多哈协议分类为基础，但也允许临床医生提出其他问题。除访谈外，参与者还填写了阿拉伯语版的哥本哈根髋关节和腹股沟结果评分（HAGOS）。该问卷旨在测量症状、疼痛、日常生活功能、运动和娱乐功能、体育活动参与度以及与髋关节和/或腹股沟相关的生活质量。评分范围为 0-100 分，0 分代表髋部和/或腹股沟症状极其严重。

在了解症状后，还进行了临床检查，包括疼痛激发试验（触诊、阻力测试、拉伸）、髋关节活动范围试验和髋关节撞击试验（屈曲-外展-内旋（FADIR）和屈曲-外展-外旋（FABER））。根据这些信息和通过访谈获得的信息，采用多哈协议对腹股沟疼痛进行了分类。可以对多个临床实体进行分类，这由检查员自行决定。如果发现腹股沟疼痛有多种原因，则对实体进行排序。

考官间的可靠性采用科恩卡帕（Cohen's Kappa）统计法进行研究。对 Kappa 值的解释如下：

几乎完美（κ = 0.81-1.00）、
κ=0.61-0.80）、
中等（κ = 0.41-0.60）、
一般（κ = 0.21-0.40）、
轻微（κ = 0-0.20）、
和差（κ < 0）。

成果

本研究共纳入了 48 名腹股沟疼痛的男性患者。其中 18 人有双侧症状，因此共检查了 66 个侧面。对于腹股沟疼痛的 4 个临床实体，发现检查者之间的可靠性为：内收肌相关的腹股沟疼痛为一般，髂腰肌相关和腹股沟相关的腹股沟疼痛为中等，耻骨相关的腹股沟疼痛为轻微（根据二分量表解释的 Kappa）。

在确定腹股沟疼痛的多种原因时，将临床实体按临床重要性从大到小排列，Kappa 值显示，与内收肌和髂腰肌相关的临床实体具有很高的可信度，与腹股沟相关的临床实体具有中等可信度，与耻骨相关的临床实体具有轻微可信度。这一点可以从序数量表的 Kappa 值的解释中看出来。

在 48 名参与者中，有 7 人只诊断出 1 个临床实体。在这里，盲法检查员之间的一致性达到了 100%。然而，大多数参与者都被归类为有一种以上的临床症状导致腹股沟疼痛，因此检查者之间的一致性要低得多。在 29% 和 23% 的侧面中，检查员对相同的分类组合意见一致。

问题与思考

两名检查员对腹股沟损伤的诊断似乎存在很大差异。这是否会受到两者不同职业（外科医生和理疗师）的影响？看来，使用多哈腹股沟损伤分类系统并不能使不同检查者做出统一的诊断。造成这种情况的部分原因可能是，有可能诊断出导致腹股沟损伤的多种临床实体，而且调查人员被要求根据他们对这些实体临床重要性的认识，从最重要到最不重要进行排序。这些等级作为序数变量进行分析，这意味着顺序很重要。在对临床分类进行排序时，考官们在更大程度上达成了一致。

表 1 显示，有三分之一的受试者没有在同一天接受第二位检查员的检查。 13%的人在 1-2 天后进行了手术，15%的人在 3-5 天后进行了手术，6%的人在 6-7 天后进行了手术。这可能有利有弊。第二次检查的延迟可能会影响检查员之间的一致意见，因为症状可能会发生变化。另一方面，避免在同一天重复检查可能会限制第二次检查时症状的激惹和恶化。

文章中指出 "14/48（29%）名参试者和 15/66（23%）名侧试者的盲检人员对相同的分类/分类组合达成一致"。因此，在不到三分之一的病例中，检查人员就腹股沟损伤的原因达成了一致意见。当只定义腹股沟疼痛的一个临床实体时，一致性为 100%，但 48 名参与者中只有 7 人有单侧症状且只有一个临床实体。显而易见，在临床图片更清晰的情况下，一致性要比认为腹股沟损伤是由不同问题造成的情况高得多。但我想知道，一个非常详细的分类系统怎么可能有如此多的重叠。据解释，即使不存在所有标准，检查员也可以对损伤进行分类。我听到了你对分类有用性的看法，确实如此。如果只对符合分类系统所有标准的损伤进行分析，则评分者之间的一致性会得到改善。

那么，他们为什么不遵守分级制度的 "规则 "呢？正如作者所述，多哈分类法留有解释的余地： "例如，与髂腰肌相关的腹股沟疼痛的定义（"髂腰肌压痛，如果在抵抗性屈髋时出现疼痛和/或在屈髋肌伸展时出现疼痛，则更有可能是髂腰肌压痛"）允许检查员进行大量的个性化解释。如果一名运动员在髂腰肌触诊测试中再现了轻微的继发性症状，但在拉伸或阻力测试中却没有，那么一名检查员可能会将其归类为与髂腰肌有关的腹股沟疼痛，而另一名检查员则可能不会。这可能会导致不同的解释，从而降低一致性。另一方面，我鼓励你们保持批判精神，避免在临床检查中打勾。临床推理仍然是诊断工作中最重要的部分。

使用了 HAGOS 评分的阿拉伯语译文，但该版本仍需验证。这个问题不大，因为分数只是用来描述参与者的基线特征。

跟我说说书呆子的事

在解释这些结果时，重要的是这两位研究人员都是参与制定本研究中使用的腹股沟损伤多哈分类系统的专家小组成员。他们在这方面有自己的临床专长。这可能会限制这些结果对经验较少的评估员的普遍适用性。这也可能造成结果的偏差，因为结果的措辞可能略有不同。例如，当作者说可靠性在轻微和实质性之间波动时，我们就看到了这一点。不过，在研究序数数据（根据不同临床实体的临床重要性进行排序）时，情况确实如此。然而，当我们查看名义数据（未对导致一名患者腹股沟疼痛的不同原因的重要性进行排序）时，我们会发现审稿人之间的可靠性从轻微到中等不等。这里有一个例子，说明结果的措辞有时略有不同。这些作者参与了这一分类法的制定工作，显然希望取得好的结果。这项研究最好由不参与专家小组的独立审查员或经验较少的研究人员进行。当然，这种情况今后仍有可能发生。

表 2 显示，耻骨相关、髋关节相关和其他原因的发病率相对较低。然而，卡帕值会受到疾病流行率的影响。因此，耻骨相关、髋关节相关和其他原因导致的腹股沟疼痛的结果可能并不准确。所测量的偏差指数显示了评分者对正面或负面案例比例的分歧程度。当偏差较大时，这意味着评分者的分歧较大。这会导致高估 kappa 值。

带回家的信息

本研究考察了腹股沟损伤多哈分类系统的评分者间可靠性。结果表明，如果只确定腹股沟疼痛的一个原因，则两位检查者之间的一致性很好。在存在多种临床实体的情况下，如果根据内收肌、腹股沟和髂腰肌相关腹股沟痛损伤的临床重要性进行排序，则可靠性最佳，但对于耻骨相关、髋关节相关和其他原因引起的腹股沟痛，可靠性则不佳。可以说，即使专家们严格使用《多哈协议》中提出的临床标准，也并不总是能达成一致。因此，我建议您在使用之前先熟悉一下这些标准。最好还能清楚地记录下自己的发现，这样就能更好地将自己的决定与其他同事进行比较，也能更好地证明自己的诊断是正确的。