Zahngesundheit > Oral Probleme > Zahngesundheit > Die Identifizierung Vorfall Mund- und Rachenkrebsfälle unter Verwendung von Medicare claims

Die Identifizierung Vorfall Mund- und Rachenkrebsfälle unter Verwendung von Medicare claims

 

Zusammenfassung
Hintergrund
Baseline und Trenddaten für Mund- und Rachenkrebsinzidenz ist begrenzt. Ein neuer Algorithmus wurde abgeleitet, um die Überwachung, Epidemiologie verwenden und End Results (SEER) -Medicare Datenbank verknüpft, einen Algorithmus zu erstellen Vorfall Fälle von Mund- und Rachenkrebs mit Medicare Ansprüche zu identifizieren.
Methoden
eine Split-Probe unter Verwendung von Ansatz, Medicare behauptet, "Verfahren und Diagnosecodes einen neuen Algorithmus zur Erzeugung verwendet wurden Mund- und Rachenkrebsfälle zu identifizieren und ihre Betriebseigenschaften zu validieren.
Ergebnisse | Der Algorithmus hatte hohe Sensitivität (95%) und Spezifität (97% ), die nach und nach Altersgruppe, Geschlecht und Rasse und ethnischer Herkunft variiert.
Fazit
Beispiele für den Nutzen dieses Algorithmus und seine Betriebseigenschaften umfassen die Verwendung von IT-Grund und Trend Schätzungen von Mund- und Rachenkrebsinzidenz abzuleiten. Solche Maßnahmen könnten verwendet werden Schätzungen Inzidenz bereitzustellen, wo sie fehlen oder als Komparator Schätzungen für die Tumorregister zu dienen.
Schlüsselwörter Medicare-Mundkrebs Sekundärdatenanalyse SEER elektronische ergänzendes Material
Die Online-Version dieses Artikels ( doi:. 10 1186 /1472-6831-13-1) enthält zusätzliches Material, das autorisierten Benutzern zur Verfügung
Hintergrund
der Bericht des Surgeon General auf die Mundgesundheit in Amerika festgestellt, dass die orale und kraniofaziale Überwachung Datenbanken. für Krankheiten, Gesundheitsdienste, und die Inanspruchnahme des Gesundheitswesens sind begrenzt oder fehlen [1]. Dieser Bericht für die weitere Entwicklung und Validierung von Zielkriterien genannt [1]. Das National Institute of Dental und kraniofaziale Forschung (NIDCR) stellte fest, ähnliche Bedenken [2], und beschrieben die Notwendigkeit für grundlegende Daten, um Trends im Laufe der Zeit zu erkennen, vor allem für die unterversorgte Bevölkerung und weniger gemeinsame Bedingungen in der Allgemeinbevölkerung [2].
Mund- und Rachen (OP) Krebserkrankungen sind in rund 30.000 Personen in den Vereinigten Staaten jedes Jahr, und die jährliche Sterblichkeit für OP Krebs diagnostiziert beträgt ca. 7500 [1-3]. Ein großer Teil der OP Fälle diagnostiziert wird, sind unter den Personen im Alter von 65 Jahren und älter [4]. Trotz der großen Zahl neuer Fälle pro Jahr, OP-Krebs relativ gesehen-ist eine seltene Krankheit; so großen populationsbasierten Einstellungen sind oft erforderlich, wichtige Forschungsfragen zu beantworten. So haben wir erzeugt und validiert, einen Algorithmus Vorfall OP Fälle zu identifizieren, basierend auf Medicare Ansprüche.
Ermittler haben genutzt Medicare behauptet, für Krebs und andere Studien gesundheitlichen Folgen. Krankenhaus, ambulante und Arzt Ansprüche können in Längs Datenbanken neu konfiguriert werden. Diese können Diagnose und Verfahren Codes, die Kosten der erbrachten Dienstleistungen sowie die entsprechenden Daten dieser Diagnosen und Prozeduren umfassen.
Cooper et al. [5] untersuchten die Empfindlichkeit der Medicare-Daten Vorfall Prostata-, Lungen-, Darm-, Brust-, Bauchspeicheldrüsen- und Endometriumkarzinom Fälle zu identifizieren. Ein Algorithmus, der von Freeman et al. [6] Vorfall Fälle von Brustkrebs auf Medicare Ansprüche hatte eine hohe Empfindlichkeit (90%), bezogen zu identifizieren und auch gemessen, um die Spezifität und der positive prädiktive Wert ihres Algorithmus. McClish und penberthy [7] verwendet Medicare behauptet, die Anzahl der verpassten Fälle in der Virginia Krebsregister zu quantifizieren. Medicare Ansprüche für ihre Arbeit eine einzigartige Möglichkeit geschaffen, wie sie Daten aus drei verschiedenen Quellen-Register Virginia Krebs erforderlich macht die Medicare Teil A und die Medicare Teil B Ansprüche. Mandelblatt et al. [8] und Mandelblatt et al. [9] verwendet, um den Algorithmus von Freeman et al. [6] Brustkrebs-Fälle zu identifizieren, Behandlungen und Wahrnehmungen der Krebsbehandlung zu untersuchen. Von besonderem Interesse für Mandelblatt et al. [8] waren rassische Unterschiede Gesundheit. Zusätzlich zu der von Freeman et al entwickelten Algorithmus. [6], Nattinger et al. [10] erstellt einen Vier-Stufen-Algorithmus Brustkrebsfälle unter den Medicare-Bevölkerung und verbesserte die positive prädiktive Wert (≥89%) für die Fälle zu identifizieren, zu identifizieren, während immer noch ein hohes Maß an Sensitivität und Spezifität zu halten. In dieser Studie
die SEER-Medicare verknüpfte Datenbank verwendet einen Algorithmus abzuleiten, die einfallendes OP Krebsfälle unter den älteren Menschen nur mit Medicare Ansprüche identifiziert. Dieser Algorithmus kann zukünftige Studien ermöglichen, Forschungsfragen über OP Krebs adressieren durch sekundäre Datenanalysen auf Medicare Ansprüche. Personen, die durch den Algorithmus identifiziert gleichzeitig zu ihren medizinischen Unterlagen (Medicare-Forderungen) verknüpft werden, um die Gesundheit Trajektorien beurteilen. Die Schätzungen der OP Krebs Inzidenzraten können auch eine große Population-Basis inklusive vieler ländlicher und andere schwer zu erreichende Bevölkerungsgruppen in den Vereinigten Staaten.
Methoden
Datenquellen unter Verwendung dieses Algorithmus für Medicare-Empfänger abgeleitet werden
Die SEER-Medicare verknüpfte Datenbank wurde für diese Studie verwendet. Das Zentrum für Medicare und Medicaid Services verknüpft Überwachung, Epidemiologie und End Results (SEER) Tumor Registry-Daten mit Medicare Forderungen und Volkszählung Informationen, die die SEER-Medicare verknüpfte Datenbank zu erstellen. Diese Daten enthalten Informationen über Personen mit Krebs, als Fälle in der SEER Tumorregister identifiziert, der auch Medicare-Versicherung hatte, wie durch Medicare Immatrikulation Aufzeichnungen angezeigt. Fast alle (97%) der Bevölkerung im Alter von 65 und älter in den Vereinigten Staaten haben Abdeckung Krankenversicherung Medicare [11], die stationäre Behandlung Einrichtung, qualifizierte Pflege bietet, zu Hause Gesundheit und Hospizversorgung (Teil A) Berichterstattung. Die meisten Empfänger haben auch die Abdeckung von Arzt und ambulante Pflegedienste (Teil B) [11]. Demographische Informationen war auch von Medicare Immatrikulation Dateien zur Verfügung, einschließlich der Mitgliedschaft in Health Maintenance Organizations oder HMOs [11]. Für diese Studie nur im stationären Bereich (Teil A) und Arzt und ambulante (Teil B) Medicare Ansprüche verwendet wurden. Frühere Untersuchungen der SEER-Medicare-Datenbank, dass Registry ca. 93,6% der Fälle in SEER Tumor angegeben sind, wurden auch für Personen im Alter von 65 Jahren und älter [12] in der SEER-Medicare-Datenbank aufgenommen.
Die SEER-Medicare verknüpfte Datenbank Patienten Entitlement und Diagnose Zusammenfassung Datei (PEDSF) und Zusammengefasste Denominator Datei (SumDenom) bestand aus zwei Arten von Dateien Nenner. Die PEDSF Datei enthaltenen Patienten sowohl von SEER gesammelt Demografie und der Social Security Administration. Dazu gehörten Maßnahmen wie Geburtsdatum, Rasse, ethnischer Herkunft, Kreis des Wohnsitzes, Medicare Förderfähigkeit, HMO-Mitgliedschaft und das Datum des Todes. Nur diagnostizierten Individuen in einer SEER Registrierung mit Krebs wurden in der PEDSF-Datei enthalten; somit Tumor Maßnahmen (zum Beispiel Krebs Ort, Datum der Diagnose, Stadium des Tumors, etc.) von SEER wurden auch in diesen Dateien enthalten. Unsere PEDSF Datei enthalten Patienten in der SEER-Medicare verknüpfte Datenbank, deren Krebsdiagnose erfolgte von 1973 bis 2002. Wir erhalten 100% Dateien für Patienten mit OP-Krebs in diesen Jahren diagnostiziert. Patienten mit Krebserkrankungen andere als OP Krebs wurden nicht in diesen Analysen einbezogen. Die SumDenom Datei enthalten ähnliche demographische Informationen zur PEDSF mit seinen Informationen ausschließlich von der Social Security Administration gesammelt. Die Informationen in der Datei SumDenom war eine 5% ige Stichprobe von Einzelpersonen in SEER Gebieten leben, die nicht mit einem SEER Tumorregister verknüpft hatte. Informationen in unserer SumDenom Datei umfasste die Jahre 1986 bis 2004
Die Medicare behauptet, Teile der SEER-Medicare verknüpfte Datenbank (stationär, Arzt und ambulante Dateien) miteinander durch eine gemeinsame, fachspezifische ID-Variable verwandt waren. Die Medicare-Provider-Analyse Review (MedPAR) Dateien Krankenhaus stationäre Ansprüche enthalten sind. Dazu gehörten ICD-9-CM Diagnosecodes, ICD-9-CM Verfahren Codes, sowie die entsprechenden Daten der Diagnosen und Prozeduren. Die 100% Arzt /Lieferant (Arzt) Dateien waren ein Teil der nationalen Ansprüche History-Dateien und wurden als die NCH-Dateien bezeichnet. Diese Daten enthalten ICD-9-CM Diagnosecodes und eine CPT-Prozedur-Code, zusammen mit den entsprechenden Daten dieser Diagnosen und Prozeduren. Die Ambulante Standard-Analytic (ambulant) Dateien waren auch ein Teil der nationalen Ansprüche History-Dateien und wurden als die OutSAF Dateien bezeichnet. Diese Daten enthalten ICD-9-CM Diagnosecodes, ICD-9-CM-Codes Verfahren und eine CPT-Prozedur-Code mit Begleitdaten.
Studie Kohorte
Insgesamt 3050 Vorfall OP Krebsfälle mit einem Zeitpunkt der Diagnose in das Kalenderjahr 2002 wurden identifiziert. Die untere Altersgrenze für die Aufnahme war 66 Jahre für Probanden im Alter von 65 Altern in Medicare, damit unsere vorherige Berichterstattung Kriterien zu erfüllen, 2.751 Fälle zu verlassen. Um sicherzustellen, dass alle Informationen für jeden Krankengeschichte des Patienten, unterwirft nur mit einer Deckungssumme von Medicare (Teile A und B), aber nicht von einer HMO im Laufe des Jahres vor der Diagnose durch das Jahr nach der Diagnose (oder durch den Tod für Themen, die innerhalb eines Jahres gestorben ihrer Diagnose) wurden eingeschlossen. Im Anschluss an diese Ausgrenzung, blieb 1807 OP Krebsfälle. Für Nicht-Krebs-Kontrollen wurden 472.293 Probanden aus der SumDenom Datei als lebendig im Jahr 2002. Eine "Pseudo-Diagnose Datum" wurde als Datum im Kalenderjahr 2002 randomisiert identifiziert. (Alternative Randomisierung Strategien würden nicht wahrscheinlich einen Einfluss auf die Ergebnisse, da keine zeitliche Trends Ansprüche im Zusammenhang im Zusammenhang mit Inzidenz OP Krebs wurden erwartet.) Insgesamt 368.666 Kontrollen waren mindestens 66 Jahre alt auf dieser Pseudo-Diagnosedaten. Unter Verwendung der gleichen Ein- /Ausschlusskriterien für diese Themen für Medicare und ohne HMO Berichterstattung über die Pseudo-Diagnose Datum und seine Fenster entsprechenden Zeit links 242.654 nicht-OP Krebskontrollpersonen.
Studie Maßnahmen
OP Krebserkrankungen wurden unter Verwendung identifiziert die SITE RECODE Variable aus den PEDSF Dateien. Integer-Werte von 1-10 bezeichnet die folgenden Krebsarten (jeweils): Lippe; Zunge; Speicheldrüse; Mundboden; Gummi und andere Mund; Nasopharynx; Mandel; Oropharynx; Hypopharynx; und andere Mundhöhle und des Rachens. Bei Patienten mit mehr als eine primäre Diagnose im Alter von 66 oder älter von OP-Krebs, das Auftreten im Kalenderjahr 2002 diagnostiziert wurde verwendet. Die repräsentative Stichprobe von Einzelpersonen, die als Kontrollgruppe diente bestand aus Beobachtungen aus der SumDenom Datei. Keine Variablen wurden benötigt, um sie als Kontrollen zu identifizieren, da ihre Position in dieser 5% Beispieldatei identifizierte sie als eine Medicare-Empfänger in einem SEER Bereich Lebewesen, die nicht mit Krebs diagnostiziert worden.
Bewertung der Leistung des Algorithmus auf verschiedene demographische Merkmale wurde in der Validierungsprozess durchgeführt. Altersgruppe, Geschlecht und Rasse und ethnische Zugehörigkeit: Die folgenden Maßnahmen enthalten in beiden PEDSF und SumDenom Dateien wurden für diese Analyse verwendet. Diagnose und Verfahren Codes von Medicare Forderungen wurden für den Algorithmus verwendet, um vorherzusagen, ob ein Individuum ein Vorfall OP Krebs Fall war oder nicht (eine Kontrolle). Die Daten, die mit diesen Diagnosen entsprachen und Verfahren wurden auch in den Medicare Ansprüche gelegen und wurden verwendet, um das Auftreten eines solchen Codes zu begrenzen, innerhalb eines Jahres (vor oder nach) dem Potential Zeitpunkt des Einfalls.
Der Algorithmus Aufbau
zu unserem Algorithmus, 1807 Vorfall OP Krebsfälle mit einem Tag der Diagnose im Kalenderjahr 2002 generieren, die unsere Einschlusskriterien erfüllten, wurden identifiziert. Insgesamt 242.654 Themen aus den SumDenom Dateien, die im Jahr 2002 am Leben waren und zufällig eine "Pseudo-Diagnose date" im Kalenderjahr 2002 zugeordnet. Medicare (MedPAR, NCH und OutSAF) Ansprüche für diese Themen, die (über ein Jahr nach der ein Jahr vor), um ihre Diagnose Datum /Pseudodiagnose Datum wurden ausgewählt, um ein Datum innerhalb eines Jahres hatte. ICD-9-Codes Verfahren und CPT Verfahren Codes von diesen Ansprüchen wurden verwendet. Eine 60% ige einfache Zufallsauswahl (ohne Ersatz) aus diesen Themen wurde ausgewählt, um den Algorithmus zu leiten (n = 1.085 OP Krebsfälle; n = 145.548 Kontrollen), die restlichen 40% zu verlassen (n = 722 OP Krebsfälle; n = 97.106 Kontrollen ) für die Validierung zur Verfügung. Kontingenztafeln wurden erzeugt demographischen und klinischen Eigenschaften des Algorithmus Gebäude (60%) und Validierung (40%) Proben zu vergleichen. Diese Eigenschaften wurden zwischen den Proben unter Verwendung von Pearson Chi-Quadrat-Test verglichen.
Medicare Ansprüche verwendet wurden Gewichte für den Algorithmus zu erzeugen. Jeder Anspruch Quelle (MedPAR, NCH und OutSAF) wurde separat in den Prozess behandelt, der folgt. Der erste Schritt in dem Algorithmus war die Anzahl der Anspruchstypen zu reduzieren. Somit ist die OP Fälle mit nur Verfahren, die einen ICD-9 Diagnosecode für OP-Krebs (Werte 140.XX-149.XX) hatten mindestens 50% der Zeit, dass das Verfahren beibehalten aufgetreten waren. Als nächstes wurden die relativen Häufigkeiten des Auftretens (mindestens eine) von jedem dieser einzigartigen ICD-9 Verfahren und CPT-Codes in den Ansprüchen unter den OP Fällen abgeleitet wird, und dann wieder unter den Kontrollen. Das Protokoll 2 des Verhältnisses dieser relativen Häufigkeiten (Präsenz für jeden ICD-9-Prozedur-Code und jeder CPT Code innerhalb eines jeden Anspruch Quelle) unter den OP Fällen und unter den Kontrollen verwendet wurde, ein Gewicht für jeden Code zu generieren. (Für Codes, die nur unter den OP Fälle aufgetreten, die relative Frequenzwert für die Kontrollgruppe verwendet wurde, war ein durch die Anzahl der Kontrollen aufgeteilt plus eine Teilung zu vermeiden, indem Null.) Gewichte mit einem Wert von weniger als oder gleich vier in der ICD -9 Verfahren Codes und CPT-Codes wurden gleich Null gesetzt. (Dies wurde unter den OP Fällen auf der Grundlage von niedrigen Diskriminierung zwischen den relativen Frequenzen gerechtfertigt im Vergleich zu den Kontrollen.) Eine Punktzahl für jeden OP Fall und für jede Kontrolle wurde erzeugt, indem die Gewichte für jeden Code Summieren, die während ihrer zweijährigen vorlag Fenster um ihre Diagnose /Pseudo-Diagnose Daten. Gewichte für die Anwesenheit eines ICD-9 Diagnose-Code-Wert von 140.XX-149.XX (OP Krebsdiagnosecode) wurden ebenfalls, indem man die log 2 des Verhältnisses der relativen Häufigkeit des Auftretens eines solchen Codes erzeugt ( in jeder Datenquelle) unter den OP Fällen gegenüber den nicht-Krebs-Kontrollen, dann das Hinzufügen dieses Gewicht zu jeder Partitur des Subjekts. Formal Score wurde die Gleichung je Probanden zur Bestimmung Score =
Σ
x
Med ·
-Code s
Med < mtr> +
Σ
x
NCH ·
-Code s
NCH +
Σ
x
Out ·
-Code s
Out wo: Codes
Med
die verschiedenen Gewichte aus der ICD-9 Verfahren und Diagnose vertreten Codes und CPT Verfahren Codes oben vom MedPAR Datenquelle und x
Med definiert
die entsprechenden Indikatorvariablen dargestellt (1, falls vorhanden; 0 falls nicht vorhanden) für, ob der Gegenstand den Code in ihre Ansprüche während des definierten Zeitfensters hatte; Codes
NCH
und x
NCH
diese Werte für die NCH Datenquelle dargestellt wird; und Codes
Out
und x
Out
repräsentiert sie für die OutSAF Datenquelle.
die Partituren Da für jede Datenquelle abgeleitet (MedPAR, NCH und OutSAF ), identifiziert der Algorithmus Themen wie Fälle, wenn sie einen positiven Wert in einer dieser drei Noten hatte. Probanden mit einem Wert von Null in allen drei dieser Werte wurden als nicht mit OP Krebs durch den Algorithmus identifiziert. Histogramme der Punkte für jede Datenquelle und die kombinierte Quelle wurden für OP Krebsfälle und Kontrollen dargestellt. (Aufgrund der Größe der Datenquelle für die Kontrollen, eine einfache Stichprobe [ohne Ersatz] derer, die nicht OP Krebs wurde verwendet für diese Histogramme Themen auszuwählen.) Zusätzliche Schnittpunkte wurden ebenfalls untersucht und ein receiver operating characteristics ( ROC) Kurve [13] vorgestellt. Die zusätzlichen Schnittpunkte enthalten die minimalen euklidischen Abstand vom Punkt (0%, 100%) auf der ROC-Kurve (die 100% Sensitivität und 100% Spezifität), und eine, die Spezifität maximiert. Die Schätzungen für Sensitivität und Spezifität, zusammen mit ihren 95% Konfidenzintervall [13] erzeugt wurden für jeden dieser Schnittpunkte entspricht.
Der Algorithmus Validieren
die Gewichte verwendet für jeden Code mit dem Algorithmus abzuleiten, Partituren waren erzeugt für alle der Medicare-Forderungen (MedPAR, NCH und OutSAF) für jeden Probanden während ihrer einzelnen Zeitfenster (zentriert auf ihre Diagnose Datum /Pseudodiagnose Datum) in die restlichen 40% Probe, die so genannte Validierung Probe. Themen, die einen positiven Wert in einer dieser drei Werte hatten, wurden durch den Algorithmus als mit OP Krebs identifiziert, und solche mit einem Wert von Null in allen drei dieser Werte wurden als nicht mit OP Krebs identifiziert. Zum Vergleich wurde der Algorithmus auch an den zusätzlichen Grenzpunkte oben beschrieben bewertet. Die a priori
Forschung Hypothese war, dass der Algorithmus abgeleitete Werte Sensitivität und Spezifität von mindestens 85% und 95% betragen würde. Punktschätzungen und 95% Konfidenzintervall für diese Sensitivität und Spezifität [13] wurden auch erzeugt.
Variation in der Empfindlichkeit und Spezifität von demographischen Faktoren wurde ebenfalls evaluiert. Mit Hilfe der Validierungsstichprobe, unbedingte logistische Regressionsmodelle [14] die Vorhersage Krebs Status als durch den Algorithmus bestimmt wurden erzeugt, zuerst unter den mit OP-Krebs (für Empfindlichkeit) und dann unter den Kontrollen (Spezifität). Rückwärts wurde Eliminierung verwendet, um das Modell unter Verwendung von Altersgruppe, Geschlecht und Rasse und ethnischer Herkunft zu wählen. Alle möglichen Wechselwirkungen wurden erlaubt, und das Auswahlkriterium wurde auf p & lt; 0,1 (Wald-Test) im Modell zu bleiben. Die a priori
Forschung Hypothese war, dass die Sensitivität und Spezifität Werte nicht durch den demografischen Untergruppen variieren würde. Vorhergesagte Wahrscheinlichkeiten und entsprechend 95% Konfidenzintervall geschätzt [14]. Modellanpassung wurde mit der Hosmer-Lemeshow-of-Fit-Test ausgewertet [14].
Positive und negative prädiktive Werte wurden auch für den Algorithmus auf der Validierungsstichprobe geschätzt. Diese Werte dargestellt: die Wahrscheinlichkeit, dass ein Subjekt durch den Algorithmus als OP Krebs Fall identifiziert wurde, in der Tat, ein OP Krebs Fall (positive Vorhersagewert); und die Wahrscheinlichkeit, dass ein Gegenstand durch den Algorithmus angegeben als eine Kontrollperson wirklich nicht OP Krebs hatte (negativer prädiktiver Wert). Da die Kontrollen nur eine 5% ige Probe aus dieser Population vertreten, Themen aus dieser Probe wurden um einen Faktor von 20 gewichtet eine entsprechende Schätzung für diese Werte zu erhalten. Neunzig Prozent Konfidenzintervall [13] wurden für diese aufgeblasenen Probe für diese Schätzungen geschätzt.
Dieses Projekt wird von der University of Kansas Medical Center Human Subjects Committee (HSC # 10914) genehmigt wurde. SAS-Versionen 9.1, 9.2 und 9.3 (SAS Institute, Cary, NC) wurden für die Datenverwaltung verwendet und analysiert.
Ergebnisse Unter den OP Krebsfälle
, die Verteilungen der Altersgruppe, Geschlecht und Rasse und ethnischer Herkunft waren ähnlich zwischen dem Algorithmus Gebäude und Validierungsproben. Das gleiche galt für die Kontrollproben als auch. Diese Ergebnisse wurden in Tabelle 1 1.Table Häufigkeitsverteilungen (%) von den Eigenschaften der Algorithmus Gebäude und Validierungsproben
Charakteristisch
Algorithm Gebäude Probe
Validation Probe präsentiert

Pearson'sx 2 Test p-Wert
OP Krebsfälle *
1085 (100,0)
722 (100,0)

Altersgruppe
66-69
201 (18,5)
116 (16.1)
0,1370

70-74
271 (25.0)
184 (25.5)
75-79
266 (24.5)
195 (27,0)
80-84
205 (18,9)
114 (15.8)


85 und älter
142 (13.1)
113 (15.7)
Sex
Weiblich
417 (38,4)
287 (39,8)
0,5738
Male Bei
668 (61,6)

435 (60,3)
Rasse und ethnische Herkunft
Schwarzes
59 (5.4)
43 (6,0)
0,8859
hispanischen
17 (1.6)
9 (1.3)
Andere
49 (4.5)
30 (4.2)
Weiß
960 (88,5)
640 ( 88.6)
Nicht-Krebs-Kontrollen
145.548 (100,0)
97.106 (100,0)
Altersgruppe
66-69
28.549 (19,6)
19.036 (19,6)
0,2610
70-74
36.729 (25,2) auf
24.269 (25.0)
75-79
33.361 (22,9)

22.597 (23,3)
80-84
24.635 (16,9)
16.479 (17,0)

85 und älter
22.274 (15.3)
14.725 (15.2)
Sex
weiblich

89.736 (61,7)
60.050 (61,8)
0,3564
männlich
55.812 (38,4)
37.056 ( 38.2)
Rasse und ethnische Herkunft
Schwarzes
10.385 (7.1) 7148
(7.4)
0,0037
Hispanic
3685 (2.5)
2279 (2.4)
Andere
8681 (6.0)
5897 (6.1)
Weiß
122.797 (84,4)
81.782 (84,2)

* OP. Mund- und Rachen
Algorithmus gebaut
die Gewichte jeder der Codes Gesamtnote zu erzeugen, wurden (1 finden Sie unter Weitere Datei: Anhang Tabellen AD) vorgestellt. Mit Hilfe der Schnittpunkt einer positiven (& gt; 0) Partitur, die Sensitivität und Spezifität waren 93,9% und 96,2%, respectively. Histogramme der Verteilungen von Noten unter den OP Krebsfälle und Kontrollen in Abbildung 1. Die ROC-Kurve für verschiedene Schnittpunkte des Algorithmus Punktzahl zur Anzeige eines OP Krebs Fall vorgestellt wurden, wurde in Abbildung 2, wobei der Schwerpunkt nur auf Werte mit hoher Spezifität präsentiert (& gt; 96%). Diese Figur angedeutet, dass der Wert mit dem kleinsten euklidischen Abstand vom Punkt (0%, 100%) auf der ROC-Kurve eine hohe Spezifität hatte. Dieser Mindestabstand eingetreten, wo die Medicare Ansprüche Wert & gt Score hatte; 5,48 und produzierte eine Sensitivität von 93,8% und eine Spezifität von 97,1%. Bei Verwendung eines Ad-hoc-Ansatz die Maximierung der Spezifität Priorisieren (aufgrund der relativ seltene Auftreten von OP-Krebs), fanden wir, dass ein Schnittpunkt von & gt; 37,43 eine Sensitivität von 75,0% und eine Spezifität von 99,3% aufwies. Diese Ergebnisse, zusammen mit den entsprechenden 95% Konfidenzintervall, wurden in Tabelle 2 Abbildung 1 Histogramme der Punkte auf Medicare behauptet Quelle und ihre kombinierte Gesamt * Basis vorgestellt. * Mund- und Rachen (OP) Krebs Fall (Magenta) und Kontrolle (blau) erzielt; vertikale Referenzstäbe für: der Anfangsschnittpunkt-Score (& gt; 0, was anzeigt, den Algorithmus als OP Krebs Fall identifiziert), die eine Sensitivität von 93,9% und eine Spezifität von 96,2% aufwies, die minimale euklidische Distanz Schnittpunkt (& gt; 5,48) dass eine Sensitivität von 93,8% und eine Spezifität von 97,1% und für den Schnitt-Punkt, der Spezifität maximiert (& gt; 37,43)., die 75,0% Sensitivität und 99,3% Spezifität hatte
2 receiver operating characteristics (ROC) Kurve Abbildung für Partituren auf Medicare basiert Ansprüche * Vorfall Mund- und Rachenkrebsfälle identifiziert. * Bezugslinien angegeben: für den ersten Schnittpunkt-Score (& gt; 0 den Algorithmus anzeigt, als OP Krebs Fall identifiziert) eine Sensitivität von 93,9% und eine Spezifität von 96,2% hatten; Die Sensitivität und Spezifität für den minimalen euklidischen Abstand Schnittpunkt (& gt; 5,48) waren 93,8% bzw. 97,1% betrugen; und für den Schnitt-Punkt, der Spezifität maximiert (& gt; 37,43) betrug die Sensitivität 75,0% und eine Spezifität von 99,3%
Tabelle 2 Sensitivität und Spezifität Werte für verschiedene Kerbschnitt-Punkte für die Modellbildung und Validierung Proben
. Medicare Ansprüche punkten Schnittpunkt
Sensitivität (95% CI) *
Spezifität (95% CI) *
& gt; 0,00
93,9 (92,5-95,3) /95,3 (93,8-96,8)
96,2 (96,1-96,3) /96,0 (95,9-96,2)
& gt; 5,48
93,8 (92,4-95,3) /95,3 (93,8-96,8)
97,1 (97,0-97,2) /97,0 (96,9-97,1)
& gt; 37,43
75,0 (72,5-77,6) /79,8 (76,9-82,7)
99,3 (99,3-99,3) /99,3 (99,2-99,3)
*%; CI: Vertrauensintervall; Algorithmus Gebäude Abtastwerte /Validierung Beispielwerte.
Validierung des Algorithmus
Die verschiedenen Schnittpunktwerte erzeugt ähnliche Sensitivität und Spezifität Werte derjenigen des Algorithmus Gebäude Probe. Der anfängliche Schnittpunkt-Score (& gt; 0, was anzeigt, den Algorithmus als OP Krebs Fall identifiziert) hatte eine Sensitivität von 95,3% und eine Spezifität von 96,0%. Die Sensitivität und Spezifität für den minimalen euklidischen Abstand Schnittpunkt (& gt; 5,48) waren 95,3% und 97,0% betragen. Für den Schnitt-Punkt, der Spezifität maximiert (& gt; 37,43) betrug die Sensitivität 79,8% und eine Spezifität von 99,3%. Diese Ergebnisse, zusammen mit den entsprechenden 95% Konfidenzintervall wurden in Tabelle 2
Das vorgestellte Modell für die Empfindlichkeit zeigten, dass die Empfindlichkeit war niedriger bei Männern als bei Frauen (p = 0,0531). Die geschätzte Sensitivität betrug 97,2% bei Frauen und 94,2% für Männer. (Die Anzahl der Parameter in diesem Modell gegeben, die Hosmer-Lemeshow-of-Fit-Test nicht durchgeführt werden konnte.) Das Modell für die Spezifität komplexer war. Das endgültige Modell enthalten Altersgruppe (p & lt; 0,0001), Geschlecht (p & lt; 0,0001), der Rasse und der ethnischen Zugehörigkeit (p = 0,0158) und die Altersgruppe-by-Rasse und ethnischer Herkunft Interaktion (p = 0,0072). Kein signifikanter Mangel-of-fit wurde für dieses Modell (p = 0,5155) nachgewiesen. Alle bis auf eine Altersgruppe-by-Sex-by-Rasse und ethnische Zugehörigkeit Untergruppe geschätzte Spezifität Werte hatten 95% zu überschreiten. Die Gruppe mit Spezifität unterhalb dieser Schwelle war Hispanic Männer im Alter von 85 und älter, und hatte einen Wert von 94,0%. Die geschätzten Sensitivität und Spezifität Werte und 95% Konfidenzintervall aus diesen Modellen entsprechenden 3. Insbesondere in der Tabelle vorgestellt wurden, während statistisch signifikante Unterschiede festgestellt wurden, Sensitivität und Spezifität Werte waren ähnlich über groups.Table 3 Angepasst Sensitivität und Spezifität Werte für den minimalen euklidischen Abstand cut- Punkt für die Validierungsproben
Sensitivität (95% Konfidenzintervall)
Frauen (unabhängig von Alter und Rasse und ethnische Zugehörigkeit)
97,2 (94,5-98,6)
Männer (unabhängig von Alter und Rasse und ethnische Zugehörigkeit)
94,0 (91,4-95,9)
Spezifität (95% Konfidenzintervall)

Alter 66-69
Weiblich
Schwarz
97,3 (96,4-97,9)
Hispanic

98,0 (96,1-99,0)
Andere
98,2 (97,3-98,7)
Weiß
97,6 (97,4 -97,8)
Male
Schwarz
96,4 (95,3-97,2)
Hispanic
97,4 ( 94,9-98,7)
Andere
97,5 (96,4-98,3)
Weiß
96,8 (96,5-97,2)

Alter 70-74
Weiblich
Schwarz
97,6 (96,8-98,2)
Hispanic

98,3 (97,2-99,0)
Andere
98,2 (97,5-98,8)
Weiß
97,1 (96,9 Alle Autoren haben gelesen und genehmigt haben das endgültige Manuskript.