Hans-Göran Gröndahl

Diagnostik - något att tänka på

Det idealiska sjukdomstecknet är närvarande om patienten är sjuk och frånvarande om patienten är frisk. Det finns emellertid jämt en viss risk att sjuka diagnostiseras som friska och friska som sjuka. Den idealiska fordran är därför sällsynt uppfylld, utan ersättas i klinisk praktik av sannolikhetsvärdering. Sensitivitet och specificitet beskriver en diagnosmetod när den användas på personer som är känd sjuka respektive friska. Prediktiva värden beskriver sannolikheten för att patienten är sjuk respektive frisk vid positiva och negativa testresultat. Om en diagnosmetod ger kvantitativa resultat, exempelvis antalet bakterier i ett salivprov, är det behövligt att definiera ett tröskelvärde som inte enbart indelar patienterna i sjuka och friska, utan också beskriver antalet av patienter med fel diagnos.

Varje beslut om att behandla eller inte behandla föregås av en diagnos. Denna är i sin tur resultatet av att man använt sig av någon form av diagnostisk metod eller, om man så vill, diagnostiskt test. Inom tandvården används sällan objektiva diagnostiska metoder dvs sådana vars resultat är oberoende av den som genomför diagnostiken. Sådana metoder är vanligare inom medicinen, i form av t ex blodprov och urinprov vars värde används för att bestämma om en patient ska anses ha eller inte ha en viss sjukdom. Inom tandvården används nästan uteslutande rent subjektiva diagnostiska metoder, vars resultat alltså är beroende av diagnostikerns tolkning. Sådana metoder innebär att diagnostikern både är en del av den diagnostiska metoden och den som ska använda metoden för att fatta diagnostiska beslut (1).

Ibland hör man röntgenundersökningar, sonderingar och andra liknande metoder beskrivas som objektiva, dvs som om de vore oberoende av den som genomför diagnostiken. Många undersökningar, i vilka man har låtit olika bedömare granska samma röntgenbilder, har dock visat betydande olikheter såväl mellan som inom bedömarna (2 - 6). Liknande undersökningar av kliniskt-diagnostiska metoder, som t ex sondering, är svårare att finna. Det beror inte minst på att upprepade undersökningar skulle riskera att förändra den verklighet man vill beskriva.

Den perfekta diagnostiska metoden

För att få ett begrepp om hur diagnostik kan fungera kan man utgå från en modell i vilken man tänker sig att man med en helt objektiv metod undersöker en grupp individer med en bestämd sjukdom och en grupp individer utan sjukdomen. Vi utgår från att metoden ger svar i form av ett kontinuum av värden där individer fria från sjukdomen uppvisar lägre värden än de sjuka. Av flera olika skäl kommer inte alla med sjukdomen att få ett och samma provsvar. I stället kommer provsvaren att variera kring ett medelvärde. Också de friska individernas resultat kommer att vara spridda kring ett medelvärde. Den perfekta diagnostiska metoden är den som, trots de varierande testsvaren, entydigt förmår att separera individerna med sjukdom från dem utan (Fig. 1).

F15-01-001.eps

Figur 1: Provsvaren från en perfekt diagnostisk metod kan variera inom såväl friska som sjuka individer, men skiljer ändå dessa helt och hållet från varandra.

Den icke perfekta diagnostiska metoden

Tyvärr finns det ännu ingen diagnostisk metod som fungerar så bra att den helt skiljer individer med en viss sjukdom från sådana utan. En del provsvar kan lika gärna komma från en sjuk som från en frisk individ (Fig. 2). Individer ska i fortsättningen inte bara ses som personer utan också som t ex tandytor, områden kring rotspetsar m.m., dvs anatomiska enheter som kan vara föremål för sjukdom. Trots det omöjliga i att alltid skilja sjukt från friskt måste vi använda de svar vi får för att bestämma hur vi ska gå vidare i vårt omhändertagande av patienten, en nog så viktig uppgift för en diagnostisk metod. Något värde utefter det kontinuum av värden som provsvaren utgör måste tjäna som avskärningsvärde för när vi ska betrakta provsvaret som positivt, dvs som en indikation på att sjukdom föreligger, och när vi ska betrakta det som negativt (Fig. 3). För att göra det lättare att se, låter vi populationen med sjuka individer representeras av en nedåtriktad kurva. Det valda avskärningsvärdet innebär att en del av de friska individerna kommer att få negativa testsvar - sant negativa svar, eftersom individerna inte var sjuka. En del av de friska kommer att få testvärden över det satta gränsvärdet, dvs positiva testsvar, men falskt positiva sådana. En del av de sjuka kommer, i sin tur, att få positiva testsvar, som då är sant positiva, medan en annan del får negativa testsvar som, eftersom de inte är riktiga, är falskt negativa. I Fig. 3 kan man se hur ett avskärningsvärde delar upp testsvaren i fyra grupper. De friska individerna har indelats i sådana med sant negativa, respektive falskt positiva diagnoser, de sjuka i sådana med sant positiva, respektive falskt negativa diagnoser.

F15-01-002.eps

Figur 2: Den icke perfekta diagnostiska metoden förmår inte att fullständigt skilja sjuka från.

F15-01-003.eps

Figur 3: Ett avskärningsvärde används över vilket undersökta individer betraktas som sjuka och under vilket de betraktas som friska. Det valda värdet ger upphov till fyra diagnostiska resultat.

Den diagnostiska beslutsmatrisen, sensitivitet och specificitet

En fyrfältstabell, som den de diagnostiska svaren fördelas i, brukar kallas en diagnostisk beslutsmatris (Fig. 4). Den visar en fördelning av de diagnostiska svar, som till slut varje diagnostisk metod ändar upp i. Andelen positiva svar bland de individer som verkligen är sjuka beskriver den diagnostiska metodens sensitivitet, medan andelen negativa diagnoser bland dem som verkligen är friska beskriver metodens specificitet (Fig. 5). Sensitivitetsvärdet beskriver alltså hur bra en diagnostisk metod förmår att upptäcka individer med sjukdom, medan specificitetsvärdet beskriver hur bra den förmår skilja ut individer utan sjukdom. En förskjutning av avskärningsvärdet för det vi kallar sjukt, respektive friskt, t ex från B till A eller B till C i Fig. 6 ändrar på förhållandet mellan sensitivitet och specificitet. Genom att fälla vid lägre värde på provsvaret (A) ökar vi metodens sensitivitet, vi får fler sanna positiva svar, medan dess specificitet minskar, dvs antalet falskt positiva svar ökar. Fäller vi vid högre värden (C) minskar vi sensitiviteten, får färre sanna positiva svar, men ökar specificiteten, får ett mindre antal falska positiva svar. Genom ändringar av avskärningsvärdet för när testsvaret anses indikera sjukdom förändras alltså värdena på sensitivitet och specificitet. Sensitivitet och specificitet är sålunda avhängiga av varandra och en diagnostisk metods godhet får aldrig beskrivas genom att man bara anger ett av dessa värden.

F15-01-004.eps

Figur 4: En diagnostisk beslutsmatris med de fyra grupper av diagnostiska resultat som varje diagnostisk metod så småningom resulterar i.

F15-01-005.eps

Figur 5: En metods sensitivitet och specificitet kan beräknas från beslutsmatrisen som det relativa antalet sanna positiva diagnoser hos känt sjuka individer, respektive det relativa antalet negativa diagnoser hos känt friska.

F15-01-006.eps

Figur 6: En förskjutning av avskärningsvärdet mellan det som betraktas som sjukt respektive friskt ändrar på förhållandet mellan sensitivitet och specificitet.

Diagnosens prediktiva förmåga

Värden på sensitivitet och specificitet ger oss en uppfattning om hur bra testet är på att skilja verkligt sjuka från verkligt friska individer, men vilka som är de sjuka och friska vet vi ju från början inte. Det är detta som testet ska ge svar på. Man kan säga att en diagnostisk metod ska kunna förutsäga, prediktera, om sjukdom finns eller inte. Detta leder oss till en diskussion om hur mycket man kan lita på att ett positivt testsvar verkligen förutsäger närvaro av sjukdom och hur säker man kan vara på att ett negativt svar verkligen talar om att sjukdom inte föreligger. Det är nu dags att syna den diagnostiska beslutsmatrisen närmare i sömmarna. Medan vi fick värden på den diagnostiska metodens sensitivitet och specificitet genom att betrakta matrisen i vågrät riktning får vi värden på dess prediktiva förmåga genom att se på den i lodrät riktning ( Fig. 7). Om vi använder en diagnostisk metod med sensitiviteten 85 % och specificiteten 80 % (läge A i Fig. 6) på en grupp individer bestående av lika många sjuka som friska, t ex 500 av varje, kommer det positiva prediktionsvärdet att bli 425/525 x 100 = 81 % och det negativa att bli 400/475 x 100 = 84 % (Fig. 8). Används samma test på en annan population inom vilken enbart var tionde individ är sjuk blir dess positiva prediktionsvärde 85/265 x 100 = 32 % och dess negativa 720/735 x 100 = 98 % (Fig. 9). Ju lägre den bakomliggande frekvensen av sjukdom - sjukdomsprevalensen - är desto lägre blir det positiva prediktionsvärdet. Är prevalensen verkligt låg, som när ett diagnostiskt test används på normalgrupper av patienter i s.k. screeningundersökningar, kan det positiva prediktionsvärdet bli riktigt lågt.

F15-01-007.eps

Figur 7: En diagnostisk metods positiva prediktionsvärde anger det relativa antalet sjuka individer hos dem med positivt testresultat, medan det negativa anger det relativa antalet friska hos de som fått negativt testresultat.

F15-01-008.eps

Figur 8: Positiva och negativa prediktionsvärden för ett test med sensitiviteten 85 % och specificiteten 80 % och lika antal sjuka som friska individer, dvs sjukdomsprevalensen = 50 %.

F15-01-009.eps

Figur 9: Positiva och negativa prediktionsvärden för ett test med sensitiviteten 85 % och specificiteten 80 % när de sjuka endast utgör 10 % av den undersökta patientgruppen.

En diagnostiskt test är sannolikhetsförändrande

De bakomliggande sjukdomsprevalenserna i de beskrivna fallen var 50 %, resp. 10 %. Med en sådan kännedom, och utan att använda någon diagnostisk metod, hade vi kunnat säga att sannolikheten för sjukdom hos en slumpmässigt vald individ var just 50 % resp. 10 % och för frånvaro av sjukdom 50 % resp. 90 %. Ett positivt testresultat ändrade i de två exemplen sannolikheten för sjukdom från 50 % till 81 % och från 10 % till 32 %, medan ett negativt testresultat ändrade sannolikheten för frånvaro av sjukdom från 50 % till 84 % och från 90 % till 98 %. Diagnostik har alltså som en av sina uppgifter att förändra sannolikheten för sjukdom till en sådan nivå att den kan ligga till grund för fortsatta beslut.

Förändringar av det diagnostiska avskärningsvärdet

Eftersom värdena på en diagnostisk metods sensitivitet och specificitet enbart avser en bestämd avskärningspunkt på den diagnostiska värdeskalan ger dessa en begränsad kunskap om den diagnostiska metodens noggrannhet. Man kan få en bättre uppfattning om hur den diagnostiska metoden fungerar genom att beskriva vad som händer när avskärningsvärdet varieras. Om man för en serie avskärningspunkter, som de i Fig. 6, sätter upp värdena för sensitivitet, sann positiv svarsfrekvens (SP %), på y-axeln i ett diagram och värdena på 100 % - specificiteten, vilket är detsamma som den falska positiva svarsfrekvensen (FP %), på x-axeln kommer dessa värden att bilda en kurva (Fig. 10). Denna kallas för ROC-kurva (Receiver Operating Characteristic Curve) och demonstrerar den trade-off som föreligger mellan andelen sanna positiva svar och falska positiva svar när avskärningspunkten, kriteriet för vad som betraktas som sjukt och friskt, varieras (7). Kurvans läge i koordinatsystemet beskriver hur väl den diagnostiska metoden förmår att separera sjukt från friskt. En kurva längs den positiva diagonalen motsvarar en diagnostisk metod som inte förmår skilja sjukt från friskt mer än en slantsingling gör. Ju närmare diagrammets övre vänstra hörn kurvan ligger desto bättre separerar metoden sjukt från friskt. Storleken på ytan under ROC-kurvan är därför ett vanligt använt mått på den diagnostiska metodens godhet, där ett värde på 0,5 motsvarar vad slumpen skulle ge till resultat och värdet 1.0 beskriver den metod som perfekt skiljer sjuka från friska.

F15-01-010.eps

Figur 10: En serie olika avskärningsvärden mellan vad som betraktas som sjukt, respektive friskt kan representeras i en s.k. ROC-kurva som anger trade-offen mellan sanna och falska positiva diagnoser när avskärningsvärdena ändras.

Diagnostikern bestämmer avskärningsvärdet

För en objektiv metod som ger bestämda testsvar och som tillämpas på en väl definierad grupp av säkert friska och säkert sjuka kommer man att erhålla en ROC-kurva med ett bestämt läge. Det ankommer sedan på diagnostikern att välja det avskärningsvärde som ger en rimlig balans mellan sanna och falska positiva diagnoser. Flera faktorer måste då tas i beaktande. Eftersom olika avskärningspunkter innebär olika värden på sensitivitet och specificitet ändras också testets prediktiva värden när avskärningspunkten ändras. Allt annat lika minskar ett tests positiva prediktionsvärde om man väljer en avskärningspunkt som gör att man hamnar högre upp på ROC-kurvan. Men de prediktiva värdena är, som vi tidigare sett, starkt beroende av den bakomliggande sjukdomsprevalensen. Ju lägre prevalens desto försiktigare bör man vara med avskärningspunkter som innebär högre positioner på ROC-kurvan. Valet bestäms också vilka konsekvenser olika diagnoser kan medföra för patienten. För en mindre allvarlig sjukdom med långsamt förlopp är konsekvenserna av en falsk negativ diagnos mindre allvarliga än vid motsatt förhållande. Mindre allvarliga konsekvenser av en falsk negativ diagnos bör alltså leda till valet av en lägre position på ROC-kurvan och tvärtom.

Diagnostik byggd på subjektiva bedömningar

När en diagnostisk metod bygger på en subjektiv bedömning utgörs testsvaren av diagnostikerns bedömning av sannolikheten att sjukdom, eller ett bestämt tillstånd, föreligger vid närvaro av bestämda kliniska tecken och symptom. Det kan då vara rimligt att anta att friska individer varierar kring en lägre grad av sannolikhet än vad sjuka gör, dvs vi har ett liknande förhållande som det som beskrevs i Fig. 2. Träning i diagnostik avser att öka diagnostikerns förmåga att skilja sjuka individer från friska. Lika lite som objektiva diagnostiska metoder förmår att helt skilja sjuka från friska, lika lite kan subjektivt baserade metoder göra det. Dilemmat kvarstår. Vissa lägen på sannolikhetsskalan kan lika gärna föreligga när individen är frisk som när den är sjuk. Precis som tidigare måste ett visst testsvar användas som avskärningspunkt för när diagnosen sjuk, respektive frisk, ska ställas. Samma ställningstaganden som när de diagnostiska svaren kommer från en objektiv testmetod måste göras, dvs man måste fråga sig vad den bakomliggande prevalensen kan vara och vad konsekvenserna kan bli av olika diagnostiska beslut.

Anamnesen är prevalensförändrande

Prevalens är ett mått på andelen sjuka individer i en bestämd population vid en bestämd tidpunkt. För en diagnostiker handlar det om att försöka bestämma vilken population en aktuell patient kan sägas tillhöra för att på det viset bilda sig en uppfattning om bakomliggande sjukdomsprevalens. En patient med god munhygien, som exponerats för fluor under längre tid och vars sockerintag är begränsat tillhör t ex en annan population, med en lägre prevalens karies, än en patient med motsatt erfarenhet. En äldre patient som behandlats för malign sjukdom i organ med metastasbenägenhet till käkarna tillhör en population med högre prevalens av käkmetastaser än en yngre patient utan tidigare malign sjukdom. Med hjälp av en noggrann anamnes kan patienten placeras i olika s.k. referentgrupper mellan vilka prevalensen varierar. Anamnesens viktiga uppgift är med andra ord att vara prevalensförändrande. En tandläkare som ägnar patientens anamnes tillräcklig uppmärksamhet har därför större möjlighet att ställa en bra diagnos än den som inte gör det.

Eftersom de flesta diagnosmetoder i en tandläkarpraktik involverar ett subjektivt omdöme är det inte möjligt att veta något närmare om den enskilde diagnostikerns sensitivitet och specificitet eller läge i en ROC-graf när det gäller diagnostik av olika sjukdomar. Uppgifter om dessa förhållanden bygger på att det finns en s.k. «gold standard» för vad som är sjukt och friskt och med vilken avgivna diagnoser kan jämföras. Under utbildningen till tandläkare är det de enskilda lärarna som utgör den «gold standard» med vilken studentens diagnoser jämförs. För att jämföra hur väl olika röntgenmetoder förmår att skilja mellan ytor med och utan karies finns det studier, som använt sig av olika former av «gold standards», t ex mikroskopistudier av slipsnitt av extraherade tänders approximalytor (8 - 9). Olika observatörers diagnoser har sedan kunnat jämföras med erhållna referensvärden, som - vilket kan förtjäna att påpekas - inte heller de är observatörsoberoende. I studier som jämfört olika observatörers diagnoser med framtagna referenser är röntgenbilderna oftast perfekt tagna, tänderna bara representativa för de som oftast extraheras, observatörerna i regel väl tränade och granskningsförhållandena ideala. Studier av det slaget kan vara väl lämpade för att jämföra olika röntgenmetoder med varandra, men ger begränsad vägledning för den enskilde tandläkaren i dess kliniska vardagsdiagnostik. Diagnostik i röntgenbilder av tänder med mikroskopiskt, eller på annat sätt, verifierad karies kan dock vara av stort värde i det att de belyser kariesdiagnostikens svårigheter samt skillnader inom och mellan diagnostiker.

Panta rei - allt flyter - vad göra?

Diagnostik i tandläkarpraxis bygger i allt väsentligt på subjektiva bedömningar och variationer mellan olika tandläkare därför ofrånkomlig. Diagnostiken lärs in under tandläkarens grundutbildning och modifieras genom fortsatt utbildning och ökande klinisk erfarenhet. Kunskap om hur diagnostiska metoder fungerar kan bidra till en större förståelse till varför variationer äger rum och minska skillnaderna mellan diagnostiska ytterligheter om än aldrig helt eliminera skillnaderna mellan diagnostiker (10). Oberoende av vad diagnostiken gäller kan ROC-kurvan vara värdefull som en tankemodell för diagnostiska ställningstaganden. Man kan tänka på den som en bana utefter vilken en inställningsknapp kan förflyttas för att ge en rimlig balans mellan sanna och falska positiva diagnoser (Fig. 11). Från en utgångspunkt motsvarande skärningspunkten med den negativa diagonalen, där den hör hemma när sjukdomsprevalensen ligger på 50 % och konsekvenserna av en falsk negativ diagnos inte skiljer sig från den för en falsk positiv, kan knappen förflyttas uppåt eller nedåt på kurvan. Den ska förflyttas nedåt då den bakomliggande prevalensen är låg, konsekvenserna av falska positiva diagnoser allvarliga och de för falska negativa mindre allvarliga, och uppåt under motsatta förhållanden. Det är alltså viktigt att i stället för att använda en närmast automatisk, intuitiv, diagnostik utnyttja en som baseras på kritiska överväganden (11).

F15-01-011.eps

Figur 11: ROC-kurvan som tankemodell för diagnostiska beslut. Där den negativa diagonalen korsar ROC-kurvan ligger den optimala trade-offen mellan sanna och falska positiva diagnoser när sjukdomsprevalensen är 50 % och konsekvenserna för de olika diagnostiska besluten är lika. Vid andra prevalenser och andra konsekvenser bör avskärningsvärdena ändras.

Konklusion

Vi kan som individuella diagnostiker inte veta var vår individuella ROC-kurva ligger för olika typer av diagnoser, men vi kan utgå ifrån att den ligger närmare ROC-grafens övre vänstra hörn när det diagnostiska underlaget är bra. Det kan det bli när den kliniska granskningen av patientens mjukdelar gjorts med noggrannhet, en omsorgsfull och fullständig palpation utförts, tandköttsfickornas djup mätts, plackindex och blödning bedömts och röntgenbilder av hög kvalitet framställts och utsatts för noggrann granskning. Men, även om diagnostiken är aldrig så noggrant genomförd kan vi ändå vara säkra på att ROC-kurvan inte ligger nära det övre vänstra hörnet, den position som indikerar perfekt diagnostik. Det är därför det är så viktigt att man tänker noga på vad konsekvenserna av olika diagnostiska beslut kan bli innan diagnosen leder till ett behandlingsbeslut. Förklarar man sina tankar för patienten och låter denna vara informerad och delaktig är det högst troligt att missförstånd mellan patient och tandläkare minimeras.

English summary

Gröndahl H-G.

Diagnostics - something worth considering

14-8.

The ideal symptoms or signs are those where their presence indicates disease, and their absence excludes it. There is, however, always a probability that sick persons will be diagnosed as healthy and healthy individuals as sick, and the ideal situation is therefore seldom met, but is replaced in clinical practice by the use of an estimate of probabilities. The terms sensitivity and specificity describes how good a test is when used on either diseased people or healthy people, or simply how good the test is to correctly identified patients with known diagnoses. The term predictive value is used for examination methods which provide a probability that the patient has, or has not a specific diagnosis. With examination methods that provide quantitative results, such as the amount of bacteria in saliva, a threshold value must be defined. This value not only separate persons classified as sick and healthy, but also define the number patients with an incorrect diagnosis.

Klinisk relevans

Variation inom diagnostik förekommer ofta och kan lätt föra till osäkerhet hos patienterna og till missförstånd bland kollegor. Det idealiska test eller den idealiska diagnosmetod, som skiljer friska från sjuka individer, finns knappast, och det är viktigt att känna till de olika diagnostiska metoders styrkor och svagheter.

Referenser

  1. Dabelsteen E. Health, illness and oral diagnosis. Copenhagen: Munksgaard Denmark, 2012.

  2. Mileman P, Purdell-Lewis D, van der Weele L. Variation in radiographic caries diagnosis and treatment decisions among university teachers. Community Dent Oral Epidemiol 1982; 10: 329 - 34.

  3. Pliskin JS, Shwartz M, Gröndahl HG et al. Reliability of coding depth of approximal carious lesions from non-independent interpretation of serial bitewing radiographs. Community Dent Oral Epidemiol 1984; 12: 366 - 70.

  4. Espelid I, Tveit AB, Fjelltveit A. Variations among dentists in radiographic detection of occlusal caries. Caries Res 1994; 28: 169 - 75.

  5. Lewis DW, Kay EJ, Main PA et al. Dentists' variability in restorative decisions, microscopic and radiographic caries depth. Community Dent Oral Epidemiol 1996; 24: 106 - 11.

  6. Espelid I, Tveit AB. A comparison of radiographic occlusal and approximal caries diagnoses made by 240 dentists. Acta Odontol Scand 2001; 59: 285 - 9.

  7. Swets JA, Pickett RM. Evaluation of diagnostic systems: methods from signal detection theory. New York, London: Academic Press, 1982.

  8. Hintze H, Wenzel A, Frydenberg M. Accuracy of caries detection with four storage phosphor systems and E-speed radiographs. Dentomaxillofac Radiol 2002; 31: 170 - 5.

  9. Hellén-Halme K, Lith A. Effect of ambient light level at the monitor surface on digital radiographic evaluation of approximal carious lesions: an in vitro study. Dentomaxillofac Radiol 2012; 41: 192 - 6.

  10. Choi BC, Jokovic A, Kay EJ et al. Reducing variability in treatment decision-making: effectiveness of educating clinicians about uncertainty. Med Educ 1998; 32: 105 - 11.

  11. Kahneman D. Thinking, fast and slow. New York: Farrar, Straus and Giroux, 2011.

Hans-GöranGröndahl 

professor emeritus, Department of Oral and Maxillofacial Radiology, Institute for Postgraduate Dental Education, Jönköping, Sweden

Adresse: Nils-Erik Fiehn. E-post: nef@tdl.dk

Artikkelen har gjennomgått ekstern faglig vurdering.

Gröndahl H-G. Diagnostik - något att tänka på. Nor Tannlegeforen Tid. 2015; 125: 14-8.