Att formulera krav och sätta mått

Tydlighet är viktigt i detta sammanhang. Det är många som ska kunna läsa kraven på data och förstå vad som gäller, men många är inte införstådda med hur man uttrycker sig korrekt enligt standarden. En rekommendation är därför att alltid formulera kraven i text, inte bara sätta ut måtten för respektive datakvalitetsegenskap som valts ut. Att formulera kravet gör det mycket tydligare vad som egentligen gäller.

Exempel på formuleringar finns under varje rubrik för respektive kategori samt i Tabell Exempel på kvalitetskrav för olika kategorier samt kvalitetsmått.

Krav på denna sida:
Fullständighet
Logisk konsistens
Lägesnoggranhet
Tematisk noggrannhet 
Temporal kvalitet
Användbarhet 

Fullständighet

Kravet bör formuleras som att alla företeelser som finns i verkligheten ska finnas i databasen. Därefter väljs ett mått från standarden och den acceptansnivå som ska gälla för kravuppfyllelsen bestäms. Vid en efterföljande kvalitetsutvärdering jämförs resultatet mot en godkänd acceptansnivå på avvikelse från kravet, t.ex. att alla data ska finnas (100 %) men godkänd acceptansnivå på avvikelsen från kravet är 2 %. Det innebär att alla data ska samlas in men att det får finnas 2 % brist eller 2 % övertalighet i datamängden och att datamängden ändå kan bedömas som att den håller utlovad kvalitet. Det är rimligt att en viss nivå av avvikelser i fullständighet finns p.g.a. t.ex. ledtider i produktionsprocessen och en föränderlig omvärld.

Exempel: 

Krav:
Det får inte finnas någon
övertalighet för byggnader

Kvalitetskategori:
Fullständighet
Kvalitetsegenskap:
Övertalighet
Kvalitetsmått:
Id 3 - Andel övertaliga enheter
Acceptansnivå:
2 %

Krav:
Dubbletter får ej finnas

Kvalitetskategori:
Fullständighet
Kvalitetsegenskap:
Övertalighet
Kvalitetsmått:
Id 4 - Antal dubbla objekt
Acceptansnivå:
0 %

Krav:
Alla byggnader inom
omfattning x ska finnas,
d.v.s. 100%

Kvalitetskategori:
Fullständighet
Kvalitetsegenskap:
Brist
Kvalitetsmått:
Id 7 - Andel objekt som saknas
Acceptansnivå:
2 %

I exemplet är det inte lämpligt att uttrycka att kravet är att 98 % av företeelserna ska finnas, eftersom man då blandar ihop krav på insamling och acceptansnivå vid utvärdering.

För att kunna utvärdera fullständigheten krävs data för differensstudier, insamlade genom omfattande fältarbete eller framtaget på annat ordnat sätt. Trots det är det viktigt att krav på kategorin fullständighet ställs i produktionen.
En variant av övertalighet är dubbletter. Kontroll av dubbletter är vanligtvis enklare att utföra och kan göras maskinellt och där bör acceptansnivån vara 0 %.

Logisk konsistens

Logisk konsistens är grad av överensstämmelse avseende logiska regler för datastruktur. Logisk konsistens uppnås genom att i produktionen kontrollera att data av olika typer följer uppsatta regler. Detta kontrolleras enklast genom olika maskinella valideringar. Om det finns en regel att kontrollera mot och man hittar ett fel så bör det ingå att korrigera felet, d.v.s. kravet bör vara att det inte får finnas några fel som strider mot uppsatta regler. Problemet är förstås att man inte kan sätta upp heltäckande logiska regler för allt som kan bli fel.

Det kan sättas upp regler som styr:
- konceptuell konsistens (giltiga sammansättningsmönster, t.ex. i applikationsschemat)
- domänkonsistens (giltiga värdeförråd)
- formatkonsistens (överstämmelse med fastställd lagringsstruktur)
- topologisk konsistens (korrekthet i de topologiska egenskaperna)

Exempel:

Krav:
Alla förekomster ska överensstämma med värden i kodlistor

Kvalitetskategori:
Logisk konsistens
Kvalitetsegenskap:
Domänkonsistens
Kvalitetsmått:
Id 18 - Antal enheter i datamängden som inte överensstämmer med sina värdedomäner i förhållande till det totala antalet enheter
Acceptansnivå:
0 %

Logisk konsistens för domänkonsistens och formatkonsistens bör vara styrt i systemlösning så att felaktig registrering stoppas direkt, d.v.s. går inte att lägga in i databasen. Här ska man alltså sätta acceptansnivån till 0 %.

Konceptuell konsistens kan kanske delvis kontrolleras vid registreringstillfället medan annat måste kontrolleras vid särskilda körningar, med vissa intervall i efterhand. Då kan ju brister i databasen finnas, alltså bör man överväga om acceptansnivån kan vara 0 %.

Topologisk konsistens kontrolleras vanligen vid körningar som sker i samband med registreringen utifrån de topologiregler och toleranser som definierats. Att det är felfritt är avgörande för att ytbildning ska kunna göras och nätverksmodeller ska fungera. Här bör alltså acceptansnivån sättas till 0 %.

Lägesnoggrannhet

För geografisk information är lägesangivelser väldigt viktigt. I andra branscher hanteras tidsskalor, storleksbeskrivningar (värden på längd, bredd och höjd), vikt, temperatur etc. på liknande sätt. Allt är mätning som ger värden på kontinuerliga skalor och där noggrannheten (mätosäkerheten) redovisas.

I ISO 19157 hanteras den övriga skalmätningen under tematisk noggrannhet för kvantitativa attribut samt noggrannhet för en tidmätning.

Vilken lägesnoggrannhet som kan uppnås avgörs till stor del av insamlingsmetoden. För att ställa krav på denna har man stor hjälp av HMK (Handbok i mät- och kartfrågor). HMK har definierat standardnivåer där ändamål och krav på lägesnoggrannhet jämförs. I HMK-Geodatakvalitet beskrivs lägesnoggrannhet i termer från mätstandarden GUM (Guide to the Expression of Uncertainty in Measurement) där lägesnoggrannhet uttrycks som lägesosäkerhet. I HMK-Ordlista finns en GUM-Ordlista samt en ordlista som jämför ISO 19157-termer med GUM-termer.

För höjddata och annan data med höjd anges krav på lägesnoggrannhet separat för plan och höjd. Detta gäller även om kravet på mätosäkerhet är detsamma, eftersom standarden har definierat separata men likartade mått för plan respektive höjd.

Vid mätning av lägesnoggrannhet ska positionerna jämföras mot referenssystemen i plan och höjd, numera SWEREF 99 och RH 2000. Om man ska utvärdera en datamängds lägesnoggrannhet bör man utgå ifrån distinkta (tydliga) företeelser. Marktäcke, hydrografi och liknande datamängder innehåller företeelser som gradvis förändras i diffusa övergångar. I sådana fall bör det framgå av kravformuleringen att det är tydliga/distinkta företeelser som avses vid mätning av lägesnoggrannhet. Hur en korrekt avgränsning ska göras i diffusa övergångar är en tematisk fråga. Samma resonemang tillämpas också för bilder, där man väljer distinkta föremål vars position i bilden jämförs mot kontrollpunkter.

Exempel:

Krav:
Kravet på lägesnoggrannhet är±4m vid 95 % signifikansnivå

Kvalitetskategori:
Lägesnoggrannhet
Kvalitetsegenskap:
Absolut lägesnoggrannhet
Kvalitetsmått:
Id 36 - Noggrannhet vid linjär avbildning med en signifikansnivå på 95 %
Acceptansnivå:
Ej relevant

Enligt måttet i exemplet ovan är värdet halva längden av intervallet definierat av ett övre och ett lägre gränsvärde, i vilket det sanna värdet finns med 95 % sannolikhet.

Tematisk noggrannhet

Att bestämma sig för hur man vill gruppera företeelser eller deras egenskaper, klassificera dem, så att den önskade nyttan kan uppnås i verksamheten är ett första steg vid varje övervägande om att samla in en datamängd. Detta måste sedan följas av att definitioner för klasserna och insamlingsregler tas fram, så att data kan klassas på önskat sätt vid insamlingen. Utan sådan tydlig dokumentation kan ingen utvärdering av den tematiska noggrannheten genomföras. För naturliga (icke mänskligt skapade) företeelser måste man definiera så man kan mäta på tydliga objekt. Diffusa övergångar mellan klasser gör det svårt eller omöjligt att klassificera, inte minst i fält.

Tematisk noggrannhet Indelas i:

  • klassificeringsnoggrannhet - korrekthet hos företeelsers/objekts klassificering
  • tematisk noggrannhet kvalitativa attribut - korrekthet i klassificering av ej mätbara attribut
  • tematisk noggrannhet kvantitativa attribut – noggrannhet (mätosäkerhet) hos mätbara attribut (mått på mätskalor)

Krav på klassificeringsnoggrannhet kan ställas både på anlagda objekt såsom broar eller lyktstolpar och på naturliga företeelser såsom marktäcke eller hydrografi. Felklassning kan lätt ske om man har många snarlika objekttyper. Om man inte har tydliga definitioner av de olika företeelserna/objekten, kan det lätt bli fel. Definitionerna för olika objekttyper får inte överlappa varandra. Definitionerna får inte heller vara för snäva utan måste täcka in hela variationsbredden, så att ingenting hamnar utanför. Beskrivningar kan komplettera definitionen, gärna med exempel, men det ska tydligt framgå.

När man utvärderar klassificeringsnoggrannheten för t.ex. marktäcke där olika klasser gradvis övergår i varandra är det viktigt vilken metodik som används och hur stickprov tas. Det är också viktigt att ha koll på generaliseringsregler och andra insamlingsinstruktioner.

Exempel:

Krav:
Alla förekomster av Korsningar
ska vara rätt klassificerade

Kvalitetskategori:
Tematisk noggrannhet
Kvalitetsegenskap:
Klassificeringsnoggrannhet
Kvalitetsmått:
Id 63 - Relativ felklassificeringsmatris
Acceptansnivå:
2 %

 

Exemplet är resultatet för en tematisk kontroll av företeelsetypen Korsning, attributet generaliseringstyp. I matrisen nedan är värdena för NVDB (databasen) till vänster och värdena för ”verkligheten” eller populationen till höger. Om man tar värdet 14 i cellen för ”Enkel korsning” och ”Kanaliserad korsning” tolkas det att 14 korsningar är felklassade och borde vara Enkel korsning istället för Kanaliserad korsning. Om alla värden är rätt klassade borde man enbart få värden ”på diagonalen” och de på sidorna borde vara 0.

 

 

Tematisk noggrannhet kvalitativa attribut handlar om de attribut som beskriver en företeelse och som hämtar sina värden från ett värdeförråd där en klassning av företeelsen och dess egenskaper görs. Ett enkelt exempel är hastighetsgränser där värdelistorna styr registreringen. Är hastighetsgränsen 30 km per timme ska det registreras på värdelistans 30 km per timme (detta förutsätter att värdelistan är riktigt uppsatt). Registreras 30-sträckan som 40 km per timme har vi ett tematiskt fel, en felklassificering. Samma resonemang ovan om definitioner för klassificering av objekttyper gäller även definitioner för värden i värdelistor.

För att förbättra kvaliteten på en dataprodukt vill en producent styra inmatningen i databasen till värdelistor. Tematisk noggrannhet är den kategori av datakvalitetsegenskaper för att ställa krav på och mäta den behovsanpassade uppsättningen av värden i värdelistor och hur noggrant klassningen tillämpas mot krav i den aktuella dataprodukten. Om data av en viss typ får en felaktig klassning uppstår ett tematiskt fel.

Exempel:

Krav:
Attributet Typ av järnvägsbro
ska vara rätt klassificerat

Kvalitetskategori:
Tematisk noggrannhet
Kvalitetsegenskap:
Tematisk noggrannhet i kvalitativa attribut
Kvalitetsmått:
Id 67 - Andel inkorrekta attributvärden
Acceptansnivå:
2 %

För att åstadkomma kvalitet i tematisk noggrannhet i dessa två kvalitetsegenskaper (dvs klassificeringsnoggrannhet och tematisk noggrannhet kvalitativa attribut) i produktionen, måste man lägga fokus på definitioner, handledningar och utbildningar av medarbetarna i processen. Dessa kvalitetsegenskaper kan inte säkras maskinellt och kommer därför alltid att ha någon andel inkorrekta data varför acceptansnivån måste bli större än 0 %. Hur stor den blir beror på produktionsprocessen. Kontroller kan ske med statistiska metoder och kontroller i efterhand.

En klassificeringsmatris kan användas även för kvalitativa attribut, men dessa mått finns dock inte medtagna i ISO 19157 för denna datakvalitetsegenskap.

Tematisk noggrannhet kvantitativa attribut. I ISO 19157 återfinns all osäkerhet i skalmätning (kontinuerliga variabeldata) utom lägesnoggrannheten och tidmätning under denna kvalitetsegenskap. Exempel på kvantitativa attribut är en byggnads höjd, vattenflödet i en älv och årliga volymtillväxten hos ett skogsbestånd.

Exempel:

Krav:
Alla förekomster ska
ha ett värde i attributet
vägbredd som avviker
högst ±0,1 m från det rätta värdet

Kvalitetskategori:
Tematisk noggrannhet
Kvalitetsegenskap:
Tematisk noggrannhet kvantitativa attribut
Kvalitetsmått:
Id 71 - Osäkerhet för attributvärde med en signifikansnivå på 95 %
Acceptansnivå:
Ej relevant

 

Temporal kvalitet

Kraven på de olika egenskaperna inom kategorin temporal kvalitet kan formuleras på samma sätt som andra kvalitetsegenskaper i andra kategorier.

  • noggrannhet för en tidmätning – är en mätosäkerhet. Kan hanteras på samma sätt som för tematisk noggrannhet/kvantitativa attribut samt lägesnoggrannhet.
  • temporal konsistens – menas grad av korrekthet i tidsordningen, d.v.s. kronologin för ordnade händelser/sekvenser. Sköts med sambandsregler för logisk konsistens; att sköta tidsordningar. Kan hanteras på samma sätt som för logisk konsistens/konceptuell konsistens.
  • temporal validitet - är tidsuppgifters giltighet, t.ex. att tidsuppgifter blir korrekt angivna. Kan hanteras på samma sätt som för logisk konsistens/domänkonsistens.

Användbarhet

Användbarhet - överensstämmelse med användares krav på dataprodukten för ett visst användningsområde.

Om de specifika användarkraven inte kan beskrivas med de övriga kvalitetsegenskaperna så kan de istället baseras på användningsområde t.ex. navigering. Genom att ange vad man som kund har tänkt använda dataprodukten till kan producenten, baserat på de krav och uppföljningar som finns, bedöma om produkten är lämplig eller inte.

En dataproducent kan också använda denna kategori för att ange för en dataprodukt att den är användbar för vissa utpekade användningsområden. Användningen av dataprodukten för ett visst syfte beskrivs genom att aggregera resultat från flera kvalitetsutvärderingar och på så sätt ange överensstämmelse mot en viss specifikation.

Måtten i ISO 19157 för användbarhet är aggregeringsmått och bygger på att man utvärderar överensstämmelsen med kraven i en hel dataproduktspecifikation. Måtten kan vara om hela specifikationen är godkänd, antal krav i specifikationen som är godkända eller underkända samt andel krav i specifikationen som är godkända eller underkända. Om specifikationen är gjord för ett tydligt specifikt syfte så kan kanske redovisningen av måttet för Användbarhet vara ett snabbt sätt att få reda på om datamängden är användbar för sitt syfte. Man har dock ingen viktning av kraven utan alla krav blir lika viktiga, vilket kan göra Användbarhet trubbigt. I standarden beskrivs i Appendix J en annan metod att aggregera kvalitetsutfallet där man viktar olika kravs påverkan på användningen som därför kan användas lite mer flexibelt.

Det man bör vara medveten om är att Användbarhet är otillräckligt beskrivet i standarden och rubrikerna i tabellerna över måtten är missvisande och kan leda tankarna fel.

Exempel:

Krav:
Dataprodukten skall kunna
användas för navigering,
alla krav i dataproduktspecifikationen
för navigering måste vara uppfyllda

Kvalitetskategori:
Användbarhet
Kvalitetsegenskap:
Ej relevant
Kvalitetsmått:
Id 105 - andel tillgodosedda krav i dataproduktspecifikationen
Acceptansnivå:
0 %

Krav:
Dataprodukten ska följa
INSPIRE dataproduktspecifikation
för Transport Networks
omfattning Linbanor

Kvalitetskategori:
Användbarhet
Kvalitetsegenskap:
Ej relevant
Kvalitetsmått:
Id 101 - indikation på att alla krav i dataproduktspecifikationen är tillgodosedda
Acceptansnivå:
Ej relevant