Et datavarehus er et sentralt datalager der man samler data fra flere systemer og legger dem best mulig til rette for analyse. I dette ligger det at man tar vare på alle data, kobler dem til et tidspunkt og organiserer dem for å få et helhetlig blikk over all informasjon.
En annen viktig oppgave for et datavarehus er å sikre høy datakvalitet slik at den informasjonen som befinner seg i datavarehuset er korrekt. Videre vil man i et datavarehus også ta vare på historikk, en informasjon som ofte forsvinner over tid i de ulike fagsystemene.
Prosjektets mål er å etablere en infrastruktur tilrettelagt for en hensiktsmessig integrasjon mellom biobanker, analyser av det biologiske materialet og kliniske data/helsedata. Dette innebærer en integrasjon av klinisk forskning og pasientbehandling og gode interne sikkerhetssystemer som ivaretar pasientenes integritet og personvern.
Datavarehuset vil sikre at forskerne kan få raskt og enkelt kvalitetssikret klinisk informasjon, samtidig som personvern og sikkerhet ivaretas på en bedre måte enn i dag.
Følgende prinsipper ligger til grunn for et datavarehus:
Tilgjengelighet
- Informasjon skal være lett tilgjengelig for sluttbrukere
- Benytte terminologi som sluttbrukere (fagområder) kan relatere seg til
- Historikk ivaretas i datavarehuset for rapportering i ettertid
Robust
- Håndtere store datamengder
- Gode rutiner for overvåking som sikrer at lastejobbene går som ønsket
- Uttrekk/rapporter er ikke personavhengige
- Datavarehuset må tåle endringer, dvs håndtere at det oppstår nye informasjonsbehov i organisasjonen
Datakvalitet
- Sammenstiller data fra hele organisasjonen, og sikrer felles forståelse av data
- Gjenbruk av masterdata
- "Single point of truth"
Sikkerhet
- Mekanismer for å sikre at informasjonen oppbevares og utleveres i henhold til lovverket og prosjektenes tillatelser.
Skisse av datavarehus

Kilde 1 - n: Kildesystemer som brukes i pasientbehandlingen (PAS, LAB, PAT, Kurve etc). I prinsippet kan datavarehuset inneholde data fra ethvert system der data er lagret i strukturert form og hvor data er del av journalføringen i det aktuelle foretaket.
ETL prosess: ETL (Ekstraksjon Transformasjon Lasting). Verktøy for å styre prosessen med å laste data mellom kilde systemene og datavarehuset og internt i datavarehuset. Verktøyet brukes også til å rense data eller transformere data slik at de blir riktig for en gitt datamodell eller analyse.
Staging area: Området hvor man ekstraherer, renser, kombinerer og laster data fra ulike kilde systemer. Prosessen kan deles inn i ulike steg Ekstraksjon fra kilde systemene, Transformasjon av data inn i nye strukturer og Lasting av data videre inn i datavarehuset (dvs. ETL-prosessen). Oppgaven til staging area er i hovedsak kvalitet, konsistens og integritet på dataene.
Datavarehus: Data lagret på laveste nivå (grunndata eller atomære data) hvor dataene er normalisert. Datavarehuset kan være tilgjengelig for analyse, men normalt vil all analyse være i ulike data torg som er mer optimalisert for rapportering.
Eksterne kilder: Eksterne kilder som utleverte data fra andre foretak, som svar på spørreskjema, resultat fra forskningsbiobank m.m. og som ikke er del av journalføring/EPJ, må settes som ekstern kilde hvor spesifikt uttrekk til et datatorg også kan sammenkobles med data fra ekstern kilde.
Datatorg: Logisk delmengde av datavarehuset. Datamodellen til et datatorg er tilpasset spesifikt formål og deri gitte analysebehov. Data kan være i identifiserbar -, avidentifiserbar - eller anonym form. Hvordan data publiseres i et datatorg bestemmes av hjemmel og styres av en "honest broker" mekanisme.
Analyseverktøy: Datavarehuset skal støtte opp om ulike analyseverktøy.


