Fra data til viden

Har vejret indflydelse på besøgstal i biblioteket? Har antallet af arrangementer betydning for antal henvendelser til medarbejderne?
Kan vi få valide data, som besvarer disse og andre spørgsmål, om hvad der sker i bibliotekets rum?

Tal kan sjældent stå alene, hvis man bestræber sig efter at få et nuanceret indblik i, hvor brugerne færdes, hvad de laver, og hvorfor de agerer, som de gør. Før data kan omsættes til brugbar viden, er der behov for at tage adskillige elementer i betragtning. For det første skal det vurderes om tallene er valide. Derefter skal data behandles for eventuelle fejl og derudover standardiseres og formateres, så de er sammenlignelige med andre datasæt. Herefter kan man køre statistiske analyser på disse data med henblik på at udforske korrelationer. Før at kvantitative dataanalyser kan sige noget troværdigt omkring brugernes adfærd og færden, skal disse sammenholdes med kvalitative data.[1]

Vi har indtil videre hovedsageligt lavet kvantitative analyser, hvor vi har sammenholdt datasæt fra de forskellige teknologier, som er beskrevet i værktøjskassen, bl.a. data fra tællekamera og wifi. Formålet har været at finde ud af, om man ved at kombinere metoderne, kan kvalificere tallene og efterfølgende bruge disse til at analysere brugernes adfærd.

 

Beskrivende statistik af enkelte datasæt

I dette afsnit bliver de forskellige datakilder, der indgår i nedenstående analyser, beskrevet i forhold til måleenhed og skala, fordelinger og generelle deskriptorer om middel-tendenser, samt andre målbare hovedtræk i datasættene. Derudover dannes der et overblik over mulige trends i datasættene igennem grafiske visualiseringer, der kan danne grundlag for uddybende spørgsmål.

 

Konkluderende statistik om kombination af datasæt

I dette afsnit bliver de forskellige typer data sammenholdt med udgangspunkt i statistiske modeller, der har til formål at kunne afgøre, hvorvidt sammenhænge mellem de målte enheder anses for at være statistisk signifikante og i så fald konkludere på sammenhængens karakter. Ved at tage afsæt i disse konklusioner bliver der redegjort for, hvilken betydning resultaterne har for bemanding, indretning, wayfinding og lignende overvejelser. Samtidig kan resultaterne bruges som grundlag for yderligere analyse. Eventuelle fejl i data tages i betragtning, når datasættet reguleres og behandles, og eventuelle antagelser noteres, før der bliver konkluderet på resultater. 

Disse 6 trin bliver gennemgået for hver analyse

  1. Modelformulering
  2. Antagelser
  3. Estimering
  4. Test af model
  5. Fortolkning
  6. Spørgsmål og forslag

 

Samlet oversigt over resultater

 

Trueview tællekamera-data sammenholdt med vejrdata

  • FORTOLKNING: Vi observerer en positiv sammenhæng mellem besøgstal og hhv. temperatur og solskin og en negativ sammenhæng mellem besøgstal og fugtighed. Korrelationerne er tilmed stærkere i hverdagene sammenlignet med i weekenden. Effekten af solskin har en relativt større indvirkning på besøgstal end temperatur og fugtighed.

  • SPØRGSMÅL: Hvorfor observerer vi denne forskel? Hvordan kan kvalitative data understøtte disse resultater? Opstil teorier og gå i dialog med brugerne.

  • FORSLAG: Udforske sammenhængen mellem opholdstid og vejrdata for at se om sammenhængen er ens eller modsat, hvad vi oplever med besøgstal. Hvis vi har en idé om, hvor mange der opholder sig på Dokk1 og hvor længe de opholder sig i bygningen på grund af vejret, kunne man omdanne denne viden til at tage kvalificerede beslutninger om f.eks. bemanding og aktivitetstilbud.

CMX-data sammenlignet med Ground-truth tællinger

  • FORTOLKNING: Vi observerer en signifikant forskel mellem middelværdierne for CMX antal devices og Ground Truth-optællingerne. De afviger altså rent statistisk væsentligt meget fra hinanden.
  • SPØRGSMÅL: Forskellen er tilsyneladende større ved de åbne områder (omkring Gongen) sammenlignet med de semilukkede lokaler (Fag_1 og Legehuset)
  • FORSLAG: Sammenligningen er udført på et forholdsvist tyndt grundlag pga. størrelsen af stikprøven. Manuelle optællinger for en længere periode vil give mere valide data.

Data fra IoT-platform sammenholdt med CMX-data:

  • FORTOLKNING: Vi konkluderer, at der en signifikant forskel mellem antal devices fra Alexandra Instituttets IoT-platform og CMX-systemet. IoT-platformen tæller betydeligt flere devices end CMX-systemet.
  • SPØRGSMÅL: Er der en fundamental forskel på, hvordan data beregnes i hvert system? Hvorfor afviger data fra de to systemer væsentlige mere i åbne rum sammenlignet med de lukkede lokaler?
  • FORSLAG: Undersøg først og fremmest, om datakilderne er sammenlignelige på baggrund af, hvordan tallene beregnes.

CMX-data sammenholdt med besøgstal fra tællekameraer

  • FORTOLKNING: Vi konkluderer, at der er en signifikant forskel mellem middelværdierne af observationerne fra Trueview tællekameraerne og CMX-systemet, som henter data fra 220 wifi access points i Dokk1. I gennemsnittet tæller CMX-systemet flere besøgende end Trueview tællekameraerne. Sammenligner man forholdet mellem middelværdierne er antal devices fra CMX omtrent 1,44 gange så stor, som besøgstal fra Trueview.
  • SPØRGSMÅL: Hvorfor sporer CMX flere devices end Trueview? CMX tæller antal devices, hvorimod besøgstælleren tæller mennesker. Hvordan er forholdet mellem antal personer og devices? Er data fra CMX valide i forhold til at kunne danne et dækkende billede af børn og unges ophold og færden i Dokk1? Hvorfor bliver forskellen større i weekenden sammenlignet med hverdagene?
  • FORSLAG: Man kunne forsøge at lave flere analyser for at opklare de ovenstående spørgsmål om forholdet mellem devices og personer. Vi har i forvejen et forbehold overfor data fra wifi-sensorer, da Alexandra Instituttets analyse blandet andet viser at ca. 30% devices spoofer deres MAC adresser. Derudover er der andre forbehold, som er relateret til nøjagtigheden af enhedernes positionering og øvrige usikkerheder, der forklares nærmere i afsnittet om WiFi-tracking[2]. Opklaringen af de ovenstående spørgsmål har stor betydning for forståelsen af faktoren med hvilket CMX opfanger flere devices end antal besøgende. Kender man denne, kan tal fra CMX-systemet potentielt bruges til at analysere brugernes færden og opholdstid i zoner – og ikke kun deres devices.

Besøgstal fra Trueview tællekameraerne og data fra afleveringsanlægget

  • FORTOLKNING: Vi observerer en signifikant, positiv lineær sammenhæng mellem antallet af besøgende og antal afleveringer. Sammenhængen tyder på, at brugen af medier i form af afleveringer stadig udgør en væsentlig del af brugeraktiviteten på biblioteket.
  • SPØRGSMÅL: Er det de samme brugere, som bruger medierne på biblioteket? Kommer brugerne kun fra Hovedbibliotekets nærområder, eller i hvor stor grad, kommer de fra andre lokalområder i Aarhus – eller andre kommuner? Bliver de på biblioteket efterfølgende?

Antal arrangementsdeltagere sammenholdt med besøgstal fra Trueview tællekameraerne

  • FORTOLKNING: Vi observerer at det i gennemsnit er 3.5% af brugerne på Dokk1, der til daglig deltager i arrangementerne. Der er i gennemsnit 125 deltagere per dag.

Antal arrangementer sammenholdt med antal personlige henvendelser til personalet

  • FORTOLKNING: Vi observerer en væsentlig positiv lineær sammenhæng mellem antal henvendelser og antal arrangementer, baseret på stikprøver fra uge 14, 18 og 37. Mere præcist ser vi en stærk korrelation mellem antallet af arrangementer og hhv. vejvisnings- og faglige henvendelser.
  • SPØRGSMÅL: Hvad skyldes den positive sammenhæng mellem antallet af henvendelser og antallet af afholdte arrangementer for en given dag?
  • FORSLAG: Man kunne undersøge korrelationen nærmere i forhold til formidling af informationer til brugerne, skiltning, wayfinding og bemanding. Analysen lægger op til en diskussion om hvilke behov, brugerne forsøger at få dækket og hvilke tiltag, man kunne tage for at imødekomme disse behov.

Trueview tællekamera-data sammenholdt med antal personlige henvendelser

  • FORTOLKNING: Vi observerer en overordnet positiv sammenhæng mellem besøgstal og antal personlige henvendelser i stikprøven, som indeholder manuelle tællinger af antal henvendelser fra uge 14 og 18, 2017. Dog er sammenhængen ikke statistisk signifikant nok til at man kan generalisere denne sammenhæng.
  • SPØRGSMÅL: Er der behov for en større stikprøve for at teste sammenhængen yderligere? Er der en positiv sammenhæng i denne stikprøve, fordi besøgstallet er afhængig af, at brugerne kan henvende sig til bibliotekspersonalet? Eller er der en positiv sammenhæng fordi antal besøgende kan påvirke antallet af henvendelser? Viden om, hvilken variabel, der forårsager den anden kan klargøre effekten af f.eks. justering af bemanding, wayfinding og andre tiltag.
  • FORSLAG:  Gentag analysen med et større datagrundlag.

 

En udførlig gennemgang af de ovenstående analyser findes her [.docx]

Et eksempel på et oplæg til et strategisk ledelsesforum med analyser af data om brugernes ophold og færden i bibiblioteksrum kan læses her [.docx]

 

[1] Læs mere om brugen af kvantitative og kvalitative data her 

[2] Læs afsnittet om spoofing m.m. under Wifi-tracking i værktøjskassen

rev. 22. september 2017 // Anh Minh Nguyen // nmian@aarhus.dk

 

Sidsel Bech-Petersen