Improving foundations of file recovery

Research output: ThesisDoctoral ThesisThesis 2: defended at OU & OU (co)supervisor, external graduate

Abstract

Het herstellen van verwijderde computerbestanden is een belangrijk onderdeel van
digitaal forensisch onderzoek. Het proces waarbij computerbestanden worden hersteld van een opslagmedium (zoals een harde schijf, USB-stick of geheugenkaart)
zonder de bijbehorende metadata, wordt ook wel file carving genoemd. Dit
proefschrift heeft als doel de fundamenten van bestandsherstel te verbeteren.
Dat gebeurt door onze kennis over de factoren die het succes van bestandsherstelinspanningen be¨ınvloeden te vergroten, en door het ontwerpen, implementeren
en valideren van relevante artefacten die hun haalbaarheid en effectiviteit aantonen.
Er zijn veel factoren die het herstel van verwijderde bestanden compliceren,
zoals de steeds groter wordende opslagcapaciteit van apparaten, en de toenemende
hoeveelheid locaties waarop gegevens worden opgeslagen. Daarnaast verliest de
klassieke harde schijf steeds meer terrein aan nieuwe opslagmedia zoals solid-state
drives (SSD’s), en ook het gebruik van cryptografie en cloudopslag vormen extra
barri`eres bij bestandsherstel. Een bijzonder complicerende factor voor bestandsherstel is bestandsfragmentatie, waarbij bestanden opgesplitst worden in meerdere
fragmenten die op verschillende locaties op het opslagmedium terechtkomen.
Voorafgaand aan dit onderzoek was de meest recente studie naar bestandsfragmentatie al sterk verouderd, waardoor er een gebrek aan actuele gegevens ontstaan
was voor het digitaal forensisch vakgebied. Daarom begint dit proefschrift met
het ontwerp en de ontwikkeling van een artefact om bestandsfragmentatie te
meten op computers die actief in gebruik zijn. Gezien de belangrijke rol van
computers (waaronder laptops) in ons leven, die enorme hoeveelheden persoonlijke
informatie bevatten, moet het onderzoeken van de inhoud van een opslagmedium
op een privacyvriendelijke manier worden uitgevoerd. Ons artefact is daarom
ontwikkeld met het privacy-by-design principe. Dit artefact hebben we gebruikt
om gegevens te verzamelen van meer dan 200 laptops van studenten van Zuyd
Hogeschool. Deze gegevensverzameling toonde niet alleen de werking van onze
methodologie en het artefact, maar resulteerde ook in de grootste dataset over bestandsfragmentatie sinds 2007.
Deze gegevensverzameling laat zien dat, hoewel de gemiddelde fragmentatiegraad is gedaald (grotendeels door de geautomatiseerde defragmentatieprocessen), de totale hoeveelheid gefragmenteerde data is gestegen. Dit is een trend
die gekoppeld is aan de toenemende capaciteit van harde schijven. Opvallend
genoeg bleek bijna de helft van alle gefragmenteerde bestanden out-of-order
gefragmenteerd te zijn, een patroon van bestandsfragmentatie dat niet wordt
geadresseerd door huidige file carving tools.
De verzamelde dataset maakt het ook mogelijk om timestamps gedetailleerd te
bestuderen, inclusief hun aanpassing en het effect van bestandsoperaties op deze
timestamps. Door de toestand van een bestand te onderzoeken voor specifieke
bestandsoperaties en de inverse effecten van deze operaties op timestamps te
analyseren, konden we potenti¨ele bestandsgeschiedenissen reconstrueren. Deze
methodologie, inclusief de visualisatie ervan, is gedemonstreerd en geautomatiseerd
met de ontwikkeling van een tweetal artefacten.
Het proefschrift richt zich vervolgens op het JPEG-bestandsformaat, dat forensisch gezien het meest relevante bestandsformaat voor foto’s is. Door het gebrek
aan effectieve algoritmen voor het identificeren van fragmentatiepunten in JPEGbestanden, vormt het herstellen van deze bestanden een significante uitdaging.
Na een diepgaande analyse van het JPEG-decoderingsproces hebben we een validatiealgoritme voor JPEG-bestanden ontwikkeld. Dit algoritme onderscheidt zich
van veel bestaande benaderingen doordat het werkt op deterministische principes,
wat garandeert dat het consequent identieke resultaten oplevert bij identieke
invoer. In forensisch onderzoek is de reproduceerbaarheid van bevindingen een
belangrijke eis, en ons algoritme voldoet aan deze standaard.
We hebben dit algoritme ge¨ımplementeerd met brede ondersteuning voor
alle momenteel gebruikte JPEG-bestandsformaatvariaties. Om de prestaties te
evalueren, met name bij het detecteren van fragmentatiepunten binnen de entropycoded data-secties van JPEG-bestanden, hebben we een aanzienlijke dataset van
JPEG-bestanden samengesteld die ’in het wild’ zijn aangetroffen. Dit algoritme
heeft een rigoureuze en uitgebreide test ondergaan, waarbij het is toegepast op een
breed scala aan JPEG-bestanden, met zowel baseline- als progressive formaten.
De resultaten zijn bijzonder overtuigend: in average-case scenario’s werd het
fragmentatiepunt gedetecteerd in 99,997% van de gevallen (voor baseline JPEG’s)
binnen 4 kilobytes (de meest voorkomende blokgrootte van NTFS). Zelfs onder de
meest moeilijke omstandigheden werd een detectiepercentage van 99,4% bereikt.
Deze resultaten bewijzen niet alleen de effectiviteit van het algoritme, maar leiden
ons ook tot de conclusie dat het lang bestaande probleem van het detecteren van JPEG-fragmentatiepunten is opgelost.
Met het oog op de toekomst willen we, met de kennis van fragmentatiepatronen en een bewezen effectieve JPEG-validator, een framework voor file carving
ontwerpen en implementeren dat zowel in-order als out-of-order fragmentatie
ondersteunt. Dit zal de mogelijkheden van forensisch onderzoekers om verwijderde
foto’s te herstellen aanzienlijk verbeteren.
Original languageEnglish
QualificationPhD
Awarding Institution
  • Open Universiteit: faculties
Supervisors/Advisors
  • Vranken, Harald, Supervisor
  • Van den Bos, Dr. Ing. J., Co-supervisor, External person
  • Jonker, Hugo, Co-supervisor
Award date5 Sept 2024
Publisher
Print ISBNs 978-94-6510-001-2
Publication statusPublished - 5 Sept 2024

Fingerprint

Dive into the research topics of 'Improving foundations of file recovery'. Together they form a unique fingerprint.

Cite this