Hur mycket data bör man egentligen ha för att det ska vara värt att ta steget upp i molnet? DNV GL hade redan sin blick mot skyarna genom sin insamling av klimatdata. Numera en ansenlig mängd data, uppgående till runt 450 TB.

Dagsläget

Idag använder sig deras dataanalytiker av Python, R och diverse kommandorads-verktyg för att analysera och visualisera klimatdatan, som är lagrad i NetCDF-filer hos ett amerikanskt forskningsinstitut. Det är en lösning som fungerat väl i många år, men som också har flera baksidor. Verktygen behandlar nämligen filerna sekventiellt, vilket gör det hela till en extremt tidskrävande process att exempelvis beräkna kommande klimatförändringar. Dessutom tar det ju upp väldigt mycket utrymme, vilket forskningsinstitutet gärna vill frigöra sig från. Den enda lösningen på detta är såklart att flytta på datan, men frågan är vart? Blickarna höjdes, som alltid, mot molnen.

Molnet

Därmed inleddes ett pilotprojekt för att få upp data i molnet, vilket är var jag kom in i bilden. Genom att använda Azure Data Lake Analytics kunde vi nämligen parallellisera analysjobben av indata-filerna. Detta ledde till att analysjobb som tidigare tog många timmar att köra, nu bara tog några minuter! Deras dataanalytiker kommer därför kunna vara betydligt mer effektiva i sitt arbete framöver.

Mot horisonten

På grund av kostnadsskäl har dock DNV GL valt att avvakta med att implementera ytterligare analysjobb i Azure Data Lake Analytics. Kostnaden för att lagra 450 TB i Azure Data Lake Store är nämligen drygt 1 miljon kr/år, så de behöver först se över om det finns ett business case som motiverar den investeringen.

En annan brasklapp för flytt av sådana här mängder data är att det är väldigt tidskrävande. Det skulle förmodligen ta flera månader att ladda upp 450 TB via internet, så om flytten ska bli av kommer de förmodligen behöva ladda över datan på fysiska hårddiskar som sedan kan skeppas över till Microsoft.

Detta blogginlägg är en del av en bloggserie om vår implementering av Azure Data Lake hos DNV GL. Nästa inlägg blir mer tekniskt och kommer att fokusera på vilka fördelar som Azure Data Lake Analytics kan ge.