Versnel ETL met HadoopDeel 1 - Big data uitdagingen

De hoeveelheid data in de wereld neemt alsmaar toe en er wordt geschat dat in het jaar 2025 tien keer zoveel data wordt gecreëerd dan in 2016. Tegelijkertijd wordt geschat dat de data die onderworpen wordt aan analyse met een factor vijftig groeit. Deze data komt van toenemend verschillende bronnen zoals Internet of Things apparaten (IDC, 2017). Al deze data moet worden beheerd en dit neemt vele uitdagingen met zich mee om dit in goede banen te leiden. In deze blog serie gaan we komende weken ontdekken hoe we ETL processen kunnen versnellen met Hadoop.

 3 november 2017

Bedrijven hechtten steeds meer waarde aan hun data, omdat ze op basis van deze data betere en snellere beslissingen kunnen maken. Deze data kan leiden tot bijvoorbeeld concurrentievoordeel, het ontdekken van nieuwe kansen en het identificeren van inefficiënte business processen. Deze hoeveelheid data kan enorm groot zijn en er wordt dan ook wel over ‘big data’ gesproken. Gartner geeft de volgende definitie van big data:

“Big data is high-volume, -velocity and -variety information assets that demand cost-effective, innovative forms of information processing for enhanced insight and decision making”.

Een datahoeveelheid kan relatief groot zijn, zo kan één terabyte voor een bakker op de hoek enorm groot zijn, maar voor Google is dit een zeer kleine hoeveelheid. De eigenschap grootte van data is niet de enige eigenschap die big data definieert. Iedereen die iets met big data heeft gedaan kent wellicht de vijf karakteristieken die big data omschrijven (ook wel de 5V’s genoemd):

  • Volume
  • Variety
  • Velocity
  • Value
  • Veracity

Het in goede banen leiden van big data komt met verschillende uitdagingen, waaronder het opslaan van data, computer berekeningsefficiëntie, dataverlies en kosten.

Opslaan van data

Traditionele oplossingen zoals een relationele database zijn niet geschikt om semigestructureerde en ongestructureerde data op te slaan. Dit is data waar veel potentiele waarde inzit om de besluitvorming te verbeteren, deze kansen worden onbenut.

Computer berekeningsefficiëntie

Bij traditionele oplossingen is het mogelijk om verticaal te schalen, dit wil zeggen dat de hardware kan worden geüpgraded, zodat query’s sneller kunnen worden uitgevoerd. Maar dit upgraden kan niet onbeperkt doorgaan en is bovendien niet kosteneffectief. Het is ook mogelijk om de query’s te optimaliseren, maar dit heeft ook zijn grenzen. Deze uitdagingen zorgen dat het analyseren van grote data sets te veel tijd kosten.

Dataverlies

Data kan corrupt raken door bijvoorbeeld hardware falen. Om dit te voorkomen worden dure back-up oplossingen geïmplementeerd.

Kosten

De kosten van traditionele databases kunnen snel oplopen bij het verwerken van een steeds grotere data hoeveelheid, met name door de extra resources die moeten worden ingezet.

Traditionele oplossingen voor het verwerken van enkel gestructureerde data zijn niet geschikt om horizontaal te schalen en zijn duur. Met een data warehouse van Oracle, Teradata of Microsoft kan je grote hoeveelheden gestructureerde data uit verschillende bronnen samen te voegen op één plek. Dit wordt mogelijk gemaakt door het proces ETL: extract, transform en load.

Extract: De data wordt als eerst uit het bronsysteem gehaald.
Transform: De data wordt genormaliseerd en getransformeerd naar het gewenste formaat.
Load: De data wordt geladen in het datawarehouse.

Hoe vaker deze data wordt geladen des te meer bijgewerkt de rapportages en analyses zijn. Dit vereist wel een technische infrastructuur om dit mogelijk te maken. Een andere uitdaging is om deze data zo snel mogelijk in een analytische database / data warehouse te krijgen, zodat er daadwerkelijk wat met deze data kan worden gedaan. Dit is een proces dat lang kan duren en het komt dan ook regelmatig voor dat een ETL proces nog bezig is met verwerken van data terwijl de rapportages al beschikbaar moeten zijn. In onderstaande grafiek geven bedrijven aan (n=502) hoelang een ETL proces kan duren (IDC, 2017).

ETL Hadoop
Om deze eerder genoemde uitdagingen te overwinnen zijn we vanuit Ebicus aan het onderzoeken hoe wij Hadoop kunnen inzetten om een traditionele ETL oplossingen te versnellen. Hadoop is een open-source software framework gemaakt voor het parallel verwerken van data en is gemakkelijk en goedkoop horizontaal te schalen. Arthur heeft in een vorige blogpost de belangrijkste componenten van Hadoop beschreven en legt zelfs uit hoe jij een eigen Hadoop cluster kan bouwen!

In de volgende blog post gaan we dieper in op Hadoop als ETL oplossing. Wordt dus vervolgd!

Lees ook onze big data blog serie

BLOG SERIE: BIG DATA STEP BY STEP

Wil je zelf aan de slag met big data? Arthur Vogels schreef een vierdelige blogserie waarin hij een introductie geeft tot de materie en experimenten toelicht met MapReduce en HBase.

Start de blogserie

Geef een reactie


Big Data: is het een hype? Is het een modewoord? Of is het inderdaad de zegen die sommigen erin zien? Wat ons betreft dat laatste natuurlijk. Zeker in een wereld waar klantbeleving steeds belangrijker wordt. Wat kunnen wij allemal met big data?

Stay updated

Wij willen je graag op de hoogte houden van het nieuws rondom onze diensten die jou interesseren. Het enige wat je daar voor dient achter te laten zijn jouw mailadres en je voornaam. Vanaf dat moment zullen we je van tijd tot tijd een Ebicus update sturen.





Advies en ondersteuning bij jouw big data vraagstukken?