Data opslagplaats
Wat is data warehousing?Data warehousing is de elektronische opslag van een grote hoeveelheid informatie door een bedrijf of organisatie. Data warehousing is een essentieel onderdeel van business intelligence dat analytische technieken op bedrijfsdata gebruikt.
Het concept van data warehousing werd in 1988 geïntroduceerd door IBM-onderzoekers Barry Devlin en Paul Murphy. De noodzaak om data in het magazijn te evolueren naarmate computersystemen complexer werden en steeds grotere hoeveelheden gegevens verwerkte. Een belangrijk boek over data warehousing is WH Inmon's "Building the Data Warehouse", dat voor het eerst werd gepubliceerd in 1990 en sindsdien meerdere malen is herdrukt.
Hoe Data Warehousing werkt
Datawarehousing wordt gebruikt om meer inzicht te geven in de prestaties van een bedrijf door gegevens uit meerdere heterogene bronnen te vergelijken. Een datawarehouse is ontworpen om query's en analyses uit te voeren op historische gegevens afkomstig van transactiebronnen.
Als de gegevens eenmaal in het magazijn zijn opgenomen, veranderen ze niet en kunnen ze niet meer worden gewijzigd, omdat een gegevensmagazijn analyses uitvoert op gebeurtenissen die zich al hebben voorgedaan door zich te concentreren op de wijzigingen in gegevens in de loop van de tijd. Opgeslagen gegevens moeten worden opgeslagen op een manier die veilig, betrouwbaar, gemakkelijk op te halen en te beheren is.
Er zijn bepaalde stappen die worden ondernomen om een datawarehouse te maken. De eerste stap is gegevensextractie, waarbij grote hoeveelheden gegevens worden verzameld uit meerdere bronpunten. Nadat de gegevens zijn verzameld, gaat het door het opschonen van gegevens, het proces van het doorzoeken van de gegevens op fouten en het corrigeren of uitsluiten van gevonden fouten.
De opgeruimde gegevens worden vervolgens geconverteerd van een database-indeling naar een magazijnindeling. Nadat de gegevens in het magazijn zijn opgeslagen, worden ze gesorteerd, geconsolideerd, samengevat, enz. Zodat ze beter gecoördineerd en gemakkelijker te gebruiken zijn. Na verloop van tijd worden er meer gegevens aan het magazijn toegevoegd naarmate de meerdere gegevensbronnen worden bijgewerkt.
Belangrijkste leerpunten
- Data warehousing is de elektronische opslag van een grote hoeveelheid informatie door een bedrijf of organisatie.
- Een datawarehouse is ontworpen om query's en analyses uit te voeren op historische gegevens afkomstig van transactiebronnen voor business intelligence en data mining-doeleinden.
- Datawarehousing wordt gebruikt om meer inzicht te geven in de prestaties van een bedrijf door gegevens uit meerdere heterogene bronnen te vergelijken.
Speciale overwegingen: datamining
Bedrijven kunnen magazijngegevens gebruiken voor gebruik bij exploratie en datamining, op zoek naar informatiepatronen die hen kunnen helpen hun bedrijfsprocessen te verbeteren. Een goed data warehousing-systeem kan het ook voor verschillende afdelingen binnen een bedrijf gemakkelijker maken om toegang tot elkaars gegevens te krijgen.
Een datawarehouse kan een bedrijf bijvoorbeeld in staat stellen om eenvoudig de gegevens van het verkoopteam te beoordelen en beslissingen te nemen over hoe de verkoop te verbeteren of de afdeling te stroomlijnen. Het bedrijf kan ervoor kiezen om zich te concentreren op het bestedingspatroon van zijn klanten om zijn producten beter te positioneren en de verkoop te verhogen.
Met data warehousing kan het bedrijf historische gegevens verzamelen over de uitgaven van zijn klanten in de afgelopen 20 jaar - en analyses uitvoeren op deze gegevens. De resulterende informatie kan inzicht geven in de voorkeuren van zijn consumenten; het tijdstip van de dag, maand of jaar met grotere verkopen; of klant met de hoogste besteding voor het jaar.
Effectieve gegevensopslag en -beheer maken ook processen mogelijk, zoals het boeken van reisreserveringen en het gebruik van geldautomaten.
Het dataminingproces bestaat uit vijf stappen:
- Organisaties verzamelen gegevens en laden deze in hun datawarehouses.
- Ze slaan de gegevens vervolgens op en beheren deze, op eigen servers of in de cloud.
- Bedrijfsanalisten, managementteams en IT-professionals hebben toegang tot de gegevens en bepalen hoe ze deze willen organiseren.
- Applicatiesoftware sorteert vervolgens de gegevens op basis van de resultaten van de gebruiker
- De eindgebruiker presenteert de gegevens eindelijk in een gemakkelijk te delen formaat, zoals een grafiek of tabel.
Gegevensopslag versus databases
Een datawarehouse is niet noodzakelijk hetzelfde concept als een standaarddatabase. Een database is een transactiesysteem dat is ingesteld om realtime gegevens te controleren en bij te werken, zodat alleen de meest recente gegevens beschikbaar zijn. Een datawarehouse is geprogrammeerd om gestructureerde gegevens over een bepaalde periode te verzamelen. Een database kan bijvoorbeeld alleen het meest recente adres van een klant hebben, terwijl een datawarehouse mogelijk alle adressen heeft waar de klant de afgelopen 10 jaar heeft gewoond.
Vergelijk beleggingsrekeningen Aanbieder Naam Beschrijving Adverteerder Openbaarmaking × De aanbiedingen die in deze tabel worden weergegeven, zijn afkomstig van samenwerkingsverbanden waarvan Investopedia een vergoeding ontvangt.