Mitä on datan integraatio?

Data Integration on the Mechanism of Metal Gears.Perinteisesti integrointi ja ELT/ETL ovat olleet erotettuja prosesseja. Tämä tarkoittaa sitä, että integrointi koostuu kokonaisista järjestelmistä, jotka on integroitu muihin järjestelmiin. Ja toisaalta ELT/ETL koostuu perinteisesti vain tietyistä järjestelmän osista, jotka integroidaan muihin järjestelmiin. Tässä kirjoituksessa pohditaan integraation sisältävän nämä kummatkin maailmat.

Periaatteessa integraatio on datan siirtämistä järjestelmästä yhdistettyyn järjestelmään siten, että data on käyttökelpoista siinä järjestelmässä, johon se päätyy.

Streamit, batchit ja eventit

Data voidaan ladata streameiksi, eriksi tai tapahtumiksi. Streami tarkoittaa jatkuvaa tietojonoa, jota käsitellään kohdejärjestelmässä. Streamit ovat yleensä perustana reaaliaikaisille tai lähes reaaliaikaisille järjestelmille. Useimmissa streameissa on käytössä puskuri virheenkäsittelyn helpottamiseksi ja jotta data ei katoaisi virhetilanteessa niin helposti.

Tietojen lataaminen erissä tarkoittaa sitä, että latausten toistumistiheys ei ole vakio. Data kerätään erissä, minkä jälkeen se ladataan muodostuneista datakasoista kohdejärjestelmään. Erien latauksessa data ei tavallisesti voi olla yhtä reaaliaikaista kuin tapahtuma- tai streamikohtaisessa latauksessa. Johtuen korkeasta datan prosessoinnin tehonkulutuksesta perinteisissä tietokannoissa erälataukset on suoritettu yöllä, jolloin datalle ei ole käyttäjiä.

Tapahtumapohjainen lataus tarkoittaa järjestelmää, jossa on laukaisimia, joilla käynnistetään toimenpiteitä, kun datassa tapahtuu muutos ja nämä laukaisimet aiheuttavat datan lataantumisen kohdejärjestelmään/-järjestelmiin. Datan sisään luvun näkökulmasta tapahtumapohjaiset lataukset ovat melko samanlaisia kuin streamipohjaisessa järjestelmässä. Lähdejärjestelmän puolelta, streamit ja tapahtumat ovat hyvin erilaisia. Streamipohjaisessa järjestelmissä on ohjelma, joka muodostaa streamin lähdejärjestelmän päässä. Tapahtumapohjaisessa latauksessa on taas ainoastaan laukaisin ja joitakin toimenpiteitä, jotka kutsuvat laukaisinta.

Datan määrä

Big Data -, IoT- ja Data lakes -käsitteiden aikakaudella integroitavan datan määrä on kasvanut räjähdysmäisesti. Tietojenkäsittelyn perusteet ovat pysyneet melko samoina. Sinulla pitää olla ymmärrys omasta datastasi, jotta pystyt muodostamaan relevantteja kysymyksiä ja tätä kautta löytämään vastauksia suuresta datamäärästä. Lisäksi nykyisessä maailmassa datan siirto yleensä maksaa. Jos sinulla on ainakin jokin ajatus siitä mikä data on tärkeää ja mikä ei, sinun ei tarvitse integroida kaikkea, jolloin voit valita datastasi vain ne osat, joita todella tarvitset.

Pilvipohjaiset järjestelmät tekevät paljon helpommaksi ja halvemmaksi käsitellä suuria datamääriä.
Datan varastointi niissä on yleensä halvempaa kuin paikan päällä olevissa järjestelmissä. Integrointi eri järjestelmistä on myös helpompaa, kun pilvijärjestelmiin on tehty valmiita integraatiorajapintoja – sinun ei tarvitse selvittää kaikkea itse. Datavarastoinnin skaalaus pilvessä tapahtuu välittömästi tai vähäisellä vaivalla verrattuna varastoinnin lisäämisen tarpeisiin on premise -järjestelmissä.

 business man drawing a business plan on screen over a white background

Datan puhdistaminen, liittäminen, master data, datan mallinnus

Koneoppiminen on asia, jota jokainen data-analyysiä tekevä yritys haluaa sanoa tekevänsä. Se, mitä he todella tekevät (suurimman osan ajasta), on datan puhdistusta ja uudelleenjärjestelyä. Koneoppiminen ei ole hirveän hyödyllistä, jos opiskeltava data on huonoa. Yleensä integroitu data on puhdistettava ja järjesteltävä uudelleen, jotta data täyttää tavoitesysteemin standardit.

Integroitaessa useita järjestelmiä yhteen tarvitaan myös yhteisiä ominaisuuksia. Tietorakenteet pitää tehdä toisiaan vastaaviksi, jotta niitä voidaan käyttää esimerkiksi raportoinnissa yhdessä. Jos eri järjestelmillä on eri datatyypit samoille entiteeteille tai eri päivämäärämuodot, niin ne on hyvin vaikea liittää yhteen ja vertailla niitä keskenään. Jos dataa ei ole integroitu varsinaiseen datatasoon niin eri järjestelmät pysyvät omissa siiloissaan.

Master datan hallintaa käytetään yleensä erilaisten dataentiteettien kartoittamiseen tarkoittamaan samaa asiaa. Käyttämällä master datan hallintajärjestelmää eri järjestelmien eri tilinumerot voidaan kartoittaa tarkoittamaan samaa tiliä. Sen avulla voidaan myös muuntaa brittiläisen mittajärjestelmän arvot vastaamaan metrijärjestelmän arvoja (jaardit metreiksi, Fahrenheit-lämpötilat Celsius-asteiksi jne.).

Kun olet tehnyt näin monia muutoksia ja integroinut useita järjestelmiä yhdeksi, miten pystyt muistamaan, mitä on tehty? Vastaus löytyy datan mallinnuksesta. Tietomallinnus tulisi tehdä samanaikaisesti integraatioiden kanssa, jotta integroitu systeemi on aina ajan tasalla. Hyvä tietomalli dokumentoi integroidun järjestelmän. Se luo alustan keskustelulle omistajien ja IT-henkilöstön välille. Todellisen fyysisen datamallin lisäksi tietomallin tulisi sisältää informaatiota tietovirroista (lähdejärjestelmästä kohteen tietokantatauluihin) sekä datan sanaston (luonnollisen kielen selitykset dataentiteeteille).

Reaaliaikaisuuden integrointi

Tarpeellisuus reagoida välittömästi uhkiin ja mahdollisuuksiin on lisääntynyt. Sinun pitäisi kysyä itseltäsi: mitä reaaliaikaisuus tarkoittaa sinulle? Tarkoittaako se välitöntä, sekunteja, minuutteja vai jopa tunteja? Jos integraatioon käytetään tarpeeksi rahaa ja vaivaa, kaikki näistä vaihtoehdoista ovat mahdollisia.  Mitä nopeammin haluat, että data on käytettävissä, sitä enemmän se maksaa sekä sitä enemmän sinun on nähtävä vaivaa integrointijärjestelmän rakentamiseen ja operaatioiden seurantaan.

Paras paikka integraatioalustalle on pilvi huolimatta siitä minkä reaaliaikaisen ratkaisun valitset. Ratkaisut toimivat vain murto-osalla niistä kustannuksista mitä ne ennen maksoivat. Lisäksi nykyään suunnitteluun käytetty aika on huomattavasti pienempi verrattuna paikan päällä oleviin alustoihin.  Olemme rakentaneet pilveen teratavun kokoisia ratkaisuja, jotka toimivat niin nopeasti, että et olisi koskaan voinut kuvitella sitä lähimenneisyydessä.