COMPUTERWORLD
pod kapotou
(Velko)sklady dat

V historii °ady databßzov²ch technologiφ je zajφmavΘ pozorovat, jak jsou Φasto vynuceny zm∞nou po₧adavk∙, v tomto p°φpad∞ na databßzovΘ systΘmy. KlφΦovΘ problΘmy, kterΘ se objevily u b∞₧n²ch transakΦnφch databßzov²ch systΘm∙, je mo₧nΘ shrnout nßsledovn∞:

  • nedosa₧itelnost dat skryt²ch v transakΦnφch systΘmech,
  • dlouhΘ prodlevy, kdy₧ se nedostateΦn∞ silnΘ systΘmy pokouÜely provΘst komplikovanΘ dotazy,
  • slo₧itß, u₧ivatelsky nep°φjemnß rozhranφ k databßzovΘmu software,
  • cena v administrativ∞ a slo₧itosti v podpo°e vzdßlen²ch u₧ivatel∙,
  • sout∞₧enφ o poΦφtaΦovΘ zdroje mezi transakΦnφmi systΘmy a systΘmy podporujφcφmi rozhodovßnφ.

DW se staly dlouhodobou cestou k °eÜenφ t∞chto problΘm∙. Dostupnost a rozÜi°itelnost pam∞tφ kombinovan²ch s levn∞jÜφmi paralelnφmi procesory a nov²m analytick²m softwarem dovolily vyvinout v r. 1996 tisφce DW. VyÜÜφ Φlßnky °φzenφ obdr₧ely p°ßtelÜt∞jÜφ a siln∞jÜφ dotazovacφ a analytickΘ prost°edky.

Z pion²r∙ v technologii DW jmenujme firmu IBM, kterß publikovala jeden z prvnφch Φlßnk∙ v Φasopise IBM Journal o tΘto problematice ji₧ v r. 1988. Jsou vÜak DW pouze zvlßÜtnφm druhem databßze? K. Strange (Gartner Group) oznaΦuje jako DW architekturu, obvykle zalo₧enou na relaΦnφm S╪BD, kterß se pou₧φvß pro ·dr₧bu historick²ch dat zφskan²ch z databßzφ operativnφch dat, kterß byla transformovßna, sjednocena a zkontrolovßna p°ed jejich pou₧itφm v databßzi DW.

Uvedenß definice obsahuje klφΦovou idea DW, sice sjednocenφ Φi integraci dat. ╚asto nejde pouze o integraci dat z vlastnφch operativnφch databßzφ, ale i o p°ipojenφ dalÜφch externφch dat.

K. Shahin (CEO Kenan Systems Corporation) upozor≥uje na analogii s pr∙myslem. V∞tÜina v²robnφch podnik∙ bez ohledu na v²sledn² produkt rozliÜuje t°i stßdia dodßvky: v²robu, skladovßnφ/distribuce a prodej. V souvislosti s dodßvßnφm dat u₧ivateli m∙₧eme v IS/IT rozliÜit stejnß stßdia (obr. 1).

V²roba Φi produkce dat se objevuje v klasick²ch transakΦnφch systΘmech vyu₧φvajφcφch databßze, tj. systΘmech, kterΘ se Φasto oznaΦujφ OLTP (On-line Transaction Processing Systems). Tyto systΘmy jsou optimalizovßny pro ·dr₧bu velkΘho mno₧stvφ dat slou₧φcφch

 

 

 

 

 

Obr. 1 T°i stßdia dodßvßnφ dat

hlavn∞ pro operativnφ ·Φely. Pou₧itφ t∞chto dat je pro u₧ivatele pom∞rn∞ obtφ₧nΘ, zvlßÜt∞ chce-li nad nimi provßd∞t anal²zy. V²sledkem m∙₧e b²t mnoho slo₧it²ch dotaz∙ nap°. v SQL, ruΦnφ kombinace jejich v²sledk∙ apod. Podobn∞ jako v²robky, je ₧ßdoucφ data pro odbyt ôvytßhnout z v²roby a p°ebalitö. A toto je prßv∞ zßm∞rem skladovßnφ dat, tj. vzniku DW.

Z hlediska databßzov²ch dotaz∙ se nad DW objevujφ dotazy novΘho typu. Jestli₧e nad operativnφmi daty byly b∞₧nΘ dotazy selektivnφ, nap°. ôPoskytni ·daje o zßkaznφcφch z firem, kterΘ majφ minimßlnφ roΦnφ obrat 100 mil. KΦö, pro DW jsou charakteristickΘ dotazy intenzivnφ na data, jako nap°. ôKolik podvozk∙ bylo dodßno do V²chodoΦeskΘho kraje za poslednφ Φtvrtletφ v mno₧stvφ v∞tÜφm ne₧ 2000 a jak velk² byl dosa₧en zisk v porovnßnφ se stejn²m obdobφm v minulΘm roceö.

S pokraΦujφcφ redukcφ st°ednφch Φlßnk∙ °φzenφ, kterΘ poskytovaly rozbory dat ruΦn∞, by m∞l DW poskytnout podobnΘ, nebo spφÜe mnohem kvalitn∞jÜφ slu₧by, tj. umo₧nit zφskßvat strategickΘ Φi strategicko-taktickΘ informace. ╚φm strategiΦt∞jÜφ je myÜlenφ, tφm v∞tÜφ je pot°eba dotaz∙ intenzivnφch na data. Informace, kterΘ nabφzejφ DW, nejsou zφskßny z b∞₧n²ch operativnφch dat p°φmo. N∞kdy z nich ani nejsou dostupnΘ, uvß₧φme-li nap°. pot°ebu pou₧φt historickß data, kterß se ji₧ nenachßzejφ v operativnφ databßzi. Zßm∞rem DW je poskytnout ne operativnφ data, by¥ v zajφmav²ch logick²ch souvislostech, n²br₧ tato data p°em∞n∞nß ve strategickΘ informace.

DW se pou₧φvajφ pro prezentaci dat, testovßnφ hypotΘz, objevovßnφ nov²ch informacφ, tj. to, Φemu se dnes °φkß dolovßnφ dat (data mining). Op∞t ale ne p°φmo, spφÜe prost°ednictvφm dalÜφho specializovanΘho software Φi slo₧it∞jÜφch architektur.

DW poskytujφ jistou novou hodnotu pro znalosti u₧ivatele danou Üφ°φ pohledu (DW obvykle integrujφ data z vφce zdroj∙), vyΦiÜt∞nφm dat (zohledn∞nφ sΘmantick²ch rozdφl∙, transformacφ jednotek apod.), hloubkou pohledu (mo₧nosti r∙zn²ch ·rovnφ agregace). Agregace vedou k tomu, ₧e jsou data p°edklßdßna u₧ivateli na rozdφl od relaΦnφ technologie nenormalizovanß. Nenormalizovanß je i jejich implementace

T°etφm krokem je ôprodej datö, kdy pohled na data by m∞l b²t orientovßn vysoce u₧ivatelsky. Jde vlastn∞ o to vyu₧φt metody statistiky, modelovßnφ trend∙ apod. tak, aby se tyto techniky staly u₧ivateli z hlediska jeho dotaz∙ transparentnφ. Odpovφdajφcφ systΘm je potom typu OLAP (On-Line Analytical Processing). Tyto systΘmy jsou optimalizovßny pro rychl² v²b∞r dat, sumarizace, analytickΘ zpracovßnφ velk²ch objem∙ dat. Cφlem je poskytnout hodnotnΘ informace z velk²ch objem∙ dat.

V souvislosti s DW se takΘ Φasto hovo°φ o multidimenzionßlnφ databßzi (MDD). Nejde o stßdium dodßvßnφ dat, ale o typ databßzovΘ technologie. V p°edchozφm pokraΦovßnφ DatabßzovΘ abecedy jsme uvßd∞li podrobn∞ji, ₧e data lze organizovat v multidimenzionßlnφm datovΘm modelu, kter² je zcela odliÜn² od relaΦnφho modelu. Model trochu p°ipomφnß techniku spreadsheet, ovÜem ve vφce ne₧ dvou rozm∞rech. N∞kdy se jako MDD oznaΦuje p°φmo i specializovan² software - multidimenzionßlnφ S╪BD (MDS╪BD), kter² implementuje data pomocφ vφcerozm∞rn²ch polφ, jejich₧ dimenze odpovφdajφ dimenzφm podnikßnφ organizace. ZjednoduÜuje se pohled na data pro anal²zy typu OLAP a p°i p°φmΘ implementaci vede MDD obecn∞ k rychlejÜφmu zpracovßnφ ne₧ provozovßnφ OLAP nad relaΦnφ databßzφ (tzv. relaΦnφ OLAP Φi ROLAP). V∞tÜina znßm²ch v²robc∙ standardnφch S╪BD vÜak rßda zd∙raz≥uje v²hody p°φstupu ROLAP, proto₧e tak vhodn∞ vyu₧φvajφ sv∙j pokroΦil² relaΦnφ software (viz nap°. Univerzßlnφ server Informixu spolu s MetaCube OLAP). Mezi specializovanΘ databßze optimalizovanΘ pro multidimenzionßlnφ anal²zu pat°φ RedBrick Warehouse, mezi nßstroje specializovanΘ aplikaΦn∞ (anal²za financφ nebo trhu) pat°φ IRI/Oracle Express Φi Arbor Essbase.

Pro ·plnost uve∩me jeÜt∞ pojem datovΘ tr₧iÜt∞ (data mart). Tak je oznaΦovßna architektura, kdy DW (n∞kdy zvan² atomick²) slou₧φ jako zßkladna pro extrakci mno₧in dat resp. jejich agregacφ (jde vlastn∞ o formu replikace dat) do dφlΦφch MDD. Tyto MDD jsou replikacemi, kterΘ nesou vÜechny v²hody a nev²hody replikaΦnφm zpracovßnφm nabφzenΘ.

Multidimenzionßlnφ databßze m∙₧e pro DW slou₧it ve dvou rolφch:

  • m∙₧e tvo°it ôfront-endö pro DW a poskytovat u₧ivateli slu₧by pro realizaci analytickΘho zpracovßnφ. TΘto variant∞ budeme °φkat DW/OLAP.
  • m∙₧e tvo°it ôfront-endö jednomu nebo n∞kolika systΘm∙m OLTP jako alternativa za DW, tj. jako prost°edek poskytnout data s OLTP u₧ivatel∙m nov²m ôanalytick²mö zp∙sobem. Tuto variantu nazveme OLTP/OLAP. Jde vlastn∞ o p°φpad datovΘho tr₧iÜt∞.

Oba p°φstupy ovÜem majφ svΘ stinnΘ strßnky. V prvnφm p°φpad∞ mohou u₧ivatelΘ Φekat dlouho na realizaci kompletnφho projektu, proto₧e dlouho trvß vybudovßnφ DW. Druhß varianta je zase zalo₧ena na budovßnφ MDD p°φmo z operativnφch dat, tj. dφvat se na n∞ jako na DW. Toto °eÜenφ ztrßcφ p∙vodnφ funkci, tj. jde o vytvß°enφ jakΘhosi lokßlnφho supermarketu, kter² je t°eba p°em∞nit na sklad.

JinΘ °eÜenφ, jak nevytvß°et pro OLAP systΘm DW, je realizovat vφce dφlΦφch OLAP systΘm∙, nap°. zvlßÜ¥ pro finance, jin² pro obchod apod. Pou₧ije-li se pravidlo 80-20, uvßdφ se, ₧e dobr² OLAP systΘm by m∞l obsahovat pouze 20% dat z DW, kterΘ ale pokr²vajφ 80% pot°eb. P°ipome≥me, ₧e MDD v uveden²ch souvislostech by ale m∞la b²t schopna realizovat takΘ funkce nßle₧ejφcφ DW, tj. integraci dat, ΦiÜt∞nφ dat, restrukturalizaci dat apod.

Je patrnΘ, ₧e DW a OLAP systΘmy jsou dv∞ rozdφln∞ v∞ci, p°iΦem₧ v∞tÜina u₧ivatel∙ po₧aduje spφÜe OLAP ne₧ DW. MDD je vzhledem k svΘmu databßzovΘmu modelu, kter² prezentuje u₧ivateli, pro OLAP tφm nejlepÜφm °eÜenφm. Nev²hodou specializovan²ch MDD s funkcemi OLAP je ovÜem jedineΦnost, kterß je vlastnφ ka₧dΘmu jednotlivΘmu v²robci. Z toho plyne i obtφ₧nß integrace t∞chto nßstroj∙ Φi databßzφ, kterΘ zpracovßvajφ.

Nezbytnß je tedy standardizace nßstroj∙ OLAP. P°ipome≥me tzv. OLAP Council zalo₧en² v r. 1995 v USA firmami Arbor Software, Comshare, IRI Software a Pilot Software. ┌Φelem tΘto organizace je mimo jinΘ propagovat standardy MDD.

Z hlediska databßzφ je zajφmavΘ, jak se DW navrhujφ Φi jakΘ zm∞ny v databßzovΘm stroji jsou nutnΘ, aby DW pracoval efektivn∞. V prvnφm p°φpad∞ jde o novΘ metodologie nßvrhu dat, v druhΘm se vyu₧φvß paralelismus, ale hlavn∞ specißlnφ typy index∙.



<seznam dφl∙ serißlu>   <COMPUTERWORLD>