Tehnologia OLAP. Tehnologia OLAP tehnologii olap și modele de date multidimensionale

23.02.2021 Sfat

În 1993, fondatorul abordării relaționale a construcției bazelor de date, Edgar Codd și partenerii săi (Edgar Codd, matematician și IBM Fellow), au publicat un articol inițiat de Arbor Software (azi celebra companie Hyperion Solutions), intitulat „Providing OLAP ( procesare analitică online) pentru utilizatorii analitici”, care a formulat 12 caracteristici ale tehnologiei OLAP, care au fost completate ulterior cu încă șase. Aceste prevederi au devenit conținutul principal al unei tehnologii noi și foarte promițătoare.

Principalele caracteristici ale tehnologiei OLAP (de bază):

  • reprezentarea conceptuală multidimensională a datelor;
  • manipularea intuitivă a datelor;
  • disponibilitatea și detaliile datelor;
  • extragerea datelor pe lot vs. interpretare;
  • Modele de analiză OLAP;
  • arhitectura client-server (OLAP accesibil de pe desktop);
  • transparență (acces transparent la date externe);
  • suport multi-utilizator.

Caracteristici speciale:

  • prelucrarea datelor neformalizate;
  • salvarea rezultatelor OLAP: stocarea lor separat de datele sursă;
  • excluderea valorilor lipsă;
  • Gestionarea valorilor lipsă.

Caracteristici de prezentare a raportului:

  • flexibilitate în raportare;
  • performanța standard de raportare;
  • setare automată nivel fizic extragerea datelor.

Managementul dimensiunilor:

  • universalitatea măsurătorilor;
  • număr nelimitat de dimensiuni și niveluri de agregare;
  • număr nelimitat de operații între dimensiuni.

Din punct de vedere istoric, astăzi termenul „OLAP” implică nu numai o vizualizare multidimensională a datelor de la utilizatorul final, ci și o vedere multidimensională a datelor din baza de date țintă. Tocmai de aceea, termenii „OLAP relațional” (ROLAP) și „OLAP multidimensional” (MOLAP) au apărut ca termeni independenți.

Serviciul OLAP este un instrument de analiză a unor volume mari de date în timp real. Prin interacțiunea cu sistemul OLAP, utilizatorul va fi capabil să vizualizeze informații în mod flexibil, să obțină secțiuni de date arbitrare și să efectueze operațiuni analitice de drill-down, roll-up, distribuție end-to-end și comparare în timp folosind mulți parametri simultan. Toate lucrările cu sistemul OLAP au loc în termeni domeniul subiectuluiși vă permite să construiți modele statistice solide ale situației afacerii.

Software OLAP este un instrument pentru analiza operațională a datelor conținute într-un depozit. Caracteristica principală este că aceste instrumente sunt destinate utilizării nu de către un specialist în domeniul tehnologiei informației, nu de către un expert statistician, ci de către un profesionist în domeniul aplicat al managementului - un manager al unui departament, departament, management și , în sfârșit, un director. Instrumentele sunt concepute pentru a permite analistului să comunice cu problema, nu cu computerul. În fig. Figura 6.14 prezintă un cub OLAP de bază care vă permite să evaluați datele pe trei dimensiuni.


Cub OLAP multidimensional și sistem de algoritmi matematici corespunzători prelucrare statistică vă permite să analizați date de orice complexitate la orice interval de timp.

Orez. 6.14. Cub OLAP elementar

Având la dispoziție mecanisme flexibile de manipulare a datelor și afișare vizuală (Fig. 6.15, Fig. 6.16), managerul examinează mai întâi din unghiuri diferite datele care pot (sau nu) să aibă legătură cu problema rezolvată.

În continuare, el compară diverși indicatori de afaceri între ei, încercând să identifice relații ascunse; poate analiza datele mai îndeaproape, în detaliu, de exemplu, defalcându-le în componente în funcție de timp, regiune sau client sau, dimpotrivă, generalizează și mai mult prezentarea informațiilor pentru a elimina detaliile care distrag atenția. După aceasta, folosind modulul de evaluare și simulare statistică, se construiesc mai multe opțiuni pentru desfășurarea evenimentelor, iar dintre acestea este selectată cea mai acceptabilă opțiune.

Orez. 6.15.

Un manager de companie, de exemplu, poate avea o ipoteză că răspândirea creșterii activelor în diferite ramuri ale companiei depinde de raportul dintre specialiști cu competențe tehnice și educatie economica. Pentru a testa această ipoteză, managerul poate solicita de la depozit și afișa pe grafic raportul dobânzii pentru acele sucursale a căror creștere a activelor în trimestrul curent a scăzut cu peste 10% față de anul trecut, și pentru cele care au crescut cu mai mult de 25%. Ar trebui să poată utiliza o selecție simplă din meniul oferit. Dacă rezultatele obținute se încadrează în mod semnificativ în două grupuri corespunzătoare, atunci acesta ar trebui să devină un stimulent pentru testarea ulterioară a ipotezei prezentate.

În prezent, o direcție numită modelare dinamică (Dynamic Simulation), care implementează pe deplin principiul FASMI menționat mai sus, a primit o dezvoltare rapidă.

Folosind modelarea dinamică, analistul construiește un model al unei situații de afaceri care se dezvoltă în timp, conform unui anumit scenariu. Mai mult, rezultatul unei astfel de modelări pot fi câteva situații noi de afaceri care generează un arbore solutii posibile cu o evaluare a probabilității și perspectivelor fiecăruia.

Orez. 6.16. SI analitic pentru extragerea datelor, prelucrarea si prezentarea informatiilor

Tabelul 6.3 arată caracteristici comparative analiza statica si dinamica.

dirijarea

S-au scris multe despre OLAP în ultima vreme. Putem spune că există un oarecare boom în jurul acestor tehnologii. Adevărat, pentru noi acest boom a fost oarecum târziu, dar acest lucru, desigur, este legat de situația generală din țară.

Sistemele informaționale la scară de întreprindere, de regulă, conțin aplicații concepute pentru analiza multidimensională complexă a datelor, dinamica, tendințele acestora etc. O astfel de analiză este în cele din urmă menită să sprijine luarea deciziilor. Aceste sisteme sunt adesea numite sisteme de sprijinire a deciziilor.

Sistemele de sprijin pentru decizii au de obicei mijloacele de a furniza utilizatorului date agregate pentru diverse mostre din setul original într-o formă convenabilă pentru percepție și analiză. De regulă, astfel de funcții agregate formează un set de date multidimensionale (și, prin urmare, non-relaționale) (deseori numit hipercub sau metacub), ale cărui axe conțin parametri, iar celulele conțin date agregate dependente de acestea - și astfel de date pot fi stocate și în tabele relaționale, dar în acest caz vorbim despre organizarea logică a datelor, și nu despre implementarea fizică a stocării acestora). De-a lungul fiecărei axe, datele pot fi organizate într-o ierarhie, reprezentând diferite niveluri de detaliu. Datorită acestui model de date, utilizatorii pot formula interogări complexe, pot genera rapoarte și pot obține subseturi de date.

Tehnologia pentru analiza complexă a datelor multidimensionale se numește OLAP (On-Line Analytical Processing).

OLAP este o componentă cheie a depozitării datelor.

Conceptul de OLAP a fost descris în 1993 de Edgar Codd, un renumit cercetător de baze de date și autor al modelului de date relaționale (veziE.F. Codd, S.B. Codd și C.T. Salley, Furnizarea de OLAP (prelucrare analitică on-line) utilizatorilor-analiști: un mandat IT. Raport tehnic, 1993).

În 1995, pe baza cerințelor stabilite de Codd, a fost formulat așa-numitul test FASMI (Fast Analysis of Shared Multidimensional Information), care include următoarele cerințe pentru aplicațiile de analiză multidimensională:

· furnizarea utilizatorului de rezultate de analiză într-un timp acceptabil (de obicei nu mai mult de 5 s), chiar și cu prețul unei analize mai puțin detaliate;

· capacitatea de a implementa orice logic și analize statistice, specific unei aplicații date, și salvarea acesteia într-o formă accesibilă utilizatorului final;

· acces multi-utilizator la date cu suport pentru mecanisme de blocare adecvate si mijloace de acces autorizate;

· reprezentarea conceptuală multidimensională a datelor, inclusiv suport complet pentru ierarhii și ierarhii multiple (aceasta este o cerință cheie a OLAP);

· capacitatea de a accesa orice informație necesară, indiferent de volumul și locația de stocare.

Trebuie remarcat faptul că funcționalitatea OLAP poate fi implementată căi diferite, începând cu cele mai simple instrumente de analiză a datelor din aplicațiile de birou și terminând cu sisteme analitice distribuite bazate pe produse server. Utilizatorii pot vizualiza cu ușurință datele într-o structură multidimensională, așa cum se aplică propriilor probleme.

2. Ce este OLAP

OLAP este o abreviere pentru limba engleză On-Line Analytical Processing - acesta nu este numele unui anumit produs, ci al unei întregi tehnologii. În rusă, cel mai convenabil este să apelați procesarea analitică operațională OLAP. Deși în unele publicații procesarea analitică este numită atât online, cât și interactiv, adjectivul „online” reflectă cel mai bine sensul tehnologiei OLAP.

Dezvoltarea de soluții de management de către un manager se încadrează în categoria zonelor care sunt cel mai greu de automatizat. Cu toate acestea, astăzi există o oportunitate de a ajuta managerul în dezvoltarea de soluții și, cel mai important, de a accelera semnificativ procesul de dezvoltare a soluțiilor, selecția și adoptarea acestora. Puteți utiliza OLAP pentru aceasta.

Să vedem cum are loc de obicei procesul de dezvoltare a soluției.

Din punct de vedere istoric, soluțiile de automatizare a activităților operaționale au fost cele mai dezvoltate. Vorbim despre sisteme de procesare a datelor tranzacționale (OLTP), numite mai simplu sisteme operaționale. Aceste sisteme asigură înregistrarea anumitor fapte, păstrarea lor pe termen scurt și păstrarea în arhive. Baza unor astfel de sisteme este asigurată de sistemele de management al bazelor de date relaționale (RDBMS). Abordarea tradițională este de a încerca să utilizați sisteme operaționale deja construite pentru a sprijini luarea deciziilor. De obicei ei încearcă să construiască un sistem dezvoltat de interogări către sistemul de operare și folosesc rapoartele obținute în urma interpretării direct pentru a sprijini deciziile. Rapoartele pot fi construite pe bază personalizată, de ex. managerul solicită un raport, și în mod regulat, atunci când rapoartele sunt construite pe baza realizării anumitor evenimente sau timp. De exemplu, un proces tradițional de sprijinire a deciziilor ar putea arăta astfel: un manager merge la un specialist în informații și îi împărtășește întrebarea. Apoi specialistul departamentului de informare construiește o cerere către sistemul operațional, primește raportul electronic, îl interpretează și apoi îl aduce în atenția personalului de conducere. Desigur, o astfel de schemă oferă sprijin pentru luarea deciziilor într-o oarecare măsură, dar are o eficiență extrem de scăzută și un număr mare de dezavantaje. Cantități minuscule de date sunt folosite pentru a sprijini deciziile esențiale pentru misiune. Sunt si alte probleme. Acest proces este foarte lent, deoarece procesul de redactare a cererilor și interpretare a raportului electronic este lung. Este nevoie de multe zile, într-un moment în care managerul poate avea nevoie să ia o decizie chiar acum, imediat. Dacă luăm în considerare faptul că managerul, după primirea raportului, poate fi interesat de o altă întrebare (să zicem, clarificarea sau solicitarea luării în considerare a datelor într-un context diferit), atunci acest ciclu lent ar trebui repetat și, deoarece procesul de analiză a datelor sisteme de operare se va întâmpla iterativ, apoi se va petrece și mai mult timp. O altă problemă este problema diverselor domenii de activitate ale unui specialist în tehnologia de informațieși liderul, care poate gândi în diferite categorii și, ca urmare, nu se înțeleg. Apoi vor fi necesare iterații suplimentare de clarificare, iar acesta este din nou timpul, care este întotdeauna în lipsă. O altă problemă majoră este că rapoartele sunt greu de înțeles. Managerul nu are timp să selecteze numerele de interes din raport, mai ales că pot fi prea multe dintre ele (remintiți-vă rapoartele uriașe cu mai multe pagini în care sunt folosite efectiv mai multe pagini, iar restul sunt folosite pentru orice eventualitate). Mai remarcăm că munca de interpretare revine cel mai adesea specialiştilor din departamentele de informare. Adică, un specialist competent este distras de munca de rutină și ineficientă de desenare a diagramelor etc., care, desigur, nu poate avea un efect favorabil asupra calificărilor sale. În plus, nu este un secret pentru nimeni că în lanțul de interpretare există binevoitori interesați să distorsioneze în mod deliberat informațiile primite.

Neajunsurile de mai sus ne fac să ne gândim la eficiența generală a sistemului de operare și la costurile asociate cu existența acestuia, deoarece se dovedește că costurile creării unui sistem de operare nu sunt compensate în mod adecvat de eficiența funcționării acestuia.

În realitate, aceste probleme nu sunt o consecință a calității proaste a sistemului de operare sau a construcției nereușite a acestuia. Rădăcinile problemelor se află în diferența fundamentală dintre activitățile operaționale care sunt automatizate de sistemul de operare și activitățile care dezvoltă și iau decizii. Această diferență constă în faptul că datele sistemului de operare sunt pur și simplu înregistrări ale anumitor evenimente și fapte care au avut loc, dar nu informații în sensul general al cuvântului. Informația este ceva care reduce incertitudinea în orice domeniu. Și ar fi foarte bine dacă informațiile ar reduce incertitudinea în zona de luare a deciziilor. Cunoscutul E.F. a vorbit odată despre inadecvarea sistemelor de operare construite pe RDBMS în acest scop. Codd, un pionier al tehnologiei sistemelor de management al bazelor de date relaționale în anii 1970: „Deși sistemele de management al bazelor de date relaționale sunt disponibile pentru utilizatori, ele nu au fost niciodată recunoscute ca oferind capabilități puternice de sinteză, analiză și consolidare (funcții numite analiză multidimensională a datelor)”. Vorbim în mod specific despre sinteza informațiilor, despre transformarea datelor din sistemele operaționale în informații și chiar în evaluări calitative. OLAP face posibilă această transformare.

OLAP se bazează pe ideea unui model de date multidimensional. Gândirea umană este multidimensională prin definiție. Când o persoană pune întrebări, el impune restricții, formulând astfel întrebări în mai multe dimensiuni, astfel încât procesul de analiză într-un model multidimensional este foarte apropiat de realitatea gândirii umane. În funcție de dimensiunile din modelul multidimensional, sunt trasați factorii care influențează activitățile întreprinderii (de exemplu: timpul, produsele, ramurile companiei, geografia etc.). În acest fel, se obține un hipercub (desigur, numele nu are prea mult succes, deoarece un cub este de obicei înțeles ca o figură cu margini egale, ceea ce, în acest caz, este departe de cazul), care este apoi umplut cu indicatori ai activității întreprinderii (prețuri, vânzări, plan, profituri, pierderi etc.). Acesta poate fi completat atât cu date reale din sistemele de operare, cât și cu date de prognoză bazate pe date istorice. Dimensiunile unui hipercub pot fi complexe, ierarhice și se pot stabili relații între ele. În timpul procesului de analiză, utilizatorul poate schimba punctul de vedere asupra datelor (așa-numita operațiune de schimbare a vederii logice), vizualizand astfel datele din diverse perspective și rezolvând probleme specifice. Pe cuburi pot fi efectuate diferite operații, inclusiv prognoza și planificarea condiționată (analiza ce se întâmplă dacă). Mai mult, operațiunile se execută simultan pe cuburi, adică. produsul, de exemplu, va avea ca rezultat un produs hipercub, fiecare celulă a căruia este produsul celulelor hipercuburilor multiplicatoare corespunzătoare. Desigur, este posibil să se efectueze operații pe hipercuburi care au un număr diferit de dimensiuni.

3. Istoria creării tehnologiei OLAP

Ideea procesării datelor pe matrice multidimensionale nu este nouă. De fapt, datează din 1962, când Ken Iverson și-a publicat cartea „A Programming Language” (APL). Prima implementare practică a APL a avut loc la sfârșitul anilor șaizeci de către IBM. APL este un limbaj foarte elegant, definit matematic, cu variabile multidimensionale și operații procesate. Acesta a fost intenționat să fie un instrument original și puternic pentru lucrul cu transformări multidimensionale în comparație cu alte limbaje practice de programare.

Totuși, ideea pentru o lungă perioadă de timp nu a primit o utilizare pe scară largă, deoarece nu venise încă vremea interfețelor grafice și a dispozitivelor de imprimare de înaltă calitate, iar afișarea caracterelor grecești necesita ecrane speciale, tastaturi și dispozitive de imprimare. Mai târziu, cuvintele englezești au fost uneori folosite pentru a înlocui operatorii greci, dar puriștii APL au oprit încercările de a populariza limba lor preferată. APL a consumat și resursele mașinii. Pe vremea aceea era scump de folosit. Programele au fost foarte lente de executat și, în plus, rularea lor a fost foarte costisitoare. Era nevoie de multă memorie, cantități șocante la acea vreme (aproximativ 6 MB).

Cu toate acestea, frustrarea acestor greșeli inițiale nu a distrus ideea. A fost folosit în multe aplicații de afaceri în anii 70, 80. Multe dintre aceste aplicații aveau caracteristici ale sistemelor moderne de procesare analitică. Astfel, IBM a dezvoltat sistem de operare pentru APL, numit VSPC, iar unii oameni l-au considerat mediul ideal pentru uz personal până când foile de calcul au devenit omniprezente.

Dar APL a fost prea greu de folosit, mai ales că de fiecare dată au existat neconcordanțe între limbajul în sine și hardware-ul pe care s-a încercat implementarea lui.

În anii 1980, APL a devenit disponibil pe mașinile personale, dar nu a găsit utilizare pe piață. Alternativa a fost de a programa aplicații multidimensionale folosind matrice în alte limbi. Aceasta a fost o sarcină foarte dificilă chiar și pentru programatorii profesioniști, forțându-i să aștepte următoarea generație de produse software multidimensionale.

În 1972, mai multe produse software de aplicații multidimensionale utilizate anterior în scopuri educaționale și-au găsit uz comercial: Express. Rămâne într-o formă complet rescrisă și acum, dar conceptele originale din anii 70 au încetat să mai fie relevante. Astăzi, în anii 90, Express este una dintre cele mai populare tehnologii OLAP, iar Oracle(r) o va promova și va adăuga noi capabilități.

Mai multe produse multidimensionale au apărut în anii 80. La începutul deceniului, un produs numit Stratagem, numit mai târziu Acumate (azi deținut de Kenan Technologies), care a fost încă promovat până la începutul anilor 90, dar astăzi, spre deosebire de Express, nu este practic folosit.

Comshare System W a fost un produs multidimensional cu un stil diferit. Introdus în 1981, a fost primul care sa concentrat mai mult pe utilizatorul final și pe dezvoltarea de aplicații financiare. El a introdus multe concepte care nu au fost bine adoptate, cum ar fi reguli complet non-procedurale, vizualizarea pe tot ecranul și editarea datelor multidimensionale, recalcularea automată și integrarea loturilor cu datele relaționale. Cu toate acestea, Comshare System W a fost destul de greu pentru hardware din acea vreme în comparație cu alte produse și a fost folosit mai puțin în viitor, vândut din ce în ce mai puțin și nu s-au adus îmbunătățiri produsului. Deși este încă disponibil pe UNIX, nu este client-server, ceea ce nu își îmbunătățește oferta pe piața de analiză. La sfârșitul anilor 1980, Comshare a lansat un produs pentru DOS și mai târziu pentru Windows. Aceste produse au fost numite Commander Prism și au folosit aceleași concepte ca și System W.

Un alt produs creativ de la sfârșitul anilor 80 se numea Metaphor. A fost destinat marketerilor profesioniști. De asemenea, a introdus multe concepte noi care abia încep să fie utilizate pe scară largă astăzi: calcul client-server, folosind un model multidimensional pe date relaționale, dezvoltare de aplicații orientate pe obiecte. Cu toate acestea, hardware-ul standard al computerelor personale din acea zi nu era capabil să ruleze Metaphor, iar vânzătorii au fost forțați să-și dezvolte propriile standarde pentru computerele personale și rețele. Metaphor a început treptat să funcționeze cu succes pe mașinile personale în serie, dar produsul a fost realizat exclusiv pentru OS/2 și avea propria interfață grafică cu utilizatorul.

Metaphor a intrat apoi într-o alianță de marketing cu IBM, pe care a absorbit-o ulterior. La mijlocul anului 1994, IBM a decis să integreze tehnologia Metaphor (redenumită DIS) cu tehnologiile sale viitoare și, prin urmare, să nu mai finanțeze o linie separată, dar clienții și-au exprimat nemulțumirea și au cerut sprijin continuu pentru produs. Suportul a fost continuat pentru clienții rămași, iar IBM a relansat produsul sub noul nume DIS, care, totuși, nu l-a făcut popular. Dar conceptele creative, inovatoare ale Metaphor nu au fost uitate și sunt vizibile în multe produse astăzi.

La mijlocul anilor '80 a luat naștere termenul EIS (Executive Information System). Primul produs care a demonstrat clar această direcție a fost Pilot's Command Center. A fost un produs care a permis calculul colaborativ, ceea ce numim astăzi calcul client-server. Deoarece puterea computerelor personale în anii 1980 era limitată, produsul era foarte „centrat pe server”, dar acest principiu este încă foarte popular astăzi. Pilot nu a vândut Command Center pentru mult timp, dar a introdus multe dintre conceptele care pot fi recunoscute în produsele OLAP de astăzi, inclusiv suport automat pentru intervale de timp, calcule multidimensionale client-server și control simplificat al procesului de analiză (mouse, ecrane tactile). , etc.). Unele dintre aceste concepte au fost reaplicate mai târziu în Pilot Analysis Server.

La sfârșitul anilor 1980, foile de calcul dominau piața instrumentelor de analiză utilizatorilor finali. Prima foaie de calcul multidimensională a fost introdusă de Compete. A fost comercializat ca un produs foarte scump pentru profesioniști, dar vânzătorii nu au reușit să se asigure că produsul ar putea capta piața, iar Computer Associates a achiziționat drepturile asupra acestuia împreună cu alte produse, inclusiv Supercalc și 20/20. Principalul efect al achiziției CA Compete a fost o reducere drastică a prețului acestuia și eliminarea protecției împotriva copierii, ceea ce a contribuit în mod natural la distribuția sa. Cu toate acestea, nu a avut succes. Competența este baza Supercalc 5, dar aspectul multidimensional al acestuia nu este promovat. Vechiul Compete este încă folosit uneori datorită faptului că au fost investite resurse considerabile în el la un moment dat.

Lotus a fost următorul care a încercat să intre pe piața foilor de calcul multidimensionale cu produsul său Improv, care rulează pe o mașină NeXT. Acest lucru a asigurat, cel puțin, că vânzările de 1-2-3 nu vor scădea, dar când a fost lansat în cele din urmă pentru Windows, Excel deținea deja o cotă mare de piață, împiedicând Lotus să facă orice modificări în alocarea pieței. Lotus, la fel ca CA cu Compete, a mutat Improv în partea de jos a pieței, dar aceasta nu a fost o condiție pentru promovarea de succes pe piață, iar noile dezvoltări în acest domeniu nu au continuat. S-a dovedit că utilizatorii de computere preferau foile de calcul 1-2-3 și nu erau interesați de noile capacități multivariate decât dacă erau pe deplin compatibile cu vechile foi de calcul. De asemenea, conceptele de foi de calcul mici, pentru desktop, oferite ca aplicații personale, nu s-au dovedit cu adevărat convenabile sau nu s-au prins în lumea reală a afacerilor. Microsoft (r) a urmat această cale adăugând PivotTables (în ediția rusă aceasta se numește „ tabele pivot") la Excel. Deși puțini utilizatorii Excel au beneficiat de această caracteristică, aceasta este probabil singura dată când capabilitățile de analiză multivariată sunt utilizate pe scară largă în lume, pur și simplu pentru că există atât de mulți utilizatori Excel în lume.

4. OLAP, ROLAP, MOLAP...

Este bine cunoscut faptul că, atunci când Codd și-a publicat regulile pentru construirea SGBD-urilor relaționale în 1985, acestea au provocat o reacție puternică și, ulterior, au avut un impact puternic asupra industriei SGBD-urilor în general. Cu toate acestea, puțini oameni știu că în 1993 Codd a publicat o lucrare intitulată „OLAP for User Analysts: What It Should Be.” În acesta, el a subliniat conceptele de bază ale analizei online și a definit 12 reguli care trebuie îndeplinite de produsele care oferă capabilități de analiză online.

Acestea sunt regulile (textul original a fost păstrat ori de câte ori a fost posibil):

1. Reprezentare conceptuală multidimensională. Utilizatorul-analist vede lumea întreprinderii ca fiind de natură multidimensională. În consecință, modelul OLAP trebuie să fie multidimensional în nucleul său. O diagramă conceptuală multidimensională sau o reprezentare personalizată facilitează modelarea și analiza, precum și calculele.

2. Transparență. Indiferent dacă produsul OLAP face parte din instrumentele utilizatorului sau nu, acest fapt trebuie să fie transparent pentru utilizator. Dacă OLAP este furnizat de calculul client-server, atunci acest fapt ar trebui, de asemenea, dacă este posibil, să fie invizibil pentru utilizator. OLAP trebuie furnizat în contextul unei arhitecturi cu adevărat deschise, permițând utilizatorului, oriunde s-ar afla, să comunice printr-un instrument analitic cu serverul. În plus, transparența ar trebui atinsă atunci când instrumentul analitic interacționează cu medii de baze de date omogene și eterogene.

3. Disponibilitate. Utilizatorul analist OLAP trebuie să poată efectua analize bazate pe o schemă conceptuală comună care conține date la nivel de întreprindere într-o bază de date relațională, precum și date din bazele de date moștenite, metode de acces comune și un model analitic comun. Aceasta înseamnă că OLAP trebuie să furnizeze propria sa schemă logică pentru acces într-un mediu de bază de date eterogen și să efectueze transformări adecvate pentru a furniza date utilizatorului. Mai mult, este necesar să aveți grijă în prealabil despre unde și cum și ce tipuri de organizare fizică a datelor vor fi utilizate efectiv. Un sistem OLAP ar trebui să acceseze doar datele care sunt de fapt necesare, mai degrabă decât să adopte o abordare generală „pâlnie de bucătărie” care introduce intrări inutile.

4. Performanță constantă în elaborarea rapoartelor. Dacă numărul de dimensiuni sau dimensiunea bazei de date crește, analistul utilizator nu ar trebui să experimenteze nicio degradare semnificativă a performanței. Performanța constantă este esențială, menținând în același timp ușurința de utilizare a utilizatorului final și limitând complexitatea OLAP. Dacă utilizatorul-analist întâmpină diferențe semnificative de performanță în funcție de numărul de dimensiuni, atunci va tinde să compenseze aceste diferențe cu strategia de proiectare, ceea ce va determina ca datele să fie prezentate în alte moduri decât modul în care datele de fapt. trebuie prezentat. Petrecerea timpului târându-se în jurul unui sistem pentru a compensa insuficiența acestuia nu este scopul pentru care sunt concepute produsele de analiză.

5. Arhitectura client-server. Majoritatea datelor care trebuie procesate rapid și analitic astăzi sunt stocate pe mainframe cu acces la computer. Aceasta înseamnă, prin urmare, că produsele OLAP trebuie să poată funcționa într-un mediu client-server. Din acest punct de vedere, este necesar ca componenta server a instrumentului analitic să fie substanțial „inteligentă”, astfel încât diverși clienți să se poată conecta la server cu o complexitate minimă și programare de integrare. Un server inteligent trebuie să fie capabil să mapeze și să consolideze între schemele de baze de date logice și fizice disparate. Acest lucru va oferi transparență și va construi un cadru conceptual, logic și fizic comun.

6. Multidimensionalitate generală. Fiecare dimensiune trebuie aplicată indiferent de structura și capacitățile sale operaționale. Capacități operaționale suplimentare pot fi furnizate dimensiunilor selectate și, deoarece dimensiunile sunt simetrice, poate fi furnizată o singură funcție pentru orice dimensiune. Structurile de bază ale datelor, formulele și formatele de raportare nu ar trebui să fie părtinitoare către nicio dimensiune.

7. Controlul dinamic al matricelor rare. Designul fizic al unui instrument OLAP trebuie să fie pe deplin adaptat modelului analitic specific pentru gestionarea optimă a matricelor rare. Pentru orice matrice rară dată, există una și o singură schemă fizică optimă. Această schemă oferă eficiență maximă a memoriei și operabilitate a matricei, cu excepția cazului în care, desigur, întregul set de date nu se încadrează în memorie. Datele fizice de bază ale unui instrument OLAP trebuie configurate la orice subset de dimensiuni, în orice ordine, pentru operații practice pe modele analitice mari. Metodele de acces fizic ar trebui, de asemenea, să se schimbe dinamic și să conțină diferite tipuri de mecanisme, cum ar fi: calcule directe, arbori B și derivate, hashing și capacitatea de a combina aceste mecanisme dacă este necesar. Sparsitatea (măsurată ca procent de celule goale la toate celulele posibile) este una dintre caracteristicile propagării datelor. Nereglementarea dispersității poate face ca eficiența operațională să nu fie atinsă. Dacă un instrument OLAP nu poate controla și reglementa distribuția valorilor datelor analizate, un model care se pretinde practic, bazat pe multe căi și dimensiuni de consolidare, poate fi în realitate inutil și fără speranță.

8. Suport multi-utilizator. Adesea, mai mulți utilizatori analitici trebuie să lucreze în colaborare cu același model analitic sau să creeze modele diferite din aceleași date. Prin urmare, un instrument OLAP trebuie să ofere partajare (interogare și completare), integritate și capabilități de securitate.

9. Operațiuni încrucișate nelimitate. Diferitele niveluri de acumulare și căi de consolidare, datorită naturii lor ierarhice, reprezintă relații dependente într-un model sau aplicație OLAP. Prin urmare, instrumentul în sine ar trebui să implice calculele corespunzătoare și să nu solicite utilizatorului analitic redefinirea acestor calcule și operațiuni. Calculele care nu rezultă din aceste relații moștenite necesită definirea prin formule diferite în funcție de limbajul aplicabil. Un astfel de limbaj poate permite calcule și manipulare a datelor de orice dimensiune și nu poate limita relațiile dintre celulele de date sau să acorde atenție numărului de atribute comune de date ale celulelor specifice.

10. Manipularea intuitivă a datelor. Reorientarea căilor de consolidare, detalierea, mărirea și alte manipulări reglementate de căile de consolidare ar trebui aplicate printr-un impact separat asupra celulelor modelului analitic și nu ar trebui să necesite utilizarea unui sistem de meniu sau alte acțiuni multiple cu interfața cu utilizatorul. Vizualizarea utilizatorului-analist asupra dimensiunilor definite în modelul analitic trebuie să conțină toate informatie necesara pentru a efectua pașii de mai sus.

11. Opțiuni flexibile pentru primirea rapoartelor. Analiza și prezentarea datelor este simplă atunci când rândurile, coloanele și celulele de date care vor fi comparate vizual unele cu altele sunt situate aproape unele de altele sau la o anumită distanță functie logica care are loc în întreprindere. Instrumentele de raportare trebuie să prezinte date sintetizate sau informații rezultate din modelul de date în orice orientare posibilă. Aceasta înseamnă că rândurile, coloanele sau paginile trebuie să arate de la 0 la N dimensiuni la un moment dat, unde N este numărul de dimensiuni ale întregului model analitic. În plus, fiecare dimensiune de conținut afișată într-o singură postare, coloană sau pagină trebuie, de asemenea, să poată afișa orice subset de elemente (valori) conținute în dimensiune, în orice ordine.

12. Dimensiune și număr nelimitat de niveluri de agregare. Un studiu privind numărul posibil de dimensiuni necesare necesare într-un model analitic a arătat că până la 19 dimensiuni pot fi utilizate simultan. Prin urmare, se recomandă insistent ca instrumentul analitic să fie capabil să furnizeze cel puțin 15 dimensiuni simultan și, de preferință, 20. Mai mult, fiecare dintre dimensiunile comune nu ar trebui să fie limitată în numărul de niveluri de agregare și căi de consolidare definite de utilizator de analist.

De fapt, dezvoltatorii de produse OLAP de astăzi respectă aceste reguli sau cel puțin se străduiesc să le respecte. Aceste reguli pot fi considerate baza teoretică a prelucrării analitice operaționale; este dificil de argumentat cu ele. Ulterior, din cele 12 reguli s-au tras multe consecințe, pe care însă nu le vom cita, pentru a nu complica inutil narațiunea.

Să aruncăm o privire mai atentă asupra modului în care produsele OLAP diferă în implementarea lor fizică.

După cum sa menționat mai sus, OLAP se bazează pe ideea procesării datelor folosind structuri multidimensionale. Când spunem OLAP, ne referim la faptul că logic structura de date a produsului analitic este multidimensională. Cum exact acest lucru este implementat este o altă problemă. Există două tipuri principale de procesare analitică, care includ anumite produse.

MOLAP . De fapt, multidimensional (multidimensional) OLAP. Produsul se bazează pe o structură de date non-relațională care oferă stocare, procesare și prezentare multidimensională a datelor. În consecință, bazele de date sunt numite multidimensionale. Produsele din această clasă au de obicei un server de baze de date multidimensional. În timpul procesului de analiză, datele sunt selectate exclusiv dintr-o structură multidimensională. O astfel de structură este foarte productivă.

ROLAP . OLAP relațional. După cum sugerează și numele, structura multidimensională a acestor instrumente este implementată de tabele relaționale. Și datele din procesul de analiză, în consecință, sunt selectate din baza de date relațională printr-un instrument analitic.

Dezavantajele și avantajele fiecărei abordări sunt, în general, evidente. OLAP multidimensional oferă performanță mai bună, dar structurile nu pot fi folosite pentru a procesa cantități mari de date, deoarece dimensiunile mari vor necesita resurse hardware mari și, în același timp, raritatea hipercuburilor poate fi foarte mare și, prin urmare, utilizarea capacității hardware nu va fi justificată. Dimpotrivă, OLAP relațional oferă procesare pe rețele mari de date stocate, deoarece este posibil să se asigure o stocare mai economică, dar în același timp este semnificativ inferioară ca viteză față de OLAP multidimensional. Raționament similar a dus la identificarea unei noi clase de instrumente analitice - HOLAP. Aceasta este o prelucrare analitică operațională hibridă. Instrumentele acestei clase vă permit să combinați ambele abordări - relaționale și multidimensionale. Accesul se poate face atât la datele de baze de date multidimensionale, cât și la datele relaționale.

Există un alt tip destul de exotic de procesare analitică operațională - DOLAP. Acesta este OLAP „desktop”. Vorbim despre astfel de procesări analitice în care hipercuburile sunt mici, dimensiunea lor este mică, nevoile sunt modeste, iar pentru o astfel de procesare analitică este suficientă o mașină personală pe un desktop.

Prelucrarea analitică operațională poate simplifica și accelera semnificativ procesul de pregătire și luare a deciziilor de către personalul de conducere. Prelucrarea analitică online are scopul de a transforma datele în informații. Este fundamental diferit de procesul tradițional de sprijinire a deciziilor, care se bazează cel mai adesea pe revizuirea rapoartelor structurate. Prin analogie, diferența dintre rapoartele structurate și OLAP este aceeași ca între conducerea prin oraș cu tramvaiul și conducerea unei mașini personale. Când mergeți cu tramvaiul, acesta se mișcă pe șine, ceea ce nu vă permite să vedeți clar clădirile îndepărtate, cu atât mai puțin să vă apropiați de ele. Dimpotrivă, conducerea unei mașini personale vă oferă libertate totală de mișcare (desigur, trebuie să respectați regulile de circulație). Puteți ajunge cu mașina până la orice clădire și puteți ajunge în locuri unde tramvaiele nu merg.

Rapoartele structurate sunt șinele care împiedică libertatea în pregătirea deciziilor. OLAP este un vehicul pentru deplasarea eficientă de-a lungul autostrăzilor informaționale.

Scopul cursului este de a studia tehnologia OLAP, conceptul de implementare și structura acesteia.

ÎN lumea modernă retele de calculatoare iar sistemele de calcul fac posibilă analiza și procesarea unor cantități mari de date.

O cantitate mare de informații complică foarte mult căutarea soluțiilor, dar face posibilă obținerea unor calcule și analize mult mai precise. Există o întreagă clasă pentru a rezolva această problemă sisteme de informare efectuarea analizei. Astfel de sisteme se numesc sisteme de suport pentru decizii (DSS) (Decision Support System).

Pentru a efectua analize, DSS trebuie să acumuleze informații, având mijloace pentru introducerea și stocarea acesteia. În total, putem distinge trei sarcini principale rezolvate în DSS:

· introducere a datelor;

· stocare a datelor;

· analiza datelor.

Introducerea datelor în DSS este efectuată automat de la senzori care caracterizează starea mediului sau a procesului, sau de către un operator uman.

Dacă introducerea datelor este efectuată automat de la senzori, atunci datele sunt acumulate printr-un semnal de pregătire care apare atunci când apar informații sau prin sondaj ciclic. Dacă introducerea este efectuată de o persoană, atunci aceștia trebuie să ofere utilizatorilor mijloace convenabile pentru introducerea datelor, verificarea corectitudinii intrării, precum și efectuarea calculelor necesare.

La introducerea simultană a datelor de către mai mulți operatori, este necesar să se rezolve problemele de modificare și acces paralel al acelorași date.

DSS furnizează analistului date sub formă de rapoarte, tabele, grafice pentru studiu și analiză, motiv pentru care astfel de sisteme oferă funcții de suport decizional.

Subsistemele de introducere a datelor, numite OLTP (prelucrarea tranzacțiilor on-line), implementează procesarea operațională a datelor. Pentru implementarea acestora se folosesc sisteme convenționale de management al bazelor de date (DBMS).

Subsistemul de analiză poate fi construit pe baza:

· subsisteme de analiză de regăsire a informațiilor bazate pe SGBD relațional și utilizând interogări statice Limbajul SQL;

· subsisteme de analiză operaţională. Pentru implementarea unor astfel de subsisteme se utilizează tehnologia de prelucrare operațională a datelor analitice OLAP, folosind conceptul de reprezentare a datelor multidimensionale;

· subsisteme de analiză intelectuală. Acest subsistem implementează metode și algoritmi de DataMining.

Din punctul de vedere al utilizatorului, sistemele OLAP oferă instrumente pentru vizualizarea flexibilă a informațiilor în diverse secțiuni, obținerea automată a datelor agregate, efectuarea de operațiuni analitice de convoluție, drill-down și comparare în timp. Datorită tuturor acestora, sistemele OLAP reprezintă o soluție cu mari avantaje în domeniul pregătirii datelor pentru toate tipurile de raportare de afaceri, implicând prezentarea datelor în diverse secțiuni și diferite niveluri de ierarhie, precum rapoartele de vânzări, diverse forme de bugete și alții. Sistemele OLAP au mari avantaje ale unei astfel de reprezentări în alte forme de analiză a datelor, inclusiv în prognoză.

1.2 Definiție OLAP-sisteme

Tehnologia pentru analiza complexă a datelor multidimensionale se numește OLAP. OLAP este o componentă cheie a unei organizații de depozit de date.

Funcționalitatea OLAP poate fi implementată în diverse moduri, atât simple, precum analiza datelor în aplicații de birou, cât și mai complexe - sisteme analitice distribuite bazate pe produse server.

OLAP (On-LineAnalyticalProcessing) este o tehnologie pentru prelucrarea operațională a datelor analitice care utilizează instrumente și metode pentru colectarea, stocarea și analiza datelor multidimensionale pentru a sprijini procesele de luare a deciziilor.

Scopul principal al sistemelor OLAP este de a sprijini activitățile analitice și interogările arbitrare ale analiștilor utilizatori. Scopul analizei OLAP este de a testa ipotezele emergente.

Condițiile de concurență ridicată și dinamica în creștere a mediului extern dictează cerințe sporite asupra sistemelor de management al întreprinderii. Dezvoltarea teoriei și practicii managementului a fost însoțită de apariția de noi metode, tehnologii și modele menite să crească eficiența operațională. Metodele și modelele, la rândul lor, au contribuit la apariția sistemelor analitice. Cererea de sisteme analitice în Rusia este mare. Din punct de vedere al aplicației, aceste sisteme sunt cele mai interesante în sector Financial: bănci, asigurări, companii de investitii. Rezultatele muncii sistemelor analitice sunt necesare, în primul rând, pentru persoanele de ale căror decizii depinde dezvoltarea companiei: manageri, experți, analiști. Sistemele analitice vă permit să rezolvați probleme de consolidare, raportare, optimizare și prognoză. Până în prezent, nu a existat o clasificare finală a sistemelor analitice, la fel cum nu există un sistem general de definiții în termeni folosiți în acest domeniu. Structura informațională a unei întreprinderi poate fi reprezentată printr-o succesiune de niveluri, fiecare dintre acestea fiind caracterizat de un mod propriu de procesare și gestionare a informațiilor și are propria sa funcție în procesul de management. Astfel, sistemele analitice vor fi amplasate ierarhic la diferite niveluri ale acestei infrastructuri.

Nivelul sistemelor tranzacționale

Stratul de depozit de date

Stratul Data mart

Nivelul sistemelor OLAP

Strat de aplicare analitică

Sistemele OLAP - (OnLine Analytical Processing, procesarea analitică în prezent) - sunt o tehnologie pentru analiza complexă a datelor multidimensionale. Sistemele OLAP sunt aplicabile acolo unde există o sarcină de analiză a datelor multifactoriale. sunt remediu eficient analiza si generarea de rapoarte. Depozitele de date, magazinele de date și sistemele OLAP discutate mai sus aparțin sistemelor de business intelligence (BI).

De foarte multe ori, sistemele informatice și analitice create cu așteptarea utilizării directe de către factorii de decizie se dovedesc a fi extrem de ușor de utilizat, dar foarte limitate ca funcționalitate. Astfel de sisteme statice sunt numite în literatură Sisteme de Informații Executive (ISR) sau Sisteme Informaționale Executive (EIS). Acestea conțin seturi predefinite de interogări și, deși sunt suficiente pentru revizuirea zilnică, nu sunt în măsură să răspundă la toate întrebările despre datele disponibile care pot apărea la luarea deciziilor. Rezultatul unui astfel de sistem, de regulă, este rapoarte cu mai multe pagini, după un studiu atent al cărora analistul are o nouă serie de întrebări. Cu toate acestea, fiecare cerere nouă care nu a fost prevăzută la proiectarea unui astfel de sistem trebuie mai întâi descrisă formal, codificată de programator și abia apoi executată. Timpul de așteptare în acest caz poate fi de ore și zile, ceea ce nu este întotdeauna acceptabil. Astfel, simplitatea externă a DSS static, pentru care se luptă activ majoritatea clienților sistemelor informatice și analitice, se transformă într-o pierdere catastrofală de flexibilitate.



DSS dinamic, dimpotrivă, se concentrează pe procesarea cererilor de date nereglementate (ad-hoc) ale analiștilor. Cerințele pentru astfel de sisteme au fost considerate cel mai profund de către E. F. Codd în articolul care a pus bazele conceptului OLAP. Munca analiștilor cu aceste sisteme constă într-o secvență interactivă de formare a interogărilor și studierea rezultatelor acestora.

Dar DSS dinamic poate opera nu numai în domeniul prelucrării analitice online (OLAP); suportul pentru luarea deciziilor de management pe baza datelor acumulate poate fi realizat în trei domenii de bază.

Domeniul de aplicare al datelor detaliate. Acesta este domeniul de aplicare al majorității sistemelor de recuperare a informațiilor. În cele mai multe cazuri, SGBD-urile relaționale fac față bine sarcinilor care apar aici. Standardul general acceptat pentru limbajul de manipulare a datelor relaționale este SQL. Sistemele de recuperare a informațiilor care oferă o interfață pentru utilizatorul final în sarcinile de căutare a informațiilor detaliate pot fi utilizate ca suplimente atât în ​​bazele de date individuale ale sistemelor tranzacționale, cât și într-un depozit de date general.

Domeniul de aplicare al indicatorilor agregați. O privire cuprinzătoare asupra informațiilor colectate într-un depozit de date, generalizarea și agregarea acestuia, reprezentarea hipercubului și analiza multidimensională sunt sarcinile sistemelor de procesare analitică online (OLAP). Aici vă puteți concentra fie pe un SGBD multidimensional special, fie să rămâneți în cadrul tehnologiilor relaționale. În cel de-al doilea caz, datele pre-agregate pot fi colectate într-o bază de date în formă de stea, sau agregarea informațiilor se poate face din mers în timp ce se scanează tabele detaliate într-o bază de date relațională.

Sfera tiparelor. Prelucrarea intelectuală se realizează folosind metode de data mining (IDA, Exploatarea datelor) ale căror sarcini principale sunt să caute modele funcționale și logice în informațiile acumulate, să construiască modele și reguli care să explice anomaliile constatate și/sau să prezică desfășurarea anumitor procese.

Prelucrare operațională a datelor analitice

Conceptul OLAP se bazează pe principiul reprezentării multidimensionale a datelor. Într-un articol din 1993, E. F. Codd a abordat deficiențele modelului relațional, subliniind în primul rând incapacitatea de a „combina, vizualiza și analiza datele în termeni de dimensiuni multiple, adică în cel mai înțeles mod pentru analiștii corporativi” și a definit Cerințe generale la sistemele OLAP care extind funcționalitatea SGBD-urilor relaționale și includ analiza multidimensională ca una dintre caracteristicile lor.

Clasificarea produselor OLAP după metoda de prezentare a datelor.

În prezent, pe piață există un număr mare de produse care oferă funcționalitate OLAP într-o măsură sau alta. Aproximativ 30 dintre cele mai faimoase sunt listate pe serverul Web de recenzie http://www.olapreport.com/. Oferă o vedere conceptuală multidimensională din exterior interfața cu utilizatorul la baza de date sursă, toate produsele OLAP sunt împărțite în trei clase în funcție de tipul bazei de date sursă.

Primele sisteme de procesare analitică online (de exemplu, Essbase de la Arbor Software, Oracle Express Server Oracle) aparțineau clasei MOLAP, adică puteau lucra doar cu propriile baze de date multidimensionale. Acestea se bazează pe tehnologii proprietare pentru SGBD-uri multidimensionale și sunt cele mai scumpe. Aceste sisteme oferă un ciclu complet de procesare OLAP. Acestea fie includ, pe lângă componenta server, propria interfață client integrată, fie folosesc programe externe lucrul cu foi de calcul. Pentru a menține astfel de sisteme, este necesar un personal special de angajați care să instaleze, să întrețină sistemul și să creeze vizualizări de date pentru utilizatorii finali.

Sistemele de procesare analitică online relațională (ROLAP) permit ca datele stocate într-o bază de date relațională să fie reprezentate în formă multidimensională, oferind transformarea informațiilor într-un model multidimensional printr-un strat intermediar de metadate. Sistemele ROLAP sunt potrivite pentru lucrul cu spații mari de depozitare. La fel ca sistemele MOLAP, acestea necesită întreținere semnificativă de către specialiștii în tehnologia informației și implică operarea multi-utilizator.

În cele din urmă, sistemele hibride (Hybrid OLAP, HOLAP) sunt concepute pentru a combina avantajele și a minimiza dezavantajele inerente claselor anterioare. Speedware's Media/MR se încadrează în această clasă. Potrivit dezvoltatorilor, acesta combină flexibilitatea analitică și viteza de răspuns a MOLAP cu accesul constant la date reale inerente ROLAP.

OLAP multidimensional (MOLAP)

În SGBD-urile specializate bazate pe o reprezentare multidimensională a datelor, datele sunt organizate nu sub formă de tabele relaționale, ci sub formă de tablouri multidimensionale ordonate:

1) hipercuburi (toate celulele stocate în baza de date trebuie să aibă aceeași dimensiune, adică să fie în cea mai completă bază de măsurare) sau

2) policuburi (fiecare variabilă este stocată cu propriul set de măsurători, iar toate dificultățile de procesare asociate sunt transferate mecanismelor interne ale sistemului).

Utilizarea bazelor de date multidimensionale în sistemele de procesare analitică online are următoarele avantaje.

Când se utilizează SGBD-uri multidimensionale, căutarea și preluarea datelor este mult mai rapidă decât cu o vizualizare conceptuală multidimensională a unei baze de date relaționale, deoarece baza de date multidimensională este denormalizată, conține măsuri pre-agregate și oferă acces optimizat la celulele solicitate.

SGBD-urile multidimensionale fac față cu ușurință sarcinilor de includere în model informativ diverse funcții încorporate, în timp ce obiectiv restricțiile existente Limbajele SQL fac realizarea acestor sarcini pe baza SGBD-urilor relaționale destul de dificilă și uneori imposibilă.

Pe de altă parte, există limitări semnificative.

SGBD-urile multidimensionale nu permit lucrul cu baze de date mari. În plus, datorită denormalizării și agregării pre-executate, volumul de date dintr-o bază de date multidimensională, de regulă, corespunde (conform estimării lui Codd) cu 2,5-100 de ori mai puțin decât volumul datelor detaliate originale.

În comparație cu SGBD-urile relaționale, SGB-urile multidimensionale sunt utilizate foarte ineficient memorie externa. În marea majoritate a cazurilor, hipercubul informațional este foarte rar și, deoarece datele sunt stocate într-o formă ordonată, valorile nedefinite pot fi eliminate doar prin alegerea ordinii optime de sortare, care vă permite să organizați datele în cea mai mare. posibile grupuri învecinate. Dar chiar și în acest caz, problema este doar parțial rezolvată. În plus, ordinea optimă de sortare pentru stocarea datelor rare nu va fi cel mai probabil ordinea care este folosită cel mai des în interogări. Prin urmare, în sistemele reale este necesar să se caute un compromis între performanță și redundanța spațiului pe disc ocupat de baza de date.

În consecință, utilizarea SGBD-ului multidimensional este justificată doar în următoarele condiții.

Volumul de date sursă pentru analiză nu este prea mare (nu mai mult de câțiva gigaocteți), adică nivelul de agregare a datelor este destul de ridicat.

Setul de dimensiuni informaționale este stabil (întrucât orice modificare a structurii lor necesită aproape întotdeauna o restructurare completă a hipercubului).

Timpul de răspuns al sistemului la solicitările nereglementate este cel mai critic parametru.

Necesită utilizarea extinsă a funcțiilor încorporate complexe pentru a efectua calcule transdimensionale pe celulele hipercub, inclusiv abilitatea de a scrie funcții personalizate.

OLAP relațional (ROLAP)

Utilizarea directă a bazelor de date relaționale în sistemele de procesare analitică online are următoarele avantaje.

În cele mai multe cazuri, depozitele de date corporative sunt implementate folosind instrumente DBMS relaționale, iar instrumentele ROLAP permit analiza direct pe acestea. În același timp, dimensiunea de stocare nu este un parametru atât de critic ca în cazul MOLAP.

În cazul unei dimensiuni variabile a problemei, când modificările structurii de măsurare trebuie făcute destul de des, R sisteme OLAP cu reprezentare dinamică a dimensiunii sunt soluție optimă, întrucât în ​​ele astfel de modificări nu necesită reorganizarea fizică a bazei de date.

SGBD-urile relaționale oferă mult mai mult nivel inalt protecția datelor și oportunități bune diferențierea drepturilor de acces.

Principalul dezavantaj al ROLAP în comparație cu SGBD-urile multidimensionale este performanța mai scăzută. Pentru a oferi performanțe comparabile cu MOLAP, sistemele relaționale necesită proiectarea atentă a schemei bazei de date și configurarea indicilor, adică mult efort din partea administratorilor de baze de date. Numai prin folosirea schemelor stea poate performanța sistemelor relaționale bine reglate să se apropie de cea a sistemelor bazate pe baze de date multidimensionale.

Utilizarea unui sistem OLAP vă permite să automatizați nivelul strategic de management al organizației. OLAP (Online Analytical Processing - procesarea datelor analitice în timp real) este o tehnologie puternică pentru prelucrarea și cercetarea datelor. Sistemele construite pe baza tehnologiei OLAP oferă posibilități aproape nelimitate pentru întocmirea de rapoarte, efectuarea de calcule analitice complexe, construirea de prognoze și scenarii și dezvoltarea multor opțiuni pentru planuri.

Sistemele OLAP cu drepturi depline au apărut la începutul anilor 90, ca urmare a dezvoltării sistemelor informaționale de suport decizional. Sunt concepute pentru a transforma date diverse, adesea disparate, în Informatii utile. Sistemele OLAP pot organiza datele în funcție de un set de criterii. Cu toate acestea, nu este necesar ca criteriile să aibă caracteristici clare.

Sistemele OLAP și-au găsit aplicarea în multe probleme ale managementului strategic al unei organizații: managementul performanței afacerii, planificarea strategică, bugetarea, prognoza dezvoltării, întocmirea situațiilor financiare, analiza muncii, modelarea prin simulare a mediului extern și intern al organizației, stocarea datelor. și raportare.

Structura sistemului OLAP

Funcționarea unui sistem OLAP se bazează pe prelucrarea matricelor de date multidimensionale. Matricele multidimensionale sunt proiectate în așa fel încât fiecare element al matricei să aibă multe conexiuni cu alte elemente. Pentru a forma o matrice multidimensională, sistemul OLAP trebuie să obțină date sursă de la alte sisteme (de exemplu, sisteme ERP sau CRM) sau prin intrare externă. Utilizatorul sistemului OLAP primește datele necesare într-o formă structurată în conformitate cu solicitarea sa. Pe baza procedurii specificate, ne putem imagina structura sistemului OLAP.

În general, structura unui sistem OLAP constă din următoarele elemente:

  • Bază de date . Baza de date este sursa de informații pentru funcționarea sistemului OLAP. Tipul bazei de date depinde de tipul de sistem OLAP și de algoritmii de operare ai serverului OLAP. În mod obișnuit, sunt utilizate baze de date relaționale, baze de date multidimensionale, depozite de date etc.
  • server OLAP. Oferă managementul structurii de date multidimensionale și relația dintre baza de date și utilizatorii sistemului OLAP.
  • aplicații personalizate . Acest element al structurii sistemului OLAP gestionează cererile utilizatorilor și generează rezultatele accesării bazei de date (rapoarte, grafice, tabele etc.)

În funcție de metoda de organizare, procesare și stocare a datelor, sistemele OLAP pot fi implementate calculatoare locale utilizatori sau folosind servere dedicate.

Există trei modalități principale de stocare și procesare a datelor:

  • la nivel local. Datele sunt plasate pe computerele utilizatorilor. Prelucrarea, analiza și gestionarea datelor sunt efectuate la stațiile de lucru locale. Această structură a sistemului OLAP are dezavantaje semnificative legate de viteza de prelucrare a datelor, securitatea datelor și utilizarea limitată a analizei multidimensionale.
  • baze de date relaționale. Aceste baze de date sunt folosite pentru lucrand impreuna Sisteme OLAP cu sistem CRM sau sistem ERP. Datele sunt stocate pe serverul acestor sisteme sub formă de baze de date relaționale sau depozite de date. Serverul OLAP accesează aceste baze de date pentru a forma structurile multidimensionale necesare și pentru a efectua analize.
  • baze de date multidimensionale. În acest caz, datele sunt organizate sub forma unui depozit de date special pe un server dedicat. Toate operațiunile de date sunt efectuate pe acest server, care transformă datele sursă în structuri multidimensionale. Astfel de structuri sunt numite cub OLAP. Sursele de date pentru formarea unui cub OLAP sunt bazele de date relaționale și/sau fișierele client. Serverul de date realizează pregătirea și prelucrarea preliminară a datelor. Un server OLAP funcționează cu un cub OLAP fără acces direct la sursele de date (baze de date relaționale, fișiere client etc.).

Tipuri de sisteme OLAP

În funcție de metoda de stocare și procesare a datelor, toate sistemele OLAP pot fi împărțite în trei tipuri principale.


1. ROLAP (Relational OLAP - relational OLAP systems) - acest tip de sistem OLAP functioneaza cu baze de date relationale. Datele sunt accesate direct într-o bază de date relațională. Datele sunt stocate sub formă de tabele relaționale. Utilizatorii au capacitatea de a efectua analize multidimensionale ca în sistemele tradiționale OLAP. Acest lucru se realizează prin utilizarea instrumentelor SQL și a interogărilor speciale.

Unul dintre beneficiile ROLAP este capacitatea de a procesa mai eficient cantități mari de date. Un alt avantaj al ROLAP este capacitatea prelucrare eficientă date numerice și text.

Dezavantajele ROLAP includ performanta scazuta(comparativ cu sistemele tradiționale OLAP), deoarece Prelucrarea datelor este efectuată de serverul OLAP. Un alt dezavantaj este funcționalitatea limitată din cauza utilizării SQL.


2. MOLAP (Multidimensional OLAP - multidimensional OLAP systems). Acest tip de sisteme OLAP se referă la sistemele tradiționale. Diferența dintre un sistem OLAP tradițional și alte sisteme constă în pregătirea preliminară și optimizarea datelor. Aceste sisteme folosesc de obicei un server dedicat pe care Prelucrare preliminară date. Datele sunt generate în tablouri multidimensionale– cuburi OLAP.

Sistemele MOLAP sunt cele mai eficiente în prelucrarea datelor, deoarece... facilitează reorganizarea și structurarea datelor pentru a se potrivi diferitelor solicitări ale utilizatorilor. Instrumentele analitice MOLAP vă permit să efectuați calcule complexe. Un alt avantaj al MOLAP este capacitatea de a genera rapid interogări și de a obține rezultate. Acest lucru se realizează prin formarea preliminară a cuburilor OLAP.

Dezavantajele sistemului MOLAP includ limitarea volumului de date prelucrate și redundanța datelor, deoarece Pentru a forma cuburi multidimensionale, în diverse aspecte, datele trebuie duplicate.


3. HOLAP (Hybrid OLAP - sisteme hibride OLAP). Sistemele hibride OLAP sunt o combinație de sisteme ROLAP și MOLAP. În sistemele hibride, au încercat să combine avantajele a două sisteme: utilizarea bazelor de date multidimensionale și managementul bazelor de date relaționale. Sistemele HOLAP vă permit să stocați o cantitate mare de date în tabele relaționale, iar datele procesate sunt plasate în cuburi OLAP multidimensionale pre-construite. Avantajele acestui tip de sistem sunt scalabilitatea datelor, procesarea rapidă a datelor și accesul flexibil la sursele de date.

Există și alte tipuri de sisteme OLAP, dar ele sunt mai mult un truc de marketing al producătorilor decât un tip independent de sistem OLAP.

Aceste tipuri includ:

  • WOLAP (Web OLAP). Vedere a sistemului OLAP cu suport web interfata. Aceste sisteme OLAP au capacitatea de a accesa baze de date printr-o interfață web.
  • DOLAP (Desktop OLAP). Acest tip de sistem OLAP permite utilizatorilor să descarce o bază de date pe o stație de lucru locală și să lucreze cu aceasta local.
  • MobileOLAP. Aceasta este o funcție a sistemelor OLAP care vă permite să lucrați cu baza de date de la distanță folosind dispozitive mobile.
  • SOLAP (Spatial OLAP). Acest tip de sistem OLAP este conceput pentru prelucrarea datelor spațiale. A apărut ca urmare a integrării sistemelor informaționale geografice și sistemelor OLAP. Aceste sisteme vă permit să procesați date nu numai în format alfanumeric, ci și sub formă de obiecte vizuale și vectori.

Avantajele sistemului OLAP

Utilizarea unui sistem OLAP oferă unei organizații capacitatea de a prognoza și analiza diverse situații legate de activitățile curente și perspectivele de dezvoltare. Aceste sisteme pot fi considerate ca o completare la sistemele de automatizare la nivel de întreprindere. Toate avantajele sistemelor OLAP depind direct de acuratețea, fiabilitatea și volumul datelor sursă.

Principalele avantaje ale sistemului OLAP sunt:

  • coerența informațiilor inițiale și a rezultatelor analizei. Cu un sistem OLAP, este întotdeauna posibil să urmăriți sursa de informații și să determinați legătura logică dintre rezultatele obținute și datele sursă. Subiectivitatea rezultatelor analizei este redusă.
  • efectuarea de analize multivariate. Utilizarea unui sistem OLAP vă permite să obțineți mai multe scenarii pentru desfășurarea evenimentelor pe baza unui set de date sursă. Folosind instrumente de analiză, puteți simula situații pe baza principiului „ce se va întâmpla dacă”.
  • managementul detaliilor. Detaliul rezultatelor prezentate poate varia în funcție de nevoile utilizatorilor. Nu este nevoie să efectuați setări complexe ale sistemului și să repetați calculele. Raportul poate conține exact informațiile necesare pentru luarea deciziilor.
  • identificarea dependențelor ascunse. Prin construirea de conexiuni multidimensionale, devine posibilă identificarea și determinarea dependențelor ascunse în diferite procese sau situații care afectează activitățile de producție.
  • crearea unei singure platforme. Prin utilizarea unui sistem OLAP, devine posibilă crearea unei platforme unificate pentru toate procesele de prognoză și analiză dintr-o întreprindere. În special, datele sistemului OLAP stau la baza construirii previziunilor bugetare, prognozelor de vânzări, prognozelor de achiziții, planurilor strategice de dezvoltare etc.