Sisteme analitice OLAP. Sisteme OLAP utilizate de analiza Olap

23.02.2021 Știri

Principala diferență dintre fapte și informații este că primim și luăm în considerare date și putem folosi informații pentru a beneficia. În linii mari, informațiile sunt analizate și sistematizate date. Datorită informațiilor primite în timp util, multe companii reușesc să supraviețuiască atât crizei financiare, cât și celei mai acerbe concurențe. Nu este suficient să colectezi fapte și să ai toate datele necesare. De asemenea, trebuie să le poți analiza. Pentru a le ușura persoanelor care trebuie să ia decizii importante de afaceri, au fost dezvoltate diverse sisteme de suport. În acest scop, diverse sisteme complexe, permițându-vă să analizați cantități mari de date eterogene și să le transformați în informații utile pentru utilizatorul de afaceri. Noul domeniu al analizei de afaceri își propune să îmbunătățească controlul proceselor sistemelor de afaceri prin utilizarea depozitării de date și a tehnologiei.

Piața sistemelor de informații pentru afaceri oferă astăzi o selecție diversă de soluții care ajută o întreprindere să organizeze contabilitatea de gestiune, să asigure managementul operațional al producției și vânzărilor și să desfășoare interacțiuni eficiente cu clienții și furnizorii.

O nișă separată pe piața sistemelor de afaceri este ocupată de produse software analitice concepute pentru a sprijini luarea deciziilor la nivel strategic de management al întreprinderii. Principala diferență între astfel de instrumente și sistemele de management operațional este că acestea din urmă asigură managementul întreprinderii în „modul de funcționare”, adică implementarea unui program de producție bine definit, în timp ce sistemele analitice la nivel strategic ajută managementul întreprinderii să dezvolte decizii în „modul de dezvoltare”.

Amploarea schimbărilor efectuate poate varia de la restructurarea profundă la actualizarea parțială a tehnologiilor la locurile de producție individuale, dar, în orice caz, factorii de decizie iau în considerare alternative de dezvoltare de care depinde soarta întreprinderii pe termen lung.

Oricât de puternic și dezvoltat este sistemul informațional al întreprinderii, acesta nu poate ajuta la rezolvarea acestor probleme, în primul rând, pentru că este configurat pentru procese de afaceri staționare, stabilite și, în al doilea rând, nu conține și nu poate conține informații pentru luarea deciziilor privind noi domenii de activitate. afaceri, noi tehnologii, noi decizii organizaționale.

Datorită tehnologiei de procesare și analiză a datelor OLAP (On-Line Analytical Processing), orice organizație poate obține aproape instantaneu (în decurs de cinci secunde) datele necesare muncii. OLAP poate fi definit pe scurt prin cinci Cuvinte cheie.

FAST (Rapid) - aceasta înseamnă că timpul de căutare și furnizare a informațiilor necesare nu durează mai mult de cinci secunde. Cele mai simple cereri sunt procesate într-o secundă, iar câteva cereri complexe au un timp de procesare mai mare de douăzeci de secunde. Pentru a obține acest rezultat, sunt folosite diverse metode, de la forme speciale de stocare a datelor până la pre-calculări extinse. În acest fel, puteți obține un raport într-un minut care anterior a durat câteva zile pentru a fi pregătit.

ANALIZĂ (Analitică) spune că sistemul poate efectua orice analiză, atât statistică, cât și logică, și apoi o stochează într-o formă accesibilă.

SHARED înseamnă că sistemul oferă confidențialitatea necesară până la nivelul celulei

MULTIDIMENSIONAL (Multidimensional) este principala caracteristică a OLAP. Sistemul trebuie să suporte pe deplin ierarhii și ierarhii multiple, deoarece acesta este cel mai logic mod de a analiza atât activitățile de afaceri, cât și cele organizaționale.

INFORMAȚIE. Informațiile corecte trebuie livrate acolo unde este nevoie.

Atunci când o organizație funcționează, se acumulează întotdeauna date legate de domeniul său de activitate, care uneori sunt stocate în locuri complet diferite, iar reunirea lor este atât dificilă, cât și consumatoare de timp. Pentru a accelera achiziția de date pentru a testa ipotezele de afaceri emergente, a fost dezvoltată tehnologia de procesare interactivă a datelor analitice, sau OLAP. Scopul principal al unor astfel de sisteme OLAP este de a răspunde rapid la solicitările arbitrare ale utilizatorilor. Această nevoie apare adesea atunci când se dezvoltă un proiect de afaceri important, când dezvoltatorul are nevoie de o ipoteză de lucru care a apărut. Cel mai adesea, informațiile de care are nevoie utilizatorul ar trebui să fie prezentate sub forma unui fel de dependență - de exemplu, modul în care volumul vânzărilor depinde de categoria de produs, de regiunea de vânzări, de perioada anului și așa mai departe. Datorită OLAP, el poate obține imediat datele necesare în aspectul dorit pentru perioada selectată.

Tehnologia interactivă OLAP vă permite să transformați grămezi uriașe de rapoarte și munți de date în informații utile și precise, care vor ajuta un angajat să ia o decizie de afaceri sau financiară informată la momentul potrivit.

În plus, datorită OLAP, eficiența procesării crește, iar utilizatorul poate primi volume mari de informații sortate (agregate) aproape instantaneu. Datorită OLAP, utilizatorul poate vedea clar cât de eficient funcționează organizația sa, are capacitatea de a răspunde rapid și flexibil la schimbările externe și are capacitatea de a minimiza pierderile financiare ale organizației sale. OLAP oferă informații precise care îmbunătățesc calitatea deciziilor luate.

Singurul dezavantaj al sistemelor de analiză de afaceri este costul lor ridicat. Crearea unui depozit de informații personale necesită atât timp, cât și mulți bani.

Utilizarea tehnologiei OLAP în afaceri vă permite să obțineți rapid informațiile necesare, care, la cererea utilizatorului, pot fi prezentate în forma obișnuită - rapoarte, grafice sau tabele.

Procedurile de integrare a sistemelor pentru structurile de afaceri se bazează pe utilizarea soluțiilor comune ERP, CRM și SCM. În multe cazuri, sistemele sunt furnizate de diferiți producători, iar datele importate trebuie să fie supuse armonizării datelor și să fie prezentate ca date eterogene. Într-un mediu de afaceri, există o cerință neechivocă - o analiză completă a datelor, care implică vizualizarea rapoartelor consolidate din diferite puncte de vedere.

Diferiți producători au mecanisme diferite de raportare a datelor. Procedura de reprezentare eterogenă implică extragerea, transformarea și încărcarea (ETL). De exemplu, la Microsoft SQL Server 2005 Analysis Services, problema consolidării datelor este implementată folosind Data Source Views - tipuri de surse de date care descriu modele de prezentare analitică.

Aplicații de afaceri bazate pe tehnologii OLAP, exemple de produse. Cele mai comune aplicații ale tehnologiilor OLAP sunt:

Analiza datelor.

Sarcina pentru care cele mai populare instrumente OLAP au fost utilizate inițial și rămân încă. Un model de date multidimensional, capacitatea de a analiza volume semnificative de date și răspuns rapid la solicitările făcute sisteme similare indispensabil pentru analiza de vânzări, activități de marketing, distribuție și alte sarcini cu o cantitate mare de date sursă.

Exemple de produse: Microsoft Excel Tabele pivot, Microsoft Analysis Services, SAP BW, Oracle Essbase, Oracle OLAP, Cognos PowerPlay, MicroStrategy, Business Objects.

Planificare financiară-bugetare.

Un model multidimensional vă permite să introduceți simultan date și să le analizați cu ușurință (de exemplu, planificați analiza faptelor). Prin urmare, o serie de produse moderne CPM (Corporate Performance Management) folosesc modele OLAP%. O sarcină importantă este calculul invers multidimensional (backsolve, breakback, writeback), care vă permite să calculați modificările necesare în celulele detaliate atunci când valoarea agregată se modifică. Este un instrument de analiză ce se întâmplă dacă, de ex. pentru a juca diverse opțiuni pentru evenimente în timpul planificării.

Exemple de produse: Microsoft PerformancePint, Oracle EPB, Oracle OFA, Oracle Hyperion Planning, SAP SEM, Cognos Enterprise Planning, Geac.

Consolidarea financiară.

Consolidarea datelor în conformitate cu standardele internaționale de contabilitate, luând în considerare cotele de proprietate, diferitele valute și cifra de afaceri internă, este o sarcină urgentă în legătură cu cerințele din ce în ce mai stricte ale organismelor de inspecție (SOX, Basel II) și ale companiilor care ies la bursă. Tehnologiile OLAP vă permit să accelerați calculul rapoartelor consolidate și să creșteți transparența întregului proces.

Exemple de produse: Oracle FCH, Oracle Hyperion FM, Cognos Controller.

Tehnologii de depozitare a datelor și procesare analitică on-line (OLAP).
sunt elemente importante ale suportului pentru deciziile de afaceri, care devin din ce în ce mai mult o parte integrantă a oricărei industrii. Utilizarea tehnologiilor OLAP ca instrument de analiză de afaceri oferă mai mult control și acces în timp util la strategii
informații care facilitează luarea eficientă a deciziilor.
Acest lucru oferă posibilitatea de a simula previziunile din viața reală și de a utiliza resursele mai eficient. OLAP permite unei organizații să răspundă mai rapid la cerințele pieței.

Bibliografie:

1. Erik Thomsen. Soluții OLAP: Construirea sistemelor informaționale multidimensionale ediția a doua. Wiley Computer Publishing John Wiley & Sons, Inc., 2002.

2. Cartea albă a Consiliului OLAP, http://www.olapcouncil.org/research/whtpaply.htm

3. Gerd Stumme și Bernhard Ganter. Analiza Conceptului Formal _ Fundamentele Matematice.

Introducere

În zilele noastre, aproape nicio organizație nu se poate lipsi de sistemele de gestionare a bazelor de date, în special printre cele care se concentrează în mod tradițional pe interacțiunea cu clienții. Băncile, companiile de asigurări, companiile aeriene și alte companii de transport, lanțurile de supermarketuri, firmele de telecomunicații și marketing, organizațiile implicate în sectorul serviciilor și altele - toate colectează și stochează gigabytes de date despre clienți, produse și servicii în bazele lor de date. Valoarea unor astfel de informații este de netăgăduit. Astfel de baze de date sunt numite operaționale sau tranzacționale deoarece se caracterizează printr-un număr mare de tranzacții mici, sau operațiuni de scriere-citire. Sisteme informatice sistemele care înregistrează tranzacțiile și accesează efectiv bazele de date de tranzacții sunt de obicei numite sisteme de procesare a tranzacțiilor online (OLTP - On-Line Transactional Processing) sau sisteme de contabilitate.

Sistemele de contabilitate sunt configurate și optimizate pentru a funcționa cantitate maxima tranzacții pe perioade scurte de timp. De obicei, tranzacțiile individuale sunt foarte mici și nu au legătură între ele. Cu toate acestea, fiecare înregistrare de date care caracterizează interacțiunea cu un client (un apel la serviciul de asistență, o tranzacție în numerar, o comandă dintr-un catalog, o vizită pe site-ul companiei etc.) poate fi folosită pentru a obține informații calitativ noi și anume pentru a crea raportează și analizează activitățile companiei.

Gama de funcții analitice în sistemele contabile este de obicei foarte limitată. Schemele utilizate în aplicațiile OLTP fac dificilă crearea chiar și de rapoarte simple, deoarece datele sunt adesea distribuite pe mai multe tabele și necesită operațiuni complexe de îmbinare pentru a le agrega. În general, încercarea de a crea rapoarte complexe necesită multă putere de procesare și are ca rezultat pierderea performanței.

În plus, sistemele de contabilitate stochează date în continuă schimbare. Pe măsură ce tranzacțiile sunt colectate, valorile totale se schimbă foarte repede, astfel încât două analize efectuate la câteva minute una de cealaltă pot da rezultate diferite. Cel mai adesea, analiza este efectuată la sfârșitul perioadei de raportare, altfel imaginea poate fi distorsionată. În plus, datele necesare analizei pot fi stocate în mai multe sisteme.

Unele analize necesită schimbări structurale care nu sunt fezabile în mediul de operare actual. De exemplu, trebuie să aflați ce se va întâmpla dacă compania introduce produse noi. O astfel de cercetare nu poate fi efectuată pe o bază reală. În consecință, analizele eficiente pot fi rareori efectuate direct în sistemul contabil.

Sistemele de sprijin pentru decizii au de obicei mijloacele de a furniza utilizatorului date agregate pentru diverse mostre din setul original într-o formă convenabilă pentru percepție și analiză. De obicei, astfel de funcții agregate formează un set de date multidimensionale (și, prin urmare, non-relaționale) (numit adesea hipercub sau metacub), ale cărui axe conțin parametri, iar celulele conțin date agregate care depind de ei - și astfel de date pot fi, de asemenea, stocate în tabele relaționale. De-a lungul fiecărei axe, datele pot fi organizate într-o ierarhie, reprezentând diferite niveluri de detaliu. Datorită acestui model de date, utilizatorii pot formula interogări complexe, pot genera rapoarte și pot obține subseturi de date.

Tocmai acest lucru a dus la interesul pentru sistemele de suport decizional, care au devenit principala zonă de aplicare a OLAP (On-Line Analytical Processing, procesare analitică operațională, analiza datelor operaționale), transformând „minereul” sistemelor OLTP într-un „produs” finit pe care managerii și analiștii îl pot folosi direct. Această metodă permite analiștilor, managerilor și directorilor să obțină o perspectivă asupra datelor acumulate prin acces rapid și consecvent la o gamă largă de vizualizări de informații.

Scopul cursului este de a examina tehnologia OLAP.

prelucrarea datelor analitice multidimensionale

Parte principală

1 Informații de bază despre OLAP

Conceptul OLAP se bazează pe principiul reprezentării multidimensionale a datelor. Edgar Codd a inventat termenul OLAP în 1993. Luând în considerare dezavantajele model relațional, el a subliniat în primul rând imposibilitatea „combinării, vizualizării și analizării datelor din punct de vedere al dimensiunilor multiple, adică în cel mai înțeles mod pentru analiștii corporativi” și a definit cerințele generale pentru sistemele OLAP care extind funcționalitatea SGBD-urilor relaționale și include analiza multidimensională ca una dintre caracteristicile sale.

Într-un număr mare de publicații, acronimul OLAP denotă nu numai o vedere multidimensională a datelor, ci și stocarea datelor în sine într-o bază de date multidimensională. În general, acest lucru nu este adevărat, deoarece Codd însuși notează că „Bazele de date relaționale au fost, sunt și vor fi cea mai potrivită tehnologie pentru stocarea datelor întreprinderii. Nu este nevoie de o nouă tehnologie de baze de date, ci mai degrabă de instrumente de analiză care să completeze funcțiile SGBD-urile existente și suficient de flexibile pentru a activa și automatiza diferitele tipuri de minerit inerente OLAP.” O astfel de confuzie duce la opoziții precum „OLAP sau ROLAP”, ceea ce nu este în întregime corect, întrucât ROLAP (OLAP relațional) la nivel conceptual susține toată funcționalitatea definită de termenul OLAP. Pare mai de preferat să folosiți termenul special MOLAP pentru OLAP bazat pe SGBD-uri multidimensionale. Potrivit Codd, o viziune conceptuală multidimensională este o perspectivă multiplă constând din mai multe dimensiuni independente de-a lungul cărora pot fi analizate seturi specifice de date. Analiza simultană pe mai multe dimensiuni este definită ca analiză multivariată. Fiecare dimensiune include zone de consolidare a datelor, constând dintr-o serie de niveluri succesive de generalizare, unde fiecărui nivel superior îi corespunde un grad mai mare de agregare a datelor pentru dimensiunea corespunzătoare. Da, măsurare.

Antreprenorul poate fi determinat de direcția de consolidare, constând din nivelurile de generalizare „întreprindere – divizie – departament – ​​angajat”. Dimensiunea Timp poate include chiar și două direcții de consolidare - „an - trimestru - lună - zi” și „săptămână - zi”, deoarece numărarea timpului pe lună și pe săptămână este incompatibilă. În acest caz, devine posibil să se selecteze în mod arbitrar nivelul dorit de detaliu al informațiilor pentru fiecare dintre dimensiuni. Operațiunea de foraj în jos corespunde mișcării de la stadiile superioare la cele inferioare de consolidare; dimpotriva, operatia de rulare inseamna deplasare de la nivelurile inferioare la cele superioare.

Codd a identificat 12 reguli care trebuie îndeplinite software clasa OLAP.

1.2 Cerințe pentru instrumentele de procesare analitică online

Vedere conceptuală multidimensională. Reprezentarea conceptuală a modelului de date într-un produs OLAP trebuie să fie de natură multidimensională, adică să permită analiștilor să efectueze operațiuni intuitive de „slice and dice”, rotire și pivotare a direcțiilor de consolidare. Transparenţă. Utilizatorul nu trebuie să știe ce instrumente specifice sunt folosite pentru stocarea și procesarea datelor, cum sunt organizate datele sau de unde provin.

Accesibilitate. Analistul trebuie să fie capabil să efectueze analize în cadrul unui cadru conceptual comun, dar datele pot rămâne sub controlul SGBD-urilor moștenite în timp ce sunt legate de un model analitic comun. Adică, instrumentul OLAP trebuie să-și suprapună schema logică pe seturile de date fizice, efectuând toate transformările necesare pentru a oferi o vedere unică, consecventă și holistică a informațiilor utilizatorului.

Performanță constantă de raportare. Pe măsură ce numărul de dimensiuni și dimensiunile bazei de date cresc, analiștii nu ar trebui să experimenteze nicio degradare a performanței. Performanța susținută este necesară pentru a menține ușurința de utilizare și lipsa de complexitate care este necesară pentru a aduce OLAP la utilizatorul final.

Arhitectura client - server (Arhitectura Client-Server). Majoritatea datelor care necesită procesare analitică rapidă sunt stocate în sisteme mainframe și preluate din calculatoare personale. Prin urmare, una dintre cerințe este capacitatea produselor OLAP de a funcționa într-un mediu client-server. Ideea principală aici este că componenta server a unui instrument OLAP trebuie să fie suficient de inteligentă și să aibă capacitatea de a construi o schemă conceptuală comună prin rezumarea și consolidarea diferitelor scheme logice și fizice ale bazelor de date ale întreprinderii pentru a oferi un efect transparent.

Dimensionalitatea generică. Toate dimensiunile datelor trebuie să fie egale. caracteristici suplimentare pot fi furnizate dimensiunilor individuale, dar deoarece toate sunt simetrice, această funcționalitate suplimentară poate fi furnizată oricărei dimensiuni. Structura de date de bază, formulele și formatele de raportare nu ar trebui să se bazeze pe nicio dimensiune.

Manipulare dinamică a matricei rare. Un instrument OLAP trebuie să ofere procesarea optimă a matricelor rare. Viteza de acces trebuie menținută indiferent de locația celulelor de date și trebuie să fie constantă pentru modele cu numere diferite de dimensiuni și dispersie diferită a datelor.

Suport multi-utilizator. Adesea, mai mulți analiști trebuie să lucreze simultan cu un model analitic sau să creeze modele diferite pe baza acelorași date corporative. Instrumentul OLAP trebuie să le ofere acces simultan și să asigure integritatea și securitatea datelor.

Suport nerestricționat pentru operațiuni transdimensionale. Calculele și manipularea datelor de-a lungul oricărui număr de dimensiuni nu trebuie să interzică sau să restricționeze nicio relație între celulele de date. Transformările care necesită definiții arbitrare trebuie specificate într-un limbaj de formule complet funcțional.

Manipularea intuitivă a datelor. Reorientarea direcțiilor de consolidare, detalierea datelor în coloane și rânduri, agregarea și alte manipulări inerente structurii ierarhiei direcțiilor de consolidare ar trebui efectuate în cea mai convenabilă, naturală și confortabilă interfață de utilizator.

Mecanism flexibil de raportare. Trebuie suportat diferite căi vizualizarea datelor, adică rapoartele ar trebui să fie prezentate în orice orientare posibilă.

Dimensiuni și niveluri de agregare nelimitate. Se recomandă insistent ca fiecare instrument OLAP serios să asume cel puțin cincisprezece, și de preferință douăzeci, dimensiuni în modelul analitic.

2 Componente ale sistemelor OLAP

2.1 Server. Client. Internet

OLAP vă permite să efectuați analize rapide și eficiente pe volume mari de date. Datele sunt stocate într-o formă multidimensională care reflectă cel mai bine starea naturală a datelor de afaceri din lumea reală. De asemenea, OLAP oferă utilizatorilor posibilitatea de a agrega datele mai rapid și mai ușor. Cu acesta, ei pot detalia conținutul acestor date, dacă este necesar, pentru a obține informații mai detaliate.

Un sistem OLAP este format din mai multe componente. La cel mai înalt nivel de prezentare, sistemul include o sursă de date, un server OLAP și un client. O sursă de date reprezintă sursa din care sunt preluate datele pentru analiză. Datele din sursă sunt transferate sau copiate pe serverul OLAP, unde sunt sistematizate și pregătite pentru generarea mai rapidă de răspunsuri la interogări. Clientul este interfața de utilizator cu serverul OLAP. Această secțiune a articolului descrie funcțiile fiecărei componente și semnificația întregului sistem ca întreg. Surse. Sursa în sistemele OLAP este serverul care furnizează date pentru analiză. În funcție de zona de utilizare a produsului OLAP, sursa poate fi un Data Warehouse, o bază de date moștenită care conține date comune, un set de tabele care combină date financiare sau orice combinație a celor de mai sus. Capacitatea unui produs OLAP de a lucra cu date din diverse surse este foarte importantă. Solicitarea unui singur format sau a unei singure baze de date în care sunt stocate toate datele sursă nu este potrivită pentru administratorii de baze de date. În plus, această abordare reduce flexibilitatea și puterea produsului OLAP. Administratorii și utilizatorii cred că produsele OLAP care pot prelua date nu numai din mai multe surse, ci și mai multe surse sunt mai flexibile și mai utile decât cele cu cerințe mai stricte.

Server. Partea aplicativă a sistemului OLAP este serverul OLAP. Această componentă face toată munca (în funcție de modelul sistemului) și stochează toate informațiile la care este oferit accesul activ. Arhitectura serverului este guvernată de diferite concepte. În special, principala caracteristică funcțională a unui produs OLAP este utilizarea unei baze de date multidimensionale (MMDB) sau relaționale (RDB) pentru stocarea datelor. Date agregate/preagregate

Implementarea rapidă a interogărilor este un imperativ pentru OLAP. Acesta este unul dintre principiile de bază ale OLAP - capacitatea de a manipula în mod intuitiv datele necesită regăsirea rapidă a informațiilor. În general, cu cât trebuie făcute mai multe calcule pentru a obține o informație, cu atât răspunsul este mai lent. Prin urmare, pentru a reduce timpul de implementare a interogărilor, informațiile care sunt de obicei accesate cel mai des, dar care necesită și calcul, sunt supuse unei agregări preliminare. Adică sunt numărate și apoi stocate în baza de date ca date noi. Un exemplu de tip de date care pot fi calculate în avans sunt datele rezumative - de exemplu, cifrele de vânzări pentru luni, trimestre sau ani, pentru care datele efectiv introduse sunt cifre zilnice.

Diferiți furnizori au metode diferite de selectare a parametrilor, necesitând pre-agregare și numărul de valori precalculate. Abordarea de agregare afectează atât baza de date, cât și timpul de execuție a interogării. Dacă se calculează mai multe valori, probabilitatea ca utilizatorul să solicite o valoare care a fost deja calculată crește și, prin urmare, timpul de răspuns va fi redus prin faptul că nu trebuie să solicite calcularea valorii inițiale. Cu toate acestea, dacă calculați toate valorile posibile, acest lucru nu este Cea mai bună decizie- in acest caz, dimensiunea bazei de date creste semnificativ, ceea ce o va face de negestionat, iar timpul de agregare va fi prea mare. În plus, atunci când în baza de date sunt adăugate valori numerice sau dacă acestea se modifică, aceste informații trebuie reflectate în valori precalculate care depind de noile date. Astfel, actualizarea bazei de date poate dura mult și în cazul unui număr mare de valori precalculate. Deoarece baza de date rulează de obicei offline în timpul agregării, este de dorit ca timpul de agregare să nu fie prea lung.

Client. Clientul este exact ceea ce este folosit pentru a prezenta și manipula datele din baza de date. Clientul poate fi destul de simplu - sub forma unui tabel care include astfel de capabilități OLAP, cum ar fi, de exemplu, rotația datelor (pivotarea) și aprofundarea în date (drilling), și reprezintă un vizualizator de rapoarte specializat, dar la fel de simplu sau poate fi același Unealtă puternică, ca o aplicație personalizată concepută pentru manipularea complexă a datelor. Internetul este formă nouă client. În plus, poartă amprenta noilor tehnologii; Multe soluții de Internet diferă semnificativ în ceea ce privește capacitățile lor în general și ca soluție OLAP în special. ÎN aceasta sectiune Sunt discutate diferitele proprietăți funcționale ale fiecărui tip de client.

În ciuda faptului că serverul este „coloana vertebrală” a unei soluții OLAP, clientul nu este mai puțin important. Serverul poate oferi o bază solidă pentru a facilita manipularea datelor, dar dacă clientul este complex sau limitat în funcționalitate, utilizatorul nu va putea profita din plin de puternicul server. Clientul este atât de important încât mulți furnizori își concentrează eforturile exclusiv pe dezvoltarea clienților. Tot ceea ce este inclus în aceste aplicații este o privire standard asupra interfeței, funcțiilor și structurii predefinite și solutii rapide pentru situaţii mai mult sau mai puţin standard. De exemplu, pachetele financiare sunt populare. Aplicațiile financiare prefabricate permit profesioniștilor să utilizeze instrumente financiare familiare fără a fi nevoie să proiecteze o structură de bază de date sau formulare și rapoarte convenționale. Instrument de interogare/Generator de rapoarte. Un instrument de interogare sau un generator de rapoarte oferă acces ușor la datele OLAP. Au o interfață grafică ușor de utilizat și permit utilizatorilor să creeze rapoarte prin tragerea și plasarea obiectelor în raport. În timp ce un generator de rapoarte tradițional oferă utilizatorului posibilitatea de a produce rapid rapoarte formatate, generatoarele de rapoarte activate cu OLAP produc rapoarte actualizate. Produsul final este un raport care are capacitatea de a detalia datele la nivel de detaliu, de a roti (pivot) rapoarte, de a sprijini ierarhiile etc. Suplimente (adăugiri) foilor de calcul.

Astăzi, multe linii de afaceri folosesc foi de calcul pentru a efectua diferite forme de analiză a datelor corporative. În anumite privințe, este un instrument ideal pentru crearea de rapoarte și vizualizarea datelor. Analistul poate crea macrocomenzi care manipulează datele într-o direcție specifică, iar șablonul poate fi proiectat astfel încât atunci când datele sunt introduse, formulele să calculeze valorile corecte, eliminând nevoia de a introduce în mod repetat calcule simple.

Totuși, toate acestea au ca rezultat un raport „plat”, ceea ce înseamnă că, odată creat, este dificil să îl examinăm din diferite aspecte. De exemplu, o diagramă afișează informații pentru o anumită perioadă de timp, de exemplu, o lună. Și dacă cineva dorește să vadă date zilnice (spre deosebire de datele lunare), va trebui creată o diagramă complet nouă. Există noi seturi de date de definit, noi etichete de adăugat la diagramă și multe alte modificări simple, dar care necesită timp. În plus, există o serie de domenii în care pot fi făcute erori, ceea ce în general reduce fiabilitatea. Când OLAP este adăugat la un tabel, este posibil să creați o singură diagramă și apoi să o manipulați în diferite moduri pentru a oferi utilizatorului informațiile de care are nevoie, fără sarcina de a crea orice vizualizare posibilă. Internetul ca client. Cel mai nou membru al familiei de clienți OLAP este Internetul. Există multe avantaje în a genera rapoarte OLAP pe Internet. Cea mai semnificativă este lipsa necesității de software specializat pentru a accesa informații. Acest lucru economisește companiei mult timp și bani.

Fiecare produs Internet este specific. Unele facilitează crearea de pagini Web, dar au mai puțină flexibilitate. Alții vă permit să creați vizualizări ale datelor și apoi să le salvați ca fișiere HTML statice. Toate acestea fac posibilă vizualizarea datelor prin Internet, dar nimic mai mult. Este imposibil să manipulați în mod activ datele cu ajutorul lor.

Există un alt tip de produs - interactiv și dinamic, care transformă astfel de produse în instrumente complet funcționale. Utilizatorii pot explora datele, pot pivota, pot limita măsurători etc. Înainte de a alege o implementare pe Internet, este important să înțelegeți ce funcţionalitate necesare dintr-o soluție web și apoi determinați ce produs va implementa cel mai bine acea funcționalitate.

Aplicații. Aplicațiile sunt un tip de client care utilizează baze de date OLAP. Sunt identice cu instrumentele de interogare și generatoarele de rapoarte descrise mai sus, dar în plus aduc o funcționalitate mai mare produsului. Aplicația este în general mai puternică decât instrumentul de interogare.

Dezvoltare. De obicei, furnizorii OLAP oferă un mediu de dezvoltare pentru ca utilizatorii să își creeze propriile aplicații personalizate. Mediul de dezvoltare în ansamblu este o interfață grafică care acceptă dezvoltarea de aplicații orientate pe obiecte. În plus, majoritatea furnizorilor oferă un API care poate fi utilizat pentru a integra bazele de date OLAP cu alte aplicații.

2.2 Clienți OLAP

Clienții OLAP cu un motor OLAP încorporat sunt instalați pe computerele utilizatorilor. Nu necesită server pentru calcul și nu au nicio administrare implicată. Astfel de clienți permit utilizatorului să se adapteze la bazele de date existente; De regulă, se creează un dicționar care ascunde structura fizică a datelor din spatele descrierii subiectului, pe înțelesul unui specialist. După aceasta, clientul OLAP execută interogări arbitrare și afișează rezultatele într-un tabel OLAP. În acest tabel, la rândul său, utilizatorul poate manipula datele și poate primi sute de rapoarte diferite pe ecran sau pe hârtie. Clienții OLAP proiectați să funcționeze cu RDBMS vă permit să analizați datele deja disponibile în corporație, de exemplu, stocate într-o bază de date OLTP. Cu toate acestea, al doilea scop al lor poate fi acela de a crea rapid și ieftin depozite sau magazine de date - în acest caz, programatorii organizației trebuie doar să creeze seturi de tabele stea în baze de date relaționale și proceduri de încărcare a datelor. Cea mai consumatoare parte a muncii - scrierea interfețelor cu numeroase opțiuni pentru interogări și rapoarte personalizate - este implementată în clientul OLAP în doar câteva ore. Utilizatorul final are nevoie de aproximativ 30 de minute pentru a stăpâni un astfel de program. Clienții OLAP sunt furnizați de dezvoltatorii de baze de date, atât multidimensionali, cât și relaționali. Acestea sunt SAS Corporate Reporter, care este aproape un produs standard în ceea ce privește comoditatea și frumusețea, Oracle Discoverer, un set de programe MS Pivot Services și Pivot Table etc. Multe programe concepute pentru a funcționa cu MS OLAP Services sunt livrate ca parte a programului. Campania „OLAP pentru Masse”, realizată de Microsoft Corporation. De regulă, acestea sunt versiuni îmbunătățite ale tabelului pivot și sunt concepute pentru a fi utilizate în MS Office sau un browser web. Acestea sunt produse de la Matryx, Knosys etc., care, datorită simplității, ieftinității și eficienței lor, au câștigat o popularitate imensă în Occident.

3 Clasificarea produselor OLAP

3.1 OLAP multidimensional

În prezent, pe piață există un număr mare de produse care oferă funcționalitate OLAP într-o măsură sau alta. Oferă o vedere conceptuală multidimensională din exterior interfața cu utilizatorul la baza de date sursă, toate produsele OLAP sunt împărțite în trei clase în funcție de tipul bazei de date sursă.

1. Primele sisteme de procesare analitică online (de exemplu, Essbase de la Arbor Software, Oracle Express Server de la Oracle) aparțineau clasei MOLAP, adică puteau funcționa doar cu propriile baze de date multidimensionale. Acestea se bazează pe tehnologii proprietare pentru SGBD-uri multidimensionale și sunt cele mai scumpe. Aceste sisteme oferă un ciclu complet de procesare OLAP. Acestea fie includ, pe lângă componenta server, propria interfață client integrată, fie folosesc programe externe lucrul cu foi de calcul. Pentru a menține astfel de sisteme, este necesar un personal special de angajați care să instaleze, să întrețină sistemul și să creeze vizualizări de date pentru utilizatorii finali.

2. Sistemele de procesare analitică relațională online (ROLAP) permit ca datele stocate într-o bază de date relațională să fie reprezentate în formă multidimensională, oferind transformarea informațiilor într-un model multidimensional printr-un strat intermediar de metadate. Această clasă include Suita DSS de la MicroStrategy, MetaCube de la Informix, DecisionSuite de la Information Advantage și altele. Pachete software InfoVisor, dezvoltat în Rusia, la Universitatea de Stat Energetică din Ivanovo, este, de asemenea, un sistem din această clasă. Sistemele ROLAP sunt potrivite pentru lucrul cu spații mari de depozitare. La fel ca sistemele MOLAP, acestea necesită întreținere semnificativă de către specialiștii în tehnologia informației și implică operarea multi-utilizator.

3. În sfârșit, sistemele hibride (Hybrid OLAP, HOLAP) sunt concepute pentru a combina avantajele și a minimiza dezavantajele inerente claselor anterioare. Speedware's Media/MR se încadrează în această clasă. Potrivit dezvoltatorilor, acesta combină flexibilitatea analitică și viteza de răspuns a MOLAP cu accesul constant la date reale inerente ROLAP.

Pe lângă instrumentele enumerate, există o altă clasă - instrumente pentru generarea de interogări și rapoarte pentru computerele desktop, completate cu funcții OLAP sau integrate cu instrumente externe care îndeplinesc astfel de funcții. Aceste sisteme bine dezvoltate preiau date din sursele originale, le transformă și le plasează într-o bază de date dinamică multidimensională care rulează pe stația client a utilizatorului final. Principalii reprezentanți ai acestei clase sunt BusinessObjects de la compania cu același nume, BrioQuery de la Brio Technology și PowerPlay de la Cognos. O prezentare generală a unor produse OLAP este oferită în anexă.

În SGBD-urile specializate bazate pe o reprezentare multidimensională a datelor, datele sunt organizate nu sub formă de tabele relaționale, ci sub formă de tablouri multidimensionale ordonate:

1) hipercuburi (toate celulele stocate în baza de date trebuie să aibă aceeași dimensiune, adică să fie în cea mai completă bază de măsurare) sau

2) policuburi (fiecare variabilă este stocată cu propriul set de măsurători, iar toate dificultățile de procesare asociate sunt transferate mecanismelor interne ale sistemului).

Utilizarea bazelor de date multidimensionale în sistemele de procesare analitică online are următoarele avantaje.

1. În cazul utilizării SGBD multidimensionale, căutarea și preluarea datelor este mult mai rapidă decât în ​​cazul unei vizualizări conceptuale multidimensionale a unei baze de date relaționale, deoarece baza de date multidimensională este denormalizată, conține indicatori pre-agregați și oferă acces optimizat la celulele solicitate.

2. SGBD-urile multidimensionale fac față cu ușurință sarcinilor de includere a diferitelor funcții încorporate în modelul informațional, în timp ce limitările existente în mod obiectiv ale limbajului SQL fac realizarea acestor sarcini pe baza SGB-urilor relaționale destul de dificilă și uneori imposibilă.

Pe de altă parte, există limitări semnificative.

1. SGBD-urile multidimensionale nu permit lucrul cu baze de date mari. În plus, datorită denormalizării și agregării pre-executate, volumul de date dintr-o bază de date multidimensională, de regulă, corespunde (conform estimării lui Codd) cu 2,5-100 de ori mai puțin decât volumul datelor detaliate originale.

2. SGBD-urile multidimensionale, în comparație cu cele relaționale, folosesc memoria externă foarte ineficient. În marea majoritate a cazurilor, hipercubul informațional este foarte rar și, deoarece datele sunt stocate într-o formă ordonată, valorile nedefinite pot fi eliminate doar prin alegerea ordinii optime de sortare, care vă permite să organizați datele în cea mai mare. posibile grupuri învecinate. Dar chiar și în acest caz, problema este doar parțial rezolvată. În plus, ordinea optimă de sortare pentru stocarea datelor rare nu va fi cel mai probabil ordinea care este folosită cel mai des în interogări. Prin urmare, în sistemele reale este necesar să se caute un compromis între performanță și redundanța spațiului pe disc ocupat de baza de date.

În consecință, utilizarea SGBD-ului multidimensional este justificată doar în următoarele condiții.

1. Volumul datelor inițiale pentru analiză nu este prea mare (nu mai mult de câțiva gigaocteți), adică nivelul de agregare a datelor este destul de ridicat.

2. Setul de dimensiuni informaționale este stabil (întrucât orice modificare a structurii lor necesită aproape întotdeauna o restructurare completă a hipercubului).

3. Timpul de răspuns al sistemului la solicitările nereglementate este cel mai critic parametru.

4. Necesită utilizarea extinsă a funcțiilor încorporate complexe pentru a efectua calcule transdimensionale pe celule hipercub, inclusiv capacitatea de a scrie funcții personalizate.

Utilizarea directă a bazelor de date relaționale în sistemele de procesare analitică online are următoarele avantaje.

1. În cele mai multe cazuri, depozitele de date corporative sunt implementate folosind SGBD relațional, iar instrumentele ROLAP permit analiza direct pe acestea. În același timp, dimensiunea de stocare nu este un parametru atât de critic ca în cazul MOLAP.

2. În cazul unei dimensiuni variabile a problemei, când modificări ale structurii de măsurare trebuie făcute destul de des, sistemele ROLAP cu reprezentarea dinamică a dimensiunilor sunt soluția optimă, întrucât astfel de modificări nu necesită reorganizarea fizică a bazei de date.

3. SGBD relațional oferă mult mai mult nivel inalt protecția datelor și opțiuni bune pentru diferențierea drepturilor de acces.

Principalul dezavantaj al ROLAP în comparație cu SGBD-urile multidimensionale este performanța mai scăzută. Pentru a oferi performanțe comparabile cu MOLAP, sistemele relaționale necesită proiectarea atentă a schemei bazei de date și configurarea indicilor, adică mult efort din partea administratorilor de baze de date. Numai prin folosirea schemelor stea poate performanța sistemelor relaționale bine reglate să se apropie de cea a sistemelor bazate pe baze de date multidimensionale.

Lucrările sunt dedicate în întregime descrierii schemei stelare și recomandărilor pentru utilizarea acesteia. Ideea este că există tabele pentru fiecare dimensiune, iar toate faptele sunt plasate într-un singur tabel, indexat printr-o cheie multiplă alcătuită din cheile dimensiunilor individuale (Anexa A). Fiecare rază a diagramei stelare specifică, în terminologia lui Codd, direcția consolidării datelor de-a lungul dimensiunii corespunzătoare.

În problemele complexe cu dimensiuni pe mai multe niveluri, este logic să apelăm la extensii ale schemei stelare - schema constelației (schema constelației de fapt) și schema fulgilor de zăpadă (schema fulgilor de zăpadă). În aceste cazuri, sunt create tabele de fapte separate pentru posibile combinații de niveluri rezumative diverse măsurători(Anexa B). Acest lucru permite o performanță mai bună, dar duce adesea la redundanța datelor și la o complexitate semnificativă în structura bazei de date, care conține un număr mare de tabele de fapte.

O creștere a numărului de tabele de fapte dintr-o bază de date poate rezulta nu numai din multiplicitatea nivelurilor de dimensiuni diferite, ci și din faptul că, în general, faptele au seturi diferite de dimensiuni. Când face abstractie de la măsurătorile individuale, utilizatorul trebuie să primească o proiecție a celui mai complet hipercub, iar valorile indicatorilor din acesta nu sunt întotdeauna rezultatul unei însumări elementare. Astfel, cu un număr mare de dimensiuni independente, este necesar să se mențină multe tabele de fapte corespunzătoare fiecărei combinații posibile de dimensiuni selectate în interogare, ceea ce duce, de asemenea, la o utilizare irosită. memorie externa, crescând timpul de încărcare a datelor în baza de date a schemei stea din surse externeși dificultăți de administrare.

Extensiile la limbajul SQL rezolvă parțial această problemă (instrucțiunile GROUP BY CUBE, GROUP BY ROLLUP și GROUP BY GROUPING SETS); în plus, se propune un mecanism pentru găsirea unui compromis între redundanță și performanță, recomandând crearea de tabele de fapte nu pentru toți combinații posibile de dimensiuni, dar numai pentru cei ale căror valori de celule nu pot fi obținute folosind agregarea ulterioară mai mult mese pline fapte (Anexa B).

În orice caz, dacă model multidimensional implementat ca o bază de date relațională, ar trebui să creați tabele cu fapte lungi și „înguste” și tabele cu dimensiuni relativ mici și „late”. Tabelele de fapte conțin valorile numerice ale celulelor hipercubului, iar tabelele rămase definesc baza de măsurare multidimensională care le conține. Unele informații pot fi obținute utilizând agregarea dinamică a datelor distribuite pe structuri normalizate non-stea, deși trebuie amintit că interogările care implică agregarea într-o structură de bază de date foarte normalizată pot fi destul de lente.

Concentrarea pe reprezentarea informațiilor multidimensionale folosind modele relaționale în formă de stea ne permite să scăpăm de problema optimizării stocării matricelor rare, care este acută pentru SGBD-urile multidimensionale (unde problema dispersității este rezolvată printr-o alegere specială a schemei). Deși se folosește o înregistrare întreagă pentru a stoca fiecare celulă, care, pe lângă valorile în sine, include chei secundare - link-uri către tabelele de dimensiuni, valorile inexistente pur și simplu nu sunt incluse în tabelul de fapte.

Concluzie

Luând în considerare problemele de funcționare și aplicare a tehnologiei OLAP, companiile se confruntă cu întrebări, răspunsurile la care le vor permite să aleagă un produs care să răspundă cel mai bine nevoilor utilizatorului.

Acestea sunt următoarele întrebări:

De unde vin datele? – Datele de analizat pot fi localizate în locuri diferite. Este posibil ca baza de date OLAP să le primească de la un depozit de date enterprise sau de la un sistem OLTP. Dacă produsul OLAP are deja capacitatea de a accesa o sursă de date, procesele de clasificare și curățare a datelor sunt reduse.

Ce manipulări efectuează utilizatorul asupra datelor? -
Odată ce un utilizator a accesat baza de date și a început să efectueze analize, este important să fie capabil să manipuleze datele în mod corespunzător. În funcție de nevoile utilizatorului, este posibil să fie nevoie de un generator de rapoarte puternic sau de capacitatea de a crea și găzdui pagini web dinamice. Cu toate acestea, poate fi de preferat ca utilizatorul să aibă la dispoziție un mijloc de a-și crea ușor și rapid propriile aplicații.

Care este cantitatea totală de date? - Acesta este cel mai important factor la definirea unei baze de date OLAP. Produsele OLAP relaționale pot gestiona cantități mari de date mai bine decât cele multidimensionale. Dacă volumul de date nu necesită utilizarea unei baze de date relaționale, un produs multidimensional poate fi utilizat cu același succes.

Cine este utilizatorul? - La definirea unui client de sistem OLAP, nivelul de calificare al utilizatorului este important. Unii utilizatori sunt mai confortabil să integreze OLAP cu un tabel, în timp ce alții vor prefera o aplicație dedicată. În funcție de calificările utilizatorului, se decide și problema desfășurării instruirii. O companie mare poate fi dispusă să plătească pentru instruirea utilizatorilor, o companie mai mică o poate refuza. Clientul trebuie să fie astfel încât utilizatorii să se simtă încrezători și să îl poată folosi eficient.

Astăzi, majoritatea companiilor din lume au trecut la utilizarea OLAP ca tehnologie de bază pentru a furniza informații factorilor de decizie. Prin urmare, întrebarea fundamentală de pus este dacă foile de calcul ar trebui să fie utilizate în continuare ca platformă principală pentru raportare, bugetare și prognoză. Companiile trebuie să se întrebe dacă sunt dispuse să-și piardă avantajul competitiv utilizând informații inexacte, irelevante și incomplete înainte de a se maturiza suficient pentru a lua în considerare tehnologii alternative.

De asemenea, în concluzie, trebuie menționat că capacitățile analitice ale tehnologiilor OLAP cresc utilitatea datelor stocate într-un depozit de informații corporative, permițând unei companii să interacționeze mai eficient cu clienții săi.

Glosar

Concept Definiție
1 Instrumente BI Instrumente și tehnologii utilizate pentru accesarea informațiilor. Include tehnologii OLAP, extragerea datelorși analiză complexă; instrumente pentru utilizatorii finali și instrumente de interogare ad-hoc, tablouri de bord de monitorizare a afacerii și generatoare de rapoarte corporative.
2 Procesare analitică on-line, OLAP (Procesare analitică operațională) Tehnologie pentru prelucrarea analitică a informațiilor în timp real, inclusiv compilarea și publicarea dinamică a rapoartelor și documentelor.
3 Slice and Dice (secțiuni longitudinale și transversale, literalmente - „tăiere în felii și cuburi”) Un termen folosit pentru a descrie funcționalitatea complexă de analiză a datelor furnizată de instrumentele OLAP. Preluarea datelor dintr-un cub multidimensional cu valori specificate și un aranjament relativ specificat al dimensiunilor.
4 Pivot de date Procesul de rotire a unui tabel de date, adică de conversie a coloanelor în rânduri și invers.
5 Membru calculat Un element de măsurare a cărui mărime este determinată de mărimile altor elemente (de exemplu, în aplicații matematice sau logice). Elementul calculat poate face parte dintr-un server OLAP sau poate fi descris de utilizator în timpul unei sesiuni interactive. Un element calculat este orice element care nu este introdus, dar este calculat.
6 Modele de afaceri globale Un tip de Data Warehouse care oferă acces la informații care sunt distribuite în diverse sisteme de întreprindere și se află sub controlul diferitelor divizii sau departamente cu baze de date și modele de date diferite. Acest tip de Data Warehouse este dificil de construit din cauza necesității de a combina eforturile utilizatorilor din diferite departamente pentru a dezvolta un model comun de date pentru Warehouse.
7 Exploatarea datelor Tehnici tehnice care folosesc instrumente software concepute pentru un astfel de utilizator care, de regulă, nu poate spune în prealabil ce anume caută, ci poate indica doar anumite modele și direcții de căutare.
8 Client server O abordare tehnologică care constă în împărțirea procesului în funcții separate. Serverul îndeplinește mai multe funcții - gestionarea comunicațiilor, asigurarea întreținerii bazei de date etc. Clientul îndeplinește funcții individuale de utilizator - furnizarea de interfețe adecvate, efectuarea de navigare pe ecrane, furnizarea de funcții de ajutor etc.
9 Bază de date multidimensională, MDBS și MDBMS O bază de date puternică care permite utilizatorilor să analizeze volume mari de date. O bază de date cu o organizare specială de stocare - cuburi, furnizând de mare viteză lucrul cu date stocate ca o colecție de fapte, dimensiuni și agregate precalculate.
10 Drill Down O metodă de examinare a datelor detaliate utilizată pentru a analiza nivelul rezumat al datelor. Nivelurile de „aprofundare” depind de nivelul de detaliu al datelor din [ran.
11 Depozitul central

1. Baza de date care contine date colectate de la sisteme de operare organizatii. Are o structură convenabilă pentru analiza datelor. Proiectat pentru a sprijini luarea deciziilor și pentru a crea o unitate unificată spațiu informațional corporatii.

2. O metodă de automatizare care acoperă toate sistemele informaționale gestionate dintr-un singur loc.

1 Golitsina O.L., Maksimov N.V., Popov I.I. Baze de date: manual. – M.: FORUM: INFRA-M, 2003. – 352 p.

2 Data K. Introducere în sistemele de baze de date. – M.: Nauka, 2005 – 246 p.

3 Elmanova N.V., Fedorov A.A. Introducere în tehnologiile Microsoft OLAP. – M.: Dialog-MEPhI, 2004. – 312 p.

4 Karpova T.S. Baze de date: modele, dezvoltare, implementare. – Sankt Petersburg: Peter, 2006. – 304 p.

5 Korovkin S. D., Levenets I. A., Ratmanova I. D., Starykh V. A., Shchavelev L. V. Soluție la problema analizei operaționale complexe a informațiilor din depozitele de date // DBMS. - 2005. - Nr. 5-6. - 47-51 s.

6 Krechetov N., Ivanov P. Produse pentru data mining ComputerWeek-Moscova. - 2003. - Nr. 14-15. - 32-39 s.

7 Przhiyalkovsky V.V. Analiza complexă a datelor cu volum mare: noi perspective pentru informatizare // DBMS. - 2006. - Nr 4. - 71-83 p.

8 Saharov A. A. Concept de construcție și implementare a sistemelor informaționale axate pe analiza datelor // DBMS. - 2004. - Nr 4. - 55-70 p.

9 Ullman J. Fundamentele sistemelor de baze de date. – M.: Finanțe și Statistică, 2003. – 312 p.

10 Hubbard J. Proiectare automată a bazelor de date. – M.: Mir, 2007. – 294 p.


Korovkin S. D., Levenets I. A., Ratmanova I. D., Starykh V. A., Shchavelev L. V. Rezolvarea problemei analizei operaționale complexe a informațiilor din depozitele de date // DBMS. - 2005. - Nr. 5-6. - 47-51 s.

Ullman J. Fundamentele sistemelor de baze de date. – M.: Finanțe și Statistică, 2003. – 312 p.

Barseghian A.A., Kupriyanov M.S. Tehnologii de analiză a datelor: DataMining, VisualMining, TextMining, Olap. – Sankt Petersburg: BHV-Petersburg, 2007. – 532 p.

Elmanova N.V., Fedorov A.A. Introducere în tehnologiile Microsoft OLAP. – M.: Dialog-MEPhI, 2004. – 312 p.

Data K. Introducere în sistemele de baze de date. – M.: Nauka, 2005 – 246 p.

Golitsina O.L., Maksimov N.V., Popov I.I. Baze de date: manual. – M.: FORUM: INFRA-M, 2003. – 352 p.

Saharov A. A. Concept de construcție și implementare a sistemelor informaționale axat pe analiza datelor // DBMS. - 2004. - Nr 4. - 55-70 p.

Przhiyalkovsky V.V. Analiza complexă a datelor cu volum mare: noi perspective pentru computerizare // DBMS. - 2006. - Nr 4. - 71-83 p.

depozite de date sunt formate pe baza unor instantanee ale bazelor de date operaționale înregistrate pe o perioadă lungă de timp Sistem informatic și eventual diverse surse externe. Depozitele de date folosesc tehnologii de baze de date, OLAP, analiza profundă a datelor și vizualizarea datelor.

Principalele caracteristici ale depozitelor de date.

  • conține date istorice;
  • stochează informații detaliate, precum și date rezumate parțial și complet;
  • datele sunt în mare parte statice;
  • un mod ad-hoc, nestructurat și euristic de prelucrare a datelor;
  • intensitate medie și scăzută de procesare a tranzacțiilor;
  • mod imprevizibil de utilizare a datelor;
  • destinat analizei;
  • axat pe domeniile subiectului;
  • sprijin pentru luarea deciziilor strategice;
  • deservește un număr relativ mic de angajați din conducere.

Termenul OLAP (On-Line Analytical Processing) este folosit pentru a descrie modelul de prezentare a datelor și, în consecință, tehnologia de prelucrare a acestora în depozitele de date. OLAP folosește o reprezentare multidimensională a datelor agregate pentru a furniza acces rapid spre strategic Informații importanteîn scopul analizei aprofundate. Aplicațiile OLAP trebuie să aibă următoarele proprietăți de bază:

  • multidimensionale prezentarea datelor;
  • suport pentru calcule complexe;
  • luarea în considerare corectă a factorului timp.

Avantajele OLAP:

  • promovare productivitate personal de producție, dezvoltatori programe de aplicație. Acces în timp util la informații strategice.
  • oferind oportunități suficiente utilizatorilor de a face propriile modificări ale schemei.
  • Pe care se bazează aplicațiile OLAP depozite de dateși sistemele OLTP, primind date curente de la acestea, ceea ce permite salvarea controlul integritatii date corporative.
  • reducerea sarcinii asupra sistemelor OLTP și depozite de date.

OLAP și OLTP. Caracteristici și diferențe principale

OLAP OLTP
Magazin de date ar trebui să includă atât date interne ale companiei, cât și date externe principala sursă de informații care intră în baza de date operațională este activitățile corporației, iar analiza datelor necesită implicarea surselor externe de informații (de exemplu, rapoarte statistice)
Volumul bazelor de date analitice este cu cel puțin un ordin de mărime mai mare decât volumul celor operaționale. pentru a efectua analize și prognoze fiabile în depozit de date trebuie să aveți informații despre activitățile corporației și condițiile de piață pe parcursul mai multor ani Pentru o prelucrare promptă, sunt necesare date pentru ultimele luni
Magazin de date trebuie să conțină informații uniform prezentate și consecvente, cât mai apropiate de conținutul bazelor de date operaționale. Este necesară o componentă pentru extragerea și „curățarea” informațiilor din diferite surse. În multe corporații mari, există simultan mai multe sisteme informaționale operaționale cu propriile baze de date (din motive istorice). Bazele de date operaționale pot conține informații echivalente din punct de vedere semantic prezentate în diferite formate, cu diferite indicații ale momentului sosirii sale, uneori chiar contradictorii
Setul de interogări către o bază de date analitică nu poate fi prezis. depozite de date există pentru a răspunde solicitărilor ad-hoc din partea analiștilor. Poți conta doar pe faptul că cererile nu vor veni prea des și vor implica cantități mari de informații. Dimensiunea bazei de date analitice încurajează utilizarea interogărilor cu agregate (suma, minim, maxim, valoarea medie etc.) Sistemele de prelucrare a datelor sunt create pentru a rezolva probleme specifice. Informațiile din baza de date sunt selectate frecvent și în porțiuni mici. De obicei, un set de interogări către o bază de date operațională este cunoscut deja în timpul proiectării
Cu o variabilitate scăzută a bazelor de date analitice (doar la încărcarea datelor), ordonarea matricelor se dovedește a fi rezonabilă, mai mult metode rapide indexare pentru eșantionarea în masă, stocarea datelor pre-agregate Sistemele de prelucrare a datelor prin natura lor sunt foarte variabile, ceea ce este luat în considerare în SGBD-ul utilizat (structură normalizată a bazei de date, rânduri stocate în neregulă, arbori B pentru indexare, tranzacționale)
Informațiile analitice ale bazei de date sunt atât de critice pentru o corporație încât este necesară o mai mare granularitate a protecției (drepturi de acces individuale la anumite rânduri și/sau coloane ale tabelului) Pentru sistemele de prelucrare a datelor este de obicei suficient protectia informatiilor la nivelul mesei

Regulile Codd pentru sistemele OLAP

În 1993, Codd a publicat OLAP for User Analysts: What It Should Be. În acesta, el a subliniat conceptele de bază ale analizei online și a definit 12 reguli care trebuie îndeplinite de produsele care oferă capabilități de analiză online.

  1. Reprezentare conceptuală multidimensională. Un model OLAP trebuie să fie multidimensional la bază. O diagramă conceptuală multidimensională sau o reprezentare personalizată facilitează modelarea și analiza, precum și calculele.
  2. Transparenţă. Utilizatorul poate obține toate datele necesare din motorul OLAP, fără să știe măcar de unde provine. Indiferent dacă produsul OLAP face parte sau nu din instrumentele utilizatorului, acest fapt ar trebui să fie invizibil pentru utilizator. Dacă OLAP este furnizat de calculul client-server, atunci acest fapt ar trebui, de asemenea, dacă este posibil, să fie invizibil pentru utilizator. OLAP trebuie furnizat în contextul unei arhitecturi cu adevărat deschise, permițând utilizatorului, oriunde s-ar afla, să comunice printr-un instrument analitic cu serverul. În plus, transparența ar trebui să fie realizată și atunci când instrumentul analitic interacționează cu medii de baze de date omogene și eterogene.
  3. Disponibilitate. OLAP trebuie să furnizeze propriile sale circuit logic pentru a accesa într-un mediu de bază de date eterogen și pentru a efectua transformări adecvate pentru a furniza date utilizatorului. Mai mult, este necesar să aveți grijă în prealabil despre unde și cum și ce tipuri de organizare fizică a datelor vor fi utilizate efectiv. Un sistem OLAP ar trebui să acceseze doar datele necesare efectiv și să nu aplice principiul general al „pâlniei de bucătărie” care presupune introducerea inutilă.
  4. Constant performanţă la elaborarea rapoartelor. Performanţă capacitatea de a genera rapoarte nu ar trebui să scadă semnificativ pe măsură ce numărul de dimensiuni și dimensiunea bazei de date crește.
  5. Arhitectura client-server. Necesită ca produsul să nu fie doar client-server, ci și ca componenta server să fie suficient de inteligentă pentru a permite diferiților clienți să se conecteze cu un minim de efort și programare.
  6. Multidimensionalitate generală. Toate dimensiunile trebuie să fie egale, fiecare dimensiune trebuie să fie echivalentă atât ca structură, cât și ca capabilități operaționale. Adevărat, capacități operaționale suplimentare sunt permise pentru măsurători individuale (aparent, timpul este implicit), dar așa funcții suplimentare trebuie furnizate pentru orice măsurătoare. Nu ar trebui să fie atât de elementar structuri de date, formatele de calcul sau de raportare erau mai specifice unei singure dimensiuni.
  7. Control dinamic matrici rare. Sistemele OLAP trebuie să își ajusteze automat schema fizică în funcție de tipul modelului, volumele de date și dispersitatea bazei de date.
  8. Suport multi-utilizator. Un instrument OLAP trebuie să ofere capabilități partajarea(interogare și completare), integritate și securitate.
  9. Operațiuni încrucișate nelimitate. Toate tipurile de operații trebuie permise pentru orice măsurători.
  10. Manipularea intuitivă a datelor. Manipularea datelor a fost efectuată prin acțiuni directe asupra celulelor în modul de vizualizare fără a utiliza meniuri și operații multiple.
  11. Opțiuni flexibile de raportare. Dimensiunile trebuie plasate în raport așa cum are nevoie utilizatorul.
  12. Nelimitat

4. Clasificarea produselor OLAP.

5. Principiile de funcționare ale clienților OLAP.

7. Domenii de aplicare a tehnologiilor OLAP.

8. Un exemplu de utilizare a tehnologiilor OLAP pentru analiză în vânzări.

1. Locul OLAP în structura informaţională a întreprinderii.

Termenul „OLAP” este indisolubil legat de termenul „depozit de date” (Data Warehouse).

Datele din depozit provin din sisteme operaționale (sisteme OLTP), care sunt concepute pentru a automatiza procesele de afaceri. În plus, depozitul poate fi completat din surse externe, cum ar fi rapoartele statistice.

Scopul depozitului este de a furniza „materia primă” pentru analiză într-un singur loc și într-o structură simplă, ușor de înțeles.

Mai există un motiv care justifică apariția unei facilități de stocare separate - interogările analitice complexe pentru informații operaționale încetinesc activitatea curentă a companiei, blocând tabelele pentru o lungă perioadă de timp și confiscând resursele serverului.

Un depozit nu înseamnă neapărat o acumulare gigantică de date - principalul lucru este că este convenabil pentru analiză.

Centralizarea și structurarea convenabilă nu sunt tot ceea ce are nevoie un analist. Mai are nevoie de un instrument pentru vizualizarea și vizualizarea informațiilor. Rapoartelor tradiționale, chiar și cele construite pe un singur depozit, le lipsește un singur lucru - flexibilitatea. Ele nu pot fi „răsucite”, „extinse” sau „restrânse” pentru a obține vizualizarea dorită a datelor. Dacă ar avea un instrument care să-i permită să extindă și să restrângă datele simplu și convenabil! OLAP acționează ca un astfel de instrument.

Deși OLAP nu este un atribut necesar al unui depozit de date, acesta este din ce în ce mai folosit pentru a analiza informațiile acumulate în depozit.

Locul OLAP în structura informațională a unei întreprinderi (Fig. 1).

Poza 1. LocOLAP în structura informaţională a întreprinderii

Datele operaționale sunt colectate din diverse surse, curățate, integrate și stocate într-un magazin relațional. În plus, acestea sunt deja disponibile pentru analiză folosind diverse instrumente de raportare. Apoi datele (în întregime sau parțial) sunt pregătite pentru analiza OLAP. Acestea pot fi încărcate într-o bază de date OLAP specială sau stocate în stocare relațională. Cel mai important element al său sunt metadatele, adică informații despre structura, plasarea și transformarea datelor. Datorită acestora, este asigurată interacțiunea eficientă a diferitelor componente de stocare.

Pentru a rezuma, putem defini OLAP ca un set de instrumente pentru analiza multidimensională a datelor acumulate într-un depozit.

2. Prelucrare operațională a datelor analitice.

Conceptul OLAP se bazează pe principiul reprezentării multidimensionale a datelor. În 1993, E. F. Codd a abordat deficiențele modelului relațional, subliniind în primul rând incapacitatea de a „fuziona, vizualiza și analiza datele în termeni de dimensiuni multiple, adică în cel mai înțeles mod pentru analiștii de întreprindere”, și a definit cerințele generale pentru sistemele OLAP care extind funcționalitatea SGBD relațional și includ analiza multidimensională ca una dintre caracteristicile sale.

Potrivit Codd, o viziune conceptuală multidimensională este o perspectivă multiplă constând din mai multe dimensiuni independente de-a lungul cărora pot fi analizate seturi specifice de date.

Analiza simultană pe mai multe dimensiuni este definită ca analiză multivariată. Fiecare dimensiune include zone de consolidare a datelor, constând dintr-o serie de niveluri succesive de generalizare, unde fiecărui nivel superior îi corespunde un grad mai mare de agregare a datelor pentru dimensiunea corespunzătoare.

Astfel, dimensiunea Performer poate fi determinată de direcția de consolidare, constând din nivelurile de generalizare „întreprindere – divizie – departament – ​​angajat”. Dimensiunea Timp poate include chiar și două direcții de consolidare - „an - trimestru - lună - zi” și „săptămână - zi”, deoarece numărarea timpului pe lună și pe săptămână este incompatibilă. În acest caz, devine posibil să se selecteze în mod arbitrar nivelul dorit de detaliu al informațiilor pentru fiecare dintre dimensiuni.

Operatia de coborare (drill down) corespunde deplasarii de la stadiile superioare de consolidare la cele inferioare; dimpotrivă, operația de ridicare (rularea) înseamnă deplasarea de la nivelurile inferioare la cele superioare (Fig. 2).


Figura 2.Dimensiunile și direcțiile consolidării datelor

3. Cerințe pentru instrumentele de procesare analitică online.

Abordarea multidimensională a apărut aproape simultan și în paralel cu cea relațională. Cu toate acestea, abia începând de la mijlocul anilor nouăzeci, sau mai degrabă de la
1993, interes pentru MDBMS a început să se răspândească. Anul acesta a apărut un nou articol programatic al unuia dintre fondatorii abordării relaționale E. Codda, în care a formulat 12 cerințe de bază pentru mijloacele de implementare OLAP(Tabelul 1).

Tabelul 1.

Reprezentarea datelor multidimensionale

Instrumentele trebuie să susțină o viziune conceptuală multidimensională a datelor.

Transparenţă

Utilizatorul nu trebuie să știe ce instrumente specifice sunt folosite pentru stocarea și procesarea datelor, cum sunt organizate datele și de unde provin.

Disponibilitate

Instrumentele în sine trebuie să selecteze și să contacteze cea mai bună sursă de date pentru a genera un răspuns la o anumită solicitare. Instrumentele trebuie să poată mapa automat propria logică la diverse surse de date eterogene.

Performanță constantă

Performanța ar trebui să fie practic independentă de numărul de dimensiuni din interogare.

Suport arhitectură client-server

Instrumentele trebuie să funcționeze într-o arhitectură client-server.

Egalitatea tuturor dimensiunilor

Niciuna dintre dimensiuni nu trebuie să fie de bază; toate trebuie să fie egale (simetrice).

Prelucrarea dinamică a matricelor rare

Valorile nedefinite trebuie stocate și tratate în cel mai eficient mod posibil.

Suport pentru modul multi-utilizator de lucru cu date

Instrumentele trebuie să ofere posibilitatea de a lucra mai mult de un utilizator.

Sprijină operațiuni bazate pe diferite dimensiuni

Toate operațiunile multidimensionale (cum ar fi agregarea) trebuie aplicate uniform și consecvent oricărui număr de dimensiuni.

Ușurință în manipularea datelor

Instrumentele ar trebui să aibă cea mai convenabilă, naturală și confortabilă interfață de utilizator.

Instrumente avansate de prezentare a datelor

Instrumentele trebuie să accepte diverse moduri de vizualizare (prezentare) a datelor.

Număr nelimitat de dimensiuni și niveluri de agregare a datelor

Nu ar trebui să existe nicio limitare a numărului de dimensiuni acceptate.

Reguli pentru evaluarea produselor software din clasa OLAP

Setul acestor cerințe, care a servit drept definiție reală a OLAP, ar trebui să fie considerat ca un ghid, iar produsele specifice ar trebui evaluate în funcție de gradul în care se apropie de îndeplinirea perfectă a tuturor cerințelor.

Definiția lui Codd a fost revizuită ulterior în așa-numitul test FASMI, care necesită ca aplicația OLAP să ofere capacitatea de a analiza rapid informațiile multidimensionale partajate.

Amintirea celor 12 reguli ale lui Codd este prea împovărătoare pentru majoritatea oamenilor. Se pare că putem rezuma definiția OLAP cu doar cinci cuvinte cheie: Analiza rapidă a informațiilor multidimensionale partajate - sau, pe scurt - FASMI (tradus din engleză:F ast A analiza S hared M ultradimensional eu informație).

Această definiție a fost formulată pentru prima dată la începutul anului 1995 și de atunci nu a mai trebuit să fie revizuită.

RAPID ( Rapid ) - înseamnă că sistemul ar trebui să fie capabil să ofere cele mai multe răspunsuri utilizatorilor în aproximativ cinci secunde. În același timp, cele mai simple cereri sunt procesate într-o secundă și foarte puține - mai mult de 20 de secunde. Cercetările au arătat că utilizatorii finali percep un proces ca nereușit dacă rezultatele nu sunt obținute după 30 de secunde.

La prima vedere, poate părea surprinzător că, atunci când primește un raport într-un minut care nu cu mult timp în urmă a durat zile, utilizatorul se plictisește foarte repede în timp ce așteaptă, iar proiectul se dovedește a fi mult mai puțin reușit decât în ​​cazul unei instante. răspuns, chiar și cu prețul unei analize mai puțin detaliate.

ANALIZĂînseamnă că sistemul poate face față oricărei analize logice și statistice caracteristice aceasta aplicație, și asigură păstrarea acestuia într-o formă accesibilă utilizatorului final.

Nu este atât de important dacă analiza este efectuată în instrumentele proprii ale vânzătorului sau într-un produs software extern asociat, cum ar fi o foaie de calcul, doar că toate funcționalitățile de analiză necesare trebuie furnizate într-un mod intuitiv pentru utilizatorii finali. Instrumentele de analiză ar putea include anumite proceduri, cum ar fi analiza seriilor temporale, alocarea costurilor, transferurile valutare, căutările țintelor, modificarea structurilor multidimensionale, modelarea non-procedurală, detectarea excepțiilor, extragerea datelor și alte operațiuni dependente de aplicație. Astfel de capabilități variază foarte mult între produse, în funcție de orientarea țintei.

IMPARTIT înseamnă că sistemul implementează toate cerințele de protecție a confidențialității (eventual până la nivelul celulei) și, dacă este necesar acces multiplu la scriere, se asigură că modificările sunt blocate la nivelul corespunzător. Nu toate aplicațiile necesită rescrierea datelor. Cu toate acestea, numărul de astfel de aplicații este în creștere, iar sistemul trebuie să poată face față modificărilor multiple în timp util și sigur.

MULTIDIMENSIONAL (Multidimensional) - aceasta este o cerință cheie. Dacă ar trebui să definiți OLAP într-un singur cuvânt, l-ați alege. Sistemul trebuie să ofere o vedere conceptuală multidimensională a datelor, inclusiv suport complet pentru ierarhii și ierarhii multiple, deoarece acesta este în mod clar cel mai logic mod de a analiza afacerile și organizațiile. Nu există un număr minim de dimensiuni care trebuie procesate, deoarece acest lucru depinde și de aplicație, iar majoritatea produselor OLAP au un număr suficient de dimensiuni pentru piețele pe care le vizează.

INFORMAȚIE - asta este tot. Informatie necesara trebuie obținut acolo unde este nevoie. Totuși, multe depind de aplicație. Puterea diferitelor produse este măsurată în funcție de câte date de intrare pot procesa, dar nu de câți gigaocteți pot stoca. Puterea produselor variază foarte mult - cele mai mari produse OLAP pot gestiona de cel puțin o mie de ori mai multe date decât cele mai mici. Există mulți factori de luat în considerare în acest sens, inclusiv duplicarea datelor, cerințele RAM, utilizarea spațiului pe disc, parametrii de performanță, integrarea cu depozitele de informații etc.

Testul FASMI este o definiție rezonabilă și de înțeles a obiectivelor pe care OLAP își propune să le atingă.

4. ClasificareOLAP-produse.

Deci, esența OLAP constă în faptul că informațiile inițiale pentru analiză sunt prezentate sub forma unui cub multidimensional și este posibilă manipularea în mod arbitrar și obținerea secțiunilor de informații necesare - rapoarte. În acest caz, utilizatorul final vede cubul ca pe un tabel dinamic multidimensional care rezumă automat datele (fapte) în diferite secțiuni (dimensiuni) și permite gestionarea interactivă a calculelor și formularului de raport. Implementarea acestor operațiuni este asigurată OLAP -mașină (sau mașină calcule OLAP).

Astăzi, în lume au fost dezvoltate multe produse care se vând OLAP -tehnologii. Pentru a facilita navigarea între ele, sunt folosite clasificări OLAP -produse: prin metoda de stocare a datelor pentru analiza si dupa localizare OLAP - mașini. Să aruncăm o privire mai atentă la fiecare categorie produse OLAP.

Clasificarea după metoda de stocare a datelor

Cuburile multidimensionale sunt construite pe baza datelor sursă și agregate. Atât datele sursă, cât și cele agregate pentru cuburi pot fi stocate atât în ​​baze de date relaționale, cât și în baze de date multidimensionale. Prin urmare, în prezent sunt utilizate trei metode de stocare a datelor: MOLAP (OLAP multidimensional), ROLAP (OLAP relațional) și HOLAP (OLAP hibrid) ). Respectiv, OLAP -produsele după metoda de stocare a datelor se împart în trei categorii similare:

1. În cazul MOLAP , datele sursă și agregate sunt stocate într-o bază de date multidimensională sau într-un cub local multidimensional.

2. În ROLAP -datele sursă ale produselor sunt stocate în baze de date relaționale sau în tabele locale plate pe un server de fișiere. Datele agregate pot fi plasate în tabele de servicii din aceeași bază de date. Conversia datelor dintr-o bază de date relațională în cuburi multidimensionale are loc la cerere instrumente OLAP.

3. În caz de utilizare HOLAP arhitectura, datele originale raman in baza de date relationala, iar agregatele sunt plasate in cea multidimensionala. Constructie OLAP -cub executat la cerere OLAP - instrumente bazate pe date relaționale și multidimensionale.

Clasificare după locație OLAP- mașini.

Pe această bază OLAP -produsele se împart în Servere OLAP și clienți OLAP:

· În serverul OLAP - mijloacele de calcul și stocare a datelor agregate se realizează printr-un proces separat - serverul. Aplicația client primește doar rezultatele interogărilor împotriva cuburilor multidimensionale care sunt stocate pe server. niste OLAP -serverele suportă stocarea datelor doar în baze de date relaționale, unele doar în cele multidimensionale. Multe moderne OLAP -serverele acceptă toate cele trei metode de stocare a datelor:MOLAP, ROLAP și HOLAP.

MOLAP.

MOLAP este Procesare analitică on-line multidimensională, adică OLAP multidimensional.Aceasta înseamnă că serverul folosește o bază de date multidimensională (MDB) pentru a stoca date. Scopul utilizării MBD este evident. Poate stoca eficient date care sunt de natură multidimensională, oferind un mijloc de deservire rapidă a interogărilor bazei de date. Datele sunt transferate dintr-o sursă de date într-o bază de date multidimensională, iar baza de date este apoi agregată. Precalculul este ceea ce accelerează interogările OLAP, deoarece datele rezumative au fost deja calculate. Timpul de interogare devine o funcție exclusiv a timpului necesar pentru a accesa o singură bucată de date și pentru a efectua calculul. Această metodă susține conceptul că munca se face o dată și rezultatele sunt apoi folosite din nou și din nou. Bazele de date multidimensionale sunt o tehnologie relativ nouă. Utilizarea MBD are aceleași dezavantaje ca majoritatea noilor tehnologii. Și anume, ele nu sunt la fel de stabile ca bazele de date relaționale (RDB) și nu sunt optimizate în aceeași măsură. Alte slăbiciune MDB constă în incapacitatea de a utiliza majoritatea bazelor de date multidimensionale în procesul de agregare a datelor, deci este nevoie de timp pentru informație nouă a devenit disponibil pentru analiză.

ROLAP.

ROLAP este Procesare analitică relațională on-line, adică OLAP relaţional.Termenul ROLAP înseamnă că serverul OLAP se bazează pe o bază de date relațională. Datele sursă sunt introduse într-o bază de date relațională, de obicei într-o schemă stea sau fulg de zăpadă, ceea ce ajută la reducerea timpului de recuperare. Serverul oferă un model de date multidimensional folosind interogări SQL optimizate.

Există o serie de motive pentru a alege o bază de date relațională și nu multidimensională. RDB este o tehnologie bine stabilită, cu multe oportunități de optimizare. Utilizarea în lumea reală a dus la un produs mai rafinat. În plus, RDB-urile acceptă volume de date mai mari decât MDB-urile. Sunt proiectate precis pentru astfel de volume. Principalul argument împotriva RDB este complexitatea interogărilor necesare pentru a obține informații de la baza mare date folosind SQL. Un programator SQL fără experiență ar putea încărca cu ușurință resurse valoroase de sistem încercând să execute o interogare similară, care este mult mai ușor de executat în MDB.

Date agregate/preagregate.

Implementarea rapidă a interogărilor este un imperativ pentru OLAP. Acesta este unul dintre principiile de bază ale OLAP - capacitatea de a manipula în mod intuitiv datele necesită regăsirea rapidă a informațiilor. În general, cu cât trebuie făcute mai multe calcule pentru a obține o informație, cu atât răspunsul este mai lent. Prin urmare, pentru a reduce timpul de implementare a interogărilor, informațiile care sunt de obicei accesate cel mai des, dar care necesită și calcul, sunt supuse unei agregări preliminare. Adică sunt numărate și apoi stocate în baza de date ca date noi. Un exemplu de tip de date care pot fi calculate în avans sunt datele rezumative - de exemplu, cifrele de vânzări pentru luni, trimestre sau ani, pentru care datele efectiv introduse sunt cifre zilnice.

Diferiți furnizori au metode diferite de selectare a parametrilor, necesitând pre-agregare și numărul de valori precalculate. Abordarea de agregare afectează atât baza de date, cât și timpul de execuție a interogării. Dacă se calculează mai multe valori, probabilitatea ca utilizatorul să solicite o valoare care a fost deja calculată crește și, prin urmare, timpul de răspuns va fi redus prin faptul că nu trebuie să solicite calcularea valorii inițiale. Cu toate acestea, dacă calculați toate valorile posibile - aceasta nu este cea mai bună soluție - în acest caz dimensiunea bazei de date crește semnificativ, ceea ce o va face imposibil de gestionat, iar timpul de agregare va fi prea lung. În plus, atunci când în baza de date sunt adăugate valori numerice sau dacă acestea se modifică, aceste informații trebuie reflectate în valori precalculate care depind de noile date. Astfel, actualizarea bazei de date poate dura mult și în cazul unui număr mare de valori precalculate. Deoarece baza de date rulează de obicei offline în timpul agregării, este de dorit ca timpul de agregare să nu fie prea lung.

OLAP - clientul este structurat diferit. Construcția unui cub multidimensional și OLAP -calculele se fac in memoria calculatorului client.OLAP -clientii sunt si ei impartiti in ROLAP și MOLAP.Și unele pot accepta ambele opțiuni de acces la date.

Fiecare dintre aceste abordări are propriile sale avantaje și dezavantaje. Spre deosebire de credința populară cu privire la avantajele instrumentelor server față de instrumentele client, într-un număr de cazuri utilizarea OLAP - clientul poate fi mai eficient și mai profitabil de utilizat pentru utilizatori servere OLAP.

Dezvoltarea de aplicații analitice folosind instrumente OLAP client este un proces rapid și nu necesită pregătire specială. Un utilizator care cunoaște implementarea fizică a bazei de date poate dezvolta o aplicație analitică independent, fără implicarea unui specialist IT.

Când utilizați un server OLAP, trebuie să învățați 2 sisteme diferite, uneori de la diferiți furnizori - pentru a crea cuburi pe server și pentru a dezvolta o aplicație client.

Clientul OLAP oferă o interfață vizuală unică pentru descrierea cuburilor și configurarea interfețelor utilizator pentru acestea.

Deci, în ce cazuri utilizarea unui client OLAP poate fi mai eficientă și mai profitabilă pentru utilizatori decât utilizarea unui server OLAP?

· Fezabilitatea economică a aplicării OLAP -server apare atunci când volumele de date sunt foarte mari și copleșitoare pentru OLAP -client, in caz contrar folosirea acestuia din urma este mai justificata. În acest caz OLAP -Clientul combină caracteristicile de înaltă performanță și costul redus.

· PC-uri puternice pentru analiști – un alt argument în favoarea OLAP -clienti. Atunci când se utilizează OLAP -serverele nu folosesc această capacitate.

Printre avantajele clienților OLAP se numără următoarele:

· Costuri de implementare si intretinere OLAP - clientul este semnificativ mai mic decât costurile pentru server OLAP.

· Folosind OLAP - pentru un client cu o mașină încorporată, transmiterea datelor prin rețea se realizează o singură dată. Facand OLAP -operațiunile noilor fluxuri de date nu sunt generate.

5. Principii de funcționare OLAP-clienti.

Să ne uităm la procesul de creare a unei aplicații OLAP folosind un instrument client (Figura 1).

Poza 1.Crearea unei aplicații OLAP folosind instrumentul client ROLAP

Principiul de funcționare al clienților ROLAP este o descriere preliminară a stratului semantic, în spatele căruia se ascunde structura fizică a datelor sursă. În acest caz, sursele de date pot fi: tabele locale, RDBMS. Lista surselor de date acceptate este determinată de produsul software specific. După aceasta, utilizatorul poate manipula în mod independent obiectele pe care le înțelege în termeni domeniul subiectului pentru crearea de cuburi și interfețe analitice.

Principiul de funcționare al clientului server OLAP este diferit. Într-un server OLAP, atunci când creează cuburi, utilizatorul manipulează descrierile fizice ale bazei de date. În același timp, descrierile personalizate sunt create în cubul însuși. Clientul serverului OLAP este configurat numai pentru cub.

Când se creează un strat semantic, sursele de date - tabelele Vânzări și Oferte - sunt descrise în termeni pe care utilizatorul final îi poate înțelege și transforma în „Produse” și „Oferte”. Câmpul „ID” din tabelul „Produse” este redenumit „Cod”, iar „Nume” în „Produs”, etc.

Apoi este creat obiectul de afaceri Vânzări. Un obiect de afaceri este o masă plată pe baza căreia se formează un cub multidimensional. La crearea unui obiect de afaceri, tabelele „Produse” și „Tranzacții” sunt îmbinate prin câmpul „Cod” al produsului. Deoarece toate câmpurile din tabel nu sunt necesare pentru afișare în raport, obiectul de afaceri utilizează numai câmpurile „Articol”, „Data” și „Sumă”.

În exemplul nostru, pe baza obiectului de afaceri „Vânzări”, a fost creat un raport privind vânzările de produse pe lună.

Când lucrează cu un raport interactiv, utilizatorul poate seta condiții de filtrare și grupare cu aceleași mișcări simple ale mouse-ului. În acest moment, clientul ROLAP accesează datele din cache. Clientul server OLAP generează o nouă interogare la baza de date multidimensională. De exemplu, aplicând un filtru după produs într-un raport de vânzări, puteți obține un raport privind vânzările de produse care ne interesează.

Toate setările aplicației OLAP pot fi stocate într-un depozit de metadate dedicat, în aplicație sau într-un depozit de sistem de baze de date multidimensionale.Implementarea depinde de produsul software specific.

Tot ceea ce este inclus în aceste aplicații este o privire standard asupra interfeței, funcții și structuri predefinite și soluții rapide pentru situații mai mult sau mai puțin standard. De exemplu, pachetele financiare sunt populare. Aplicațiile financiare prefabricate permit profesioniștilor să utilizeze instrumente financiare familiare fără a fi nevoie să proiecteze o structură de bază de date sau formulare și rapoarte convenționale.

Internetul este o nouă formă de client. În plus, poartă amprenta noilor tehnologii; o multime de Soluții de internet diferă semnificativ în capacitățile lor în general și ca soluție OLAP în special. Există multe avantaje în a genera rapoarte OLAP pe Internet. Cea mai semnificativă este lipsa necesității de software specializat pentru a accesa informații. Acest lucru economisește companiei mult timp și bani.

6. Selectarea unei arhitecturi de aplicație OLAP.

La implementarea unui sistem informatic și analitic, este important să nu greșiți în alegerea arhitecturii unei aplicații OLAP. Traducerea literală a termenului On-Line Analytical Process - „prelucrare analitică online” - este adesea luată literal în sensul că datele care intră în sistem sunt analizate rapid. Aceasta este o concepție greșită - eficiența analizei nu este în niciun fel legată de timpul real de actualizare a datelor din sistem. Această caracteristică se referă la timpul de răspuns al sistemului OLAP la solicitările utilizatorilor. În același timp, datele analizate reprezintă adesea un instantaneu de informații „de ieri” dacă, de exemplu, datele din depozite sunt actualizate o dată pe zi.

În acest context, traducerea OLAP ca „prelucrare analitică interactivă” este mai precisă. Este capacitatea de a analiza datele într-un mod interactiv care distinge sistemele OLAP de sistemele de pregătire a rapoartelor reglementate.

O altă caracteristică a procesării interactive în formularea fondatorului OLAP E. Codd este capacitatea de a „combina, vizualiza și analiza datele din punctul de vedere al dimensiunilor multiple, adică în cel mai înțeles mod pentru analiștii corporativi”. Codd însuși folosește termenul OLAP pentru a se referi exclusiv la un mod specific de prezentare a datelor la nivel conceptual – multidimensional. La nivel fizic, datele pot fi stocate în baze de date relaționale, dar, în realitate, instrumentele OLAP funcționează de obicei cu baze de date multidimensionale în care datele sunt organizate într-un hipercub (Figura 1).

Poza 1. OLAP– cub (hipercub, metacub)

Mai mult, relevanța acestor date este determinată de momentul în care hipercubul este umplut cu date noi.

Evident, timpul necesar pentru a crea o bază de date multidimensională depinde în mod semnificativ de volumul de date încărcate în ea, așa că este rezonabil să se limiteze acest volum. Dar cum se poate evita restrângerea posibilităților de analiză și privarea utilizatorului de acces la toate informațiile de interes? Există două căi alternative: Analizați apoi interogați și Interogați apoi analizați.

Adepții primei căi propun încărcarea informațiilor generalizate într-o bază de date multidimensională, de exemplu, rezultate lunare, trimestriale și anuale pentru departamente. Și dacă este necesar să detalieze datele, utilizatorului i se cere să genereze un raport folosind o bază de date relațională care conține selecția necesară, de exemplu, pe zi pentru un anumit departament sau pe lună și angajați ai departamentului selectat.

Susținătorii celei de-a doua căi, dimpotrivă, sugerează ca utilizatorul, în primul rând, să decidă asupra datelor pe care urmează să le analizeze și să le încarce într-un microcub - o mică bază de date multidimensională. Ambele abordări diferă la nivel conceptual și au propriile avantaje și dezavantaje.

Avantajele celei de-a doua abordări includ „prospețimea” informațiilor pe care utilizatorul le primește sub forma unui raport multidimensional - un „microcub”. Microcubul este format pe baza informațiilor solicitate din baza de date relațională curentă. Lucrul cu un microcub se realizează într-un mod interactiv - obținerea de felii de informații și detalierea acestuia în microcub se realizează instantaneu. Pentru alții lucru pozitiv este că proiectarea structurii și umplerea microcubului sunt efectuate de utilizator „din zbor”, fără participarea administratorului bazei de date. Cu toate acestea, abordarea suferă și de deficiențe grave. Utilizatorul nu vede imaginea de ansamblu și trebuie să decidă în prealabil direcția cercetării sale. În caz contrar, microcubul solicitat poate fi prea mic și să nu conțină toate datele de interes, iar utilizatorul va trebui să solicite un nou microcub, apoi unul nou, apoi altul și altul. Abordarea de analiză a interogării implementează instrumentul BusinessObjects al companiei cu același nume și instrumentele platformei Contour a companiei.Intersoft laborator.

Cu abordarea Analiză apoi interogare, volumul de date încărcat într-o bază de date multidimensională poate fi destul de mare; completarea trebuie efectuată conform reglementărilor și poate dura destul de mult. Cu toate acestea, toate aceste dezavantaje se plătesc mai târziu, când utilizatorul are acces la aproape toate datele necesare în orice combinație. Accesul la datele sursă dintr-o bază de date relațională se realizează doar în ultimă instanță, atunci când sunt necesare informații detaliate, de exemplu, pe o anumită factură.

Funcționarea unei singure baze de date multidimensionale nu este practic afectată de numărul de utilizatori care o accesează. Ei citesc doar datele disponibile acolo, spre deosebire de abordarea Query then analysis, în care numărul de microcuburi în cazul extrem poate crește în același ritm cu numărul de utilizatori.

Această abordare mărește încărcarea serviciilor IT, care, pe lângă cele relaționale, sunt și obligate să mențină baze de date multidimensionale.Aceste servicii sunt responsabile pentru timp actualizare automata date în baze de date multidimensionale.

Cei mai proeminenți reprezentanți ai abordării „Analiza apoi interogarea” sunt instrumentele PowerPlay și Impromptu de la Cognos.

Alegerea atât a abordării, cât și a instrumentului care o implementează depinde în primul rând de scopul urmărit: trebuie întotdeauna să echilibrați între economiile bugetare și îmbunătățirea calității serviciilor pentru utilizatorii finali. Trebuie avut în vedere faptul că, într-un plan strategic, crearea de sisteme informaționale și analitice urmărește obiectivele de a obține un avantaj competitiv, și nu evitarea costurilor de automatizare. De exemplu, un sistem de informare și analitică corporativă poate oferi informații necesare, oportune și de încredere despre o companie, a căror publicare pentru potențialii investitori va asigura transparența și predictibilitatea companiei, ceea ce va deveni inevitabil o condiție pentru atractivitatea investițională a acesteia.

7. Domenii de aplicare a tehnologiilor OLAP.

OLAP este aplicabil oriunde există o sarcină de analiză a datelor multivariate. În general, având în vedere un tabel de date care are cel puțin o coloană descriptivă (dimensiune) și o coloană numerică (măsuri sau fapte), un instrument OLAP va fi de obicei un instrument eficient de analiză și raportare.

Să ne uităm la câteva domenii de aplicare a tehnologiilor OLAP preluate din viața reală.

1. Vânzări.

Pe baza analizei structurii de vânzări se rezolvă problemele necesare luării deciziilor de management: privind modificarea gamei de mărfuri, prețuri, închiderea și deschiderea magazinelor, filialelor, rezilierea și semnarea contractelor cu dealerii, desfășurarea sau încetarea campaniilor publicitare etc.

2. Achiziții.

Sarcina este opusul analizei vânzărilor. Multe întreprinderi achiziționează componente și materiale de la furnizori. Întreprinderile comerciale cumpără bunuri pentru revânzare. Există multe sarcini posibile atunci când se analizează achizițiile, de la planificare Bani pe baza experienței anterioare, până la control asupra managerilor, alegerea furnizorilor.

3. Preturi.

Analiza prețurilor pieței este strâns legată de analiza achizițiilor. Scopul acestei analize este optimizarea costurilor și selectarea celor mai profitabile oferte.

4. Marketing.

Prin analiză de marketing înțelegem doar zona de analiză a cumpărătorilor sau clienților-consumatori de servicii. Scopul acestei analize este poziționarea corectă a produsului, identificarea grupurilor de cumpărători pentru publicitate direcționată și optimizarea sortimentului. Sarcina OLAP în acest caz este de a oferi utilizatorului un instrument pentru a obține rapid, cu viteza gândirii, răspunsuri la întrebările care apar intuitiv în timpul analizei datelor.

5. Depozit.

Analiza structurii soldurilor depozitului pe tip de mărfuri, depozite, analiza termenului de valabilitate al mărfurilor, analiza expedierilor după destinatar și multe alte tipuri de analize care sunt importante pentru întreprindere sunt posibile dacă organizația are contabilitate de depozit.

6. Fluxul de numerar.

Aceasta este o întreagă zonă de analiză care are multe școli și metode. Tehnologia OLAP poate servi ca instrument pentru implementarea sau îmbunătățirea acestor tehnici, dar nu ca înlocuitor pentru acestea. Cifra de afaceri de numerar a fondurilor non-cash și de numerar este analizată din punct de vedere al operațiunilor de afaceri, contrapartidelor, valutelor și timpului în scopul optimizării fluxurilor, asigurării lichidității etc. Compoziția măsurătorilor depinde în mare măsură de caracteristicile afacerii, industriei și metodologiei.

7. Buget.

Una dintre cele mai fertile domenii de aplicare a tehnologiilor OLAP. Nici unul degeaba sistem modern bugetarea nu este considerată completă fără prezența instrumentelor OLAP pentru analiza bugetară. Majoritatea rapoartelor bugetare sunt ușor de construit pe baza sistemelor OLAP. În același timp, rapoartele răspund la o gamă foarte largă de întrebări: analiza structurii cheltuielilor și veniturilor, compararea cheltuielilor pentru anumite articole din diferite divizii, analiza dinamicii și tendințelor cheltuielilor pentru anumite articole, analiza costurilor și profituri.

8. Conturi.

Un bilanţ clasic format dintr-un număr de cont şi care conţine solduri de intrare, cifra de afaceri şi solduri de ieşire poate fi analizat perfect într-un sistem OLAP. În plus, sistemul OLAP poate calcula automat și foarte rapid soldurile consolidate ale unei organizații cu mai multe sucursale, soldurile pe lună, trimestrul și anul, soldurile agregate pe ierarhia conturilor și soldurile analitice pe baza caracteristicilor analitice.

9. Raportarea financiară.

Un sistem de raportare construit tehnologic nu este altceva decât un set de indicatori numiți cu valori ale datei care trebuie grupați și rezumați în diferite secțiuni pentru a obține rapoarte specifice. Atunci când acesta este cazul, afișarea și tipărirea rapoartelor este cel mai ușor și mai ieftin implementată în sistemele OLAP. În orice caz, sistemul intern de raportare al întreprinderii nu este atât de conservator și poate fi restructurat pentru a economisi bani pe lucrări de inginerie pentru crearea de rapoarte și obținerea de capabilități de analiză operațională multidimensională.

10. Traficul pe site.

Fișierul jurnal al serverului de Internet este de natură multidimensională, ceea ce înseamnă că este potrivit pentru analiza OLAP. Faptele sunt: ​​numărul de vizite, numărul de accesări, timpul petrecut pe pagină și alte informații disponibile în jurnal.

11. Volume de producție.

Acesta este un alt exemplu analize statistice. Astfel, este posibil să se analizeze volumele de cartofi cultivați, de oțel topit și de mărfuri produse.

12. Consumul de consumabile.

Imaginați-vă o fabrică formată din zeci de ateliere în care se consumă lichide de răcire, lichide de spălare, uleiuri, cârpe, șmirghel - sute de tipuri de consumabile. Pentru planificarea corectă și optimizarea costurilor, este necesară o analiză amănunțită a consumului real de consumabile.

13. Utilizarea spațiilor.

Un alt tip de analiză statistică. Exemple: analiza volumului de muncă al sălilor de clasă, clădirilor și spațiilor închiriate, utilizarea sălilor de conferințe etc.

14. Ruloarea personalului la întreprindere.

Analiza fluctuației de personal la întreprindere pe ramuri, departamente, profesii, nivel de studii, sex, vârstă, timp.

15. Transport de pasageri.

Analiza numărului de bilete vândute și a sumelor pe sezon, direcție, tip de vagon (clasă), tip de tren (avion).

Această listă nu se limitează la domeniile de aplicare OLAP - tehnologii. De exemplu, luați în considerare tehnologia OLAP - analiza in domeniul vanzarilor.

8. Exemplu de utilizare OLAP -tehnologii de analiză în domeniul vânzărilor.

Proiectarea unei reprezentări de date multidimensionale pentru OLAP -analiza începe cu formarea unei hărți de măsurare. De exemplu, atunci când se analizează vânzările, poate fi recomandabil să se identifice părți individuale ale pieței (consumatori în curs de dezvoltare, stabili, mari și mici, probabilitatea de noi consumatori etc.) și să se estimeze volumele vânzărilor pe produs, teritoriu, client, segment de piață , canalul de vânzare și dimensiunile comenzilor. Aceste direcții formează grila de coordonate a unei reprezentări multidimensionale a vânzărilor - structura dimensiunilor acesteia.

Întrucât activitățile oricărei întreprinderi se desfășoară în timp, prima întrebare care apare în timpul analizei este problema dinamicii dezvoltării afacerii. Organizarea corectă a axei timpului ne va permite să răspundem calitativ la această întrebare. De obicei, axa timpului este împărțită în ani, trimestre și luni. Este posibilă o fragmentare și mai mare în săptămâni și zile. Structura dimensiunii timp se formează ținând cont de frecvența de primire a datelor; poate fi determinată și de frecvența cererii de informații.

Dimensiunea Grup de produse este concepută pentru a reflecta cât mai aproape posibil structura produselor vândute. În același timp, este important să se mențină un anumit echilibru pentru, pe de o parte, pentru a evita detaliile excesive (numărul de grupuri ar trebui să fie vizibil), și pe de altă parte, pentru a nu rata un segment semnificativ de piață.

Dimensiunea „Clienți” reflectă structura vânzărilor pe baze teritoriale și geografice. Fiecare dimensiune poate avea propriile ierarhii, de exemplu, în această dimensiune poate fi structura: Țări – Regiuni – Orașe – Clienți.

Pentru a analiza performanța departamentelor, ar trebui să vă creați propria măsurare. De exemplu, putem distinge două niveluri de ierarhie: departamentele și diviziile incluse în acestea, care ar trebui să se reflecte în dimensiunea „Divizii”.

De fapt, dimensiunile „Timp”, „Produse”, „Clienți” definesc destul de pe deplin spațiul subiectului.

În plus, este util să împărțiți acest spațiu în zone condiționate, pe baza caracteristicilor calculate, de exemplu, intervale de volum de tranzacție în termeni de valoare. Apoi întreaga afacere poate fi împărțită într-un număr de intervale de cost în care se desfășoară. În acest exemplu, ne putem limita la următorii indicatori: valoarea vânzărilor de mărfuri, numărul de mărfuri vândute, suma veniturilor, numărul tranzacțiilor, numărul clienților, volumul achizițiilor de la producători.

OLAP - cubul pentru analiză va arăta ca (Fig. 2):


Figura 2.OLAP– cub pentru analiza volumului vânzărilor

Tocmai această matrice tridimensională este numită cub în termeni OLAP. De fapt, din punct de vedere al matematicii stricte, o astfel de matrice nu va fi întotdeauna un cub: un cub real trebuie să aibă același număr de elemente în toate dimensiunile, dar cuburile OLAP nu au o astfel de limitare. Un cub OLAP nu trebuie să fie tridimensional. Poate fi atât bidimensional, cât și multidimensional, în funcție de problema rezolvată. Produsele OLAP serioase sunt proiectate pentru aproximativ 20 de dimensiuni. Aplicațiile desktop mai simple acceptă aproximativ 6 dimensiuni.

Nu toate elementele cubului trebuie completate: dacă nu există informații despre vânzările Produsului 2 către Clientul 3 în al treilea trimestru, valoarea din celula corespunzătoare pur și simplu nu va fi determinată.

Totuși, cubul în sine nu este potrivit pentru analiză. Dacă este încă posibil să imaginezi sau să descrii în mod adecvat un cub tridimensional, atunci cu șase sau nouăsprezece dimensiuni situatia este mult mai rea. Prin urmare, înainte de utilizare, tabele bidimensionale obișnuite sunt extrase din cubul multidimensional. Această operație se numește „tăierea” cubului. Analistul, așa cum spune, ia și „tăie” dimensiunile cubului în funcție de semnele de interes pentru el. În acest fel, analistul primește o felie bidimensională a cubului (raport) și lucrează cu ea. Structura raportului este prezentată în Figura 3.

Figura 3.Structura raportului analitic

Să ne tăiem cubul OLAP și să obținem un raport de vânzări pentru al treilea trimestru, va arăta așa (Fig. 4).

Figura 4.Raport de vânzări al treilea trimestru

Puteți tăia cubul de-a lungul celeilalte axe și puteți obține un raport despre vânzările grupului de produse 2 pe parcursul anului (Fig. 5).

Figura 5.Raport trimestrial de vânzări pentru produsul 2

În mod similar, puteți analiza relația cu clientul 4, taierea cubului dupa marca Clienti(Fig. 6)

Figura 6.Raport privind livrările de mărfuri către client 4

Puteți detalia raportul pe lună sau puteți vorbi despre furnizarea de bunuri către o anumită sucursală a clientului.