SQL Plan Management e SQL Plan Baselines

venerdì 4 maggio 2018 alle 04:20 | Pubblicato su 12c, Diario, Performance Tuning | Lascia un commento
Tag:

Con la versione 11.1 Oracle ha sostituito il meccanismo chiamato “Stored Outlines” con uno nuovo chiamato “SQL Plan Baselines”. L’obiettivo è rimasto lo stesso, quello di prevenire il peggioramento delle prestazioni dovuto a cambiamenti di sistema, di versione dell’ottimizzatore o altro che possa far cambiare il piano di esecuzione scelto per una query SQL. Evidentemente le stored outlines erano limitate rispetto alle nuove “SQL Plan Baselines” tanto appunto da richiedere una cosa molto più sofisticata che quindi ha preso un nuovo nome. Cercherò di riportare una sintesi di quanto riporta il manuale “Oracle 12.1 Database SQL Tuning Guide”, capitolo 23: Managing SQL Plan Baselines” Posso dire che a suo tempo ho studiato le Stored Outlines ma non sono mai riuscito ad utilizzarle perché non si adattavano alle esigenze che avevo. Le SQL Plan Baselines le ho esplorate da poco e non potrò per ora portare esperienze pratiche, mi limiterò quindi a quanto trovo sul manuale.

SQL Plan Baseline

Una SQL plan baseline (SPB) è un insieme di piani accettati che l’ottimizzatore è autorizzato ad utilizzare per uno statement SQL. Tipicamente i piani vengono introdotti in una SQL plan baseline dopo che è stato verificato che non portano a maggior uso di risorse con conseguente peggioramento delle prestazioni. Questo sistema si affianca al meccanismo dei “SQL Profile”, generati dal SQL Tuning Advisor che però sono un meccanismo reattivo, mentre l’SPB vuole essere un meccanismo proattivo: ha lo scopo di prevenire situazioni di peggioramento di prestazioni. Questo nel quadro di un aggiornamento di versione Oracle, di cambiamento di parametri o di cambiamento dell’hardware sottostante. All’interno di una SQL plan baseline ogni piano è specificato usando un insieme di “outline hints” che lo definiscono completamente. Questo si contrappone a SQL Profiles che piuttosto specificano solo degli hint che cercano di correggere errate stime sui costi del piano e quindi non forzano l’uso di un preciso piano.

SQL Plan Capture

La gestione dei piani di esecuzione tramite le SQL Plan baseline avviene in diversi passi, il primo di questi è la cattura e il salvataggio di tutte le informazioni sui piani di esecuzione di un insieme di statement SQL.  Le informazioni vengono salvate nella “SQL Management Base” (SMB). La cattura dei piani può avvenire in modo automatico tramite il settaggio del parametro OPTIMIZER_CAPTURE_SQL_PLAN_BASELINES a “true” (per default è “false”). Quando il parametro è a true il database crea una SQL plan baseline per ogni statement SQL “ripetibile” eseguito sul database stesso.

La cattura manuale avviene tramite procedure del package PL/SQL DBMS_SPM (DBMS_SPM.LOAD_PLANS_FROM_%) e consiste nel caricamento o da un “SQL tuning set (STS)” o dalla “share SQL area” o da una “tabella di staging” o da una “Stored Outline”. Non posso non riportare una immagine dal manuale che mi sembra molto chiara e completa:

Un piano caricato manualmente viene salvato come “accettato”

SQL Plan Selection

Come si vede dalla figura sopra nella SQL Management Base viene salvato anche la storia di un piano di esecuzione, cioè vengono registrati i cambi di piano

Quando il database esegue un “hard parse” di uno statement SQL l’ottimizzatore genera un piano ottimale per costo. Per default poi l’ottimizzatore cerca un piano che corrisponda nella SQL plan baseline di quello statement. Se non trova una SQL plan baseline per quello statement usa il piano gia generato (crea la SPB e aggiunge il piano come “accepted”), se la trova e il piano generato è gia nella baseline allora lo usa, se non c’è lo aggiunge alla “plan history” marcato come “unaccepted”. In quest’ultimo caso, se esistono piani fissati viene usato quello con il costo minore, se non esistono piani fissati viene usato il piano nella baseline con il costo minore, se non esistono piani riproducibili nella baseline (ad esempio perché nel frattempo è stato rimosso un indice) allora l’ottimizzatore usa il nuovo piano generato. Un piano fissato è un piano accettato e marcato manualmente come preferito.

SQL Plan Evolution

L’evoluzione di un piano è il procedimento che consiste nel verificare che i piani non accettati abbiano pretazioni almeno pari a quelli gia accettati (SQL Plan verification) e in tal caso nella loro aggiunta ai piani accettati della baseline. È possibile configurare il SQL Plan management affinché vengano eseguite tutte le possibili combinazioni dei due passi, cioè si può fare la verifica del piano senza l’aggiunta alla baseline e si può fare l’aggiunta senza fare la verifica. Il package PL/SQL DBMS_SPM fornisce le seguenti procedure:

  • SET_EVOLVE_TASK_PARAMETER
  • CREATE_EVOLVE_TASK
  • EXECUTE_EVOLVE_TASK
  • REPORT_EVOLVE_TASK
  • IMPLEMENT_EVOLVE_TASK
  • ACCEPT_SQL_PLAN_BASELINE

Queste procedure servono per avviare manualmente il processo di evoluzione. Oracle comunque raccomanda di lasciare al task automatico SYS_AUTO_SPM_EVOLVE_TASK (introdotto in Oracle 12c) il compito di fare il lavoro di verifica e accettazione durante la finestra di manutenzione pianificata (normalmente ogni notte)

SQL Management Base (SMB)

Si tratta della struttura logica dove vengono salvate le informazioni relative alle SQL plan baseline, fisicamente stanno nella tablespace SYSAUX. Le componenti sono quattro:

  • SQL statement log
  • SQL plan history (che include le sql plan baseline)
  • SQL profiles
  • SQL patches

SQL statement log

Durante il “parse” dello statement oracle calcola una “firma” (SQL signature)  normalizzando rispetto a maiuscole e minuscole e a spazi il testo, quando avviene la cattura automatica viene cercata la firma all’interno del “SQL statement log” (SQLLOG$), se non c’è l’aggiunge se c’è lo statement si può definire un “repeated SQL statement”

SQL Plan History

si tratta dell’insieme di piani di esecuzione catturati,  si quelli accettati, quindi nelle SQL plan baseline che quelli non accettati. Dalla versione 12c viene salvato il piano intero per tutti i piani, in questo modo non deve essere ricompilato lo statement per rigenerare il piano. I piani possono essere abilitati (enabled), che è il default o no. Nel caso non siano abilitati non vengono utilizzati anche se accettati.

La SQL Plan history può essere analizzata tramite la vista DBA_SQL_PLAN_BASELINES, tramite la procedure DBMS_XPLAN.DISPLAY_SQL_PLAN_BASELINE è possibile vedere il dettaglio di una SQL plan baseline.

 

Oltre al parametro OPTIMIZER_CAPTURE_SQL_PLAN_BASELINES citato prima c’è un’altro parametro OPTIMIZER_USER_SQL_PLAN_BASELINES che per default è impostato a true e fa si che comunque per gli statement che hanno gia SQL plan baseline esistenti vengano aggiunti nuovi piani come non accettati. Se viene impostato a false viene disabilitato completamente l’uso delle baseline.

Sul manuale si trovano ulteriori dettagli ed esempi sulla gestione che non sto qui a riportare per non appesantire troppo il post

Annunci

Ottimizzatore delle query in Oracle 12c

venerdì 27 aprile 2018 alle 27:53 | Pubblicato su 12c, Diario, Performance Tuning | Lascia un commento
Tag:

Con questo post ho l’ambizione di riassumere le principali caratteristiche dell'”ottimizzatore” di query di Oracle. L’impresa sta nel far stare in un unico post tutte le principali informazioni, cosa che non so se sarò in grado di fare vista l’abbondanza di elementi che il soggetto ha in questa versione di Oracle. Premetto che la fonte principale delle informazioni è il manuale Oracle “Database SQL Tuning Guide” versione 12.1. Trovo che la manualistica Oracle sia molto ben fatta, molto ampia è approfondita quanto basta. Siccome studiando per la certificazione ho avuto qualche difficoltà a mettere insieme e in ordine nella mia memoria tutti gli argomenti trattati in questo capitolo ho sentito la necessità di scrivere questo post che seguirà il tracciato del manuale. Se dovesse diventare troppo lungo lo spezzerò in più post.

Cominciamo con un veloce ripasso dei concetti di base, a partire dalle definizioni, tenendo conto che tradurre tutto è difficile quindi per semplicità, a differenza di quello che ho fatto nel titolo, manterrò la nomenclatura originale in inglese.

Il “query optimizer”, chiamato più in breve semplicemente “optimizer” (o ottimizzatore) è quella parte del software Oracle che si occupa di determinare il modo più efficente di recuperare i dati richiesti tramite una query SQL; il risultato dell’elaborazione dell’ottimizzatore è il “piano di esecuzione”. Sappiamo che l’SQL è un linguaggio dichiarativo, quindi l’ottimizzatore può permettersi di scegliere abbastanza liberamente come recuperare e preparare i dati richiesti tramite SQL. In Oracle l’ottimizzatore è chiamato anche “cost-based optimizer” (CBO) perché le sue elaborazioni girano attorno al concetto di costo. Ogni elemento di accesso ed elaborazione dei dati da recuperare ha un costo che può essere tempo di CPU, tempo di accesso ai dischi e tempo di comunicazione. La somma dei costi di tutti i singoli passi di un piano di esecuzione da il costo del piano di esecuzione che sarà l’elemento di valutazione del piano stesso. Alla base di tutto ci sono una serie di statistiche, sui dati e sul sistema che l’ottimizzatore usa per stimare il costo finale di un piano.

Componenti dell’ottimizzatore

Il manuale ci dice che l’ottimizzatore consiste di tre componenti:

  1. Query transformer
  2. Estimator
  3. Plan generator

Query transformer

questo componente cerca di riscrivere un blocco SQL in uno semanticamente identico ma gestibile in modo più efficente, l’esempio banale fatto sul manuale è la trasformazione di una query con un “OR” in una query con una “UNION ALL”

Estimator

direi che questo è il compente più importante, quello che calcola il costo di un piano per un blocco SQL. Gli elementi di misura che usa l'”estimator” sono:

  1. Selectivity (selettività), percentuale dei dati estratti, questo dato non viene visualizzato nei piani di esecuzione.
  2. Cardinality (cardinalità), volume dati estratto
  3. Cost (costo), gli elementi base sono CPU, I/O e memoria. È la parte più complessa, tiene conto delle risorse utilizzate, nel numero stimato di righe restituite (cardinalità), della dimensione iniziale dell’insieme dei dati, della distribuzione dei dati e delle strutture di accesso.

 

Il costo non è necessariamente legato al tempo finale di esecuzione.

Plan generator

questo componente si occupa di generare possibili piani di esecuzione, confrontarne il costo e scegliere quello con il costo minore.

Sembra chiaro che le tre componenti in fase di generazione di un piano di esecuzione interagiscono continuamente e non lavorano semplicemente per stadi successivi.

Alla base di tutto vi sono delle statistiche di sistema, ad esempio: a certe operazioni che richiedono elaborazione di CPU verrà assegnato un costo in termini di cicli di CPU, poi il sistema in qualche modo terrà conto del costo di un ciclo di CPU. Poi ci sarà un costo per l’I/O, ad esempio il sistema stimerà che recuperare un blocco da disco costa tot e anche qui il costo potrebbe dipendere dalle prestazioni del sistema di I/O, mi vien da dire  che il tempo medio potrebbe essere 1 msec o 10 msec e fra i due c’è molta differenza. Ci sono poi operazioni come l'”hash join” che necessitano sia di CPU che di memoria per fare degli ordinamenti.

Le statistiche di sistema insomma sono dati “fissi” legati essenzialmente alle potenza computazionale della macchina su cui gira il database. Vi sono poi altre statistiche più complesse e molto importanti che sono quelle sui dati, ad esempio il numero di record in una tabella, la distribuzione dei valori in un campo di una tabella ecc. Mi sento di poter semplificare molto dicendo che le statistiche sui dati vengono moltiplicate per dei coefficenti fissi che sono dati dal tipo di operazione e le statistiche di sistema. Quindi potremmo avere due sistemi con lo stesso insieme di dati ma con caratteristiche computazionali molto diverse, supponiamo uno con tanta CPU e Memoria ma un I/O “lento” e uno opposto con poca CPU e memoria ma I/O molto veloce e nei due casi una stessa query SQL potrebbe dare origine a due piani molto diversi sui due sistemi. Ovviamente vale anche la situazione inversa (più comune), sistemi con caratteristiche computazionali uguali ma insiemi dati diversi. L’esempio più facile da capire è una select su una tabella voluminosa, se il filtro fa si che venga richiesta una percentuale molto piccola dei dati della tabella tipicamente il piano di esecuzione più efficente consiste nell’utilizzare un indice (dando per pressupposto che l’indice esista), viceversa se il filtro fa si che ad essere richiesti siano quasi tutti i dati della tabella allora è più efficente scandire direttamente tutta la tabella piuttosto che perdere tempo palleggiando tra indice e tabella.

Fin qui abbiamo fatto un ripasso generale su concetti di base che valgono anche in vecchie versioni Oracle, ora vediamo un po’ di cose nuove.

Automatic tuning optimizer

L’ottimizzatore può lavorare in due modalità

  • “normal optimization”, quella con cui normalmente genera i piani di esecuzione
  • “SQL Tuning Advisor optimization”, una modalità avanzata in cui l’ottimizzatore fa una analisi più accurata di uno statement SQL, il risultato però non è il piano di esecuzione ma una serie di suggerimenti con la loro motivazione (rationale) e la stima dei benefici

In realtà questa cosa forse esiste gia dalla versione Oracle 10g….

Adaptive Query Optimization

Questa funzionalità abilita l’ottimizzatore a fare delle correzioni al volo sul piano di esecuzione e a rilevare ulteriori informazioni che possono aiutare alle successive esecuzioni. L'”ottimizzazione adattiva” è utile quando le statistiche esistenti non permettono di generare un piano ottimale.

Gli elementi che rientrano nella “Adaptive query optimization” sono diversi:

  • Adaptive plans
    • Join methods
    • Parallel distribution methods
    • Bitmap index pruning
  • Adaptive Statistics
    • Dynamic Statistics
    • Automatic reoptimization
      • statistics feedback
      • performance feedback
    • SQL Plan Directives

Mi permetto di riportare un collegamento alla figura del manuale che rende meglio l’idea:

Adaptive Query Plans

Con questo nome di definisce la caratteristica per cui l’ottimizzatore è in grado di cambiare parte del piano di esecuzione anche dopo l’inizio dell’esecuzione del piano. Un adaptive plan (piano adattivo?) è un piano che contiene più sottopiani precalcolati e comprende un “optimizer statistics collector” (raccoglitore di statistiche). Durante l’esecuzione l’ottimizzatore tramite il “collector” inizia a raccogliere informazioni sull’esecuzione e se si accorge che le stime iniziali erano sbagliate può decidere di cambiare il “default plan” (quello scelto in partenza) con un altro piano, cambiandone un pezzo, quello che può cambiare è un metodo di join (hash piuttosto che nested loop). A questo punto il collettore di statistiche si ferma e il nuovo piano diventa quello definitivo.

Affinché questa funzionalità sia operativa devono essere impostati i seguenti parametri:

  • OPTIMIZER_FEATURES_ENABLE=12.1.0.1
  • OPTIMIZER_ADAPTIVE_REPORTING_ONLY=FALSE

Entrambi hanno quei valori per default.

Il parametro “FORMAT=>’ADAPTIVE'” della funzione DBMS_XPLAN.DISPLAY_CURSOR permette di visualizzare informazioni sugli “adaptive query plan”

Sul manuale vengono riportati degli esempi per ciascuno dei tre casi possibili, metodo di join, metodo di distribuzione parallela (al riguardo credo che l’argomento meriti un approfondimento, per ora mi limito a riportare il link al manuale) e “bitmap index pruning”.

Adaptive statistics

Quando i predicati nelle query sono molto complessi le statistiche di base sui dati da sole non garantiscono stime precise, per questo c’è il supporto delle “adaptive statistics” (statistiche adattive) che sono di tre tipi, Dynamic statistics, Automatic reoptimization e SQL Plan Directives

Dynamic Statistics

durante la compilazione di una query SQL l’ottimizzatore valuta se le statistiche disponibili sono sufficienti, altrimenti per aumentare i dati a disposizione usa le statistiche dinamiche che sono una estensione di quello che nelle versioni precedenti di Oracle veniva chiamato “dynamic sampling”. Queste statistiche possono venir usate per “table scans”, “index access”, join e GROUP BY.

Le statistiche dinamiche sono attivate in funzione del valore del parametro OPTIMIZER_DYNAMIC_SAMPLING che per default ha valore 2  che indica che il campionamento viene fatto solo se una delle tabelle coinvolte non ha statistiche. Il parametro accetta valori da 0 (dynamic statistics disabilitate completamente) a 11 dynamic statistics completamente automatiche

Automatic Reoptimization

Con l’adaptive query plan abbiamo visto può solo cambiare per un piano il tipo di join o il metodo di distribuzione parallela o applicare il bitmap index pruning. Per casi più complessi, ad esempio per cambiare l’ordine dei join può intervenire la automatic reoptimization, la quale però può solo stabilire un nuovo piano di esecuzione al termine della prima esecuzione della query in modo da utilizzarlo alle successive richieste. Non è in grado di cambiare un piano in esecuzione. Questo processo può continuare anche alle successive esecuzioni con l’obbiettivo di usare gli ulteriori dati raccolti per ottimizzare. La ri-ottimizzazione avviene sulla base di due tipologie di dati: “statistics feedback” e “performance feedback”

Statistics feedback

si tratta di quello che in precedenza si chiamava “cardinality feedback”. Se durante l’esecuzione di una query SQL l’ottimizzatore verifica una delle seguenti situazioni:

  • tabelle senza statistiche
  • predicati multipli congiuntivi o disgiuntivi  (traduzione mia, spero corretta)
  • predicati contenenti operatori complessi

allora attiva il monitoraggio delle statistiche di feedback. Se al termine dell’esecuzione c’è una differenza sostanziale fra dati rilevati e stime allora l’ottimizzatore salva le informazioni ad uso futuro sotto forma di SQL plan directive. In verità nel manuale dice che le salva e anche crea una SQL plan directive. Dopo la prima esecuzione il monitoraggio delle statistiche di feedback viene disabilitato.

Performance feedback

In questo caso vengono raccolte informazioni per stabilire un grado di parallelismo ottimale. Per attivare questa funzionalità occorre settare il parametro:

  • PARALLEL_DEGREE_POLICY=ADAPTIVE

Il principio rimane lo stesso, viene confrontato il grado di parallelismo calcolato a priori con quello calcolato alla fine dell’esecuzione sulla base dei dati raccolti (ad esempio tempo di CPU).

Sul manuale una nota dice che anche si parametro PARALLEL_DEGREE_POLICY non è settato a ADAPTIVE le “statistics feedback” possono influenzare il grado di parallelismo scelto per una query.

SQL Plan Directives

Si tratta di informazioni aggiuntive che l’ottimizzatore usa per generare  un piano ottimale. Si tratta di informazioni legate a “query expressions”, non all’intera query, questo permette di utilizzarle anche per query non uguali (seppur simili).

Durante la compilazione l’ottimizzatore verifica se mancano “statistiche estese” o istogrammi e ne registra la mancanza. Alle successive chiamate di raccolta delle statistiche tramite il package DBMS_STATS verranno calcolati eventuali istogrammi mancanti e statistiche estese.

Le SQL Plan Directives (SPD) vengono salvate nella SHARED POOL e ogni 15 minuti in modo permanente sulla tablespace SYSAUX . Se per 53 settimane non vengono usate vengono eliminate automaticamete. Possono essere gestite con il package PL/SQL DBMS_SPD, sul manuale riporta un esempio d’uso dei seguenti due metodi:

  • FLUSH_SQL_PLAN_DIRECTIVE (forza la scrittura su disco)
  • DROP_SQL_PLAN_DIRECTIVE

Vi sono poi dei metodi per esportare e importare le SPD

Le viste per vedere le SPD sono:

  • DBA_SQL_PLAN_DIRECTIVES
  • DBA_SQL_PLAN_DIR_OBJECTS

Extended Statistics

Le statistiche estese sono statistiche su gruppi di colonne o statistiche su espressioni. Le normali statistiche sulle singole colonne possono non bastare se i dati di due colonne  hanno una correlazione “imprevedibile”. Tramite il package DBMS_STAT e precisamente i seguenti metodi:

  • SEED_COL_USAGE
  • REPORT_COL_USAGE
  • CREATE_EXTENDED_STATS

É possibile, in maniera semiautomatica creare estensioni basandosi un test di carico. Una volta creata l'”estensione” le statistiche verranno raccolte anche sull’estensione e utilizzate dall’ottimizzatore.

È possibile visualizzare le estensioni esistenti tramite la vista USER_STAT_EXTENSIONS

 

Con questo penso di potermi fermare qui. La lunghezza del post mi pare accettabile e il livello di approfondimento è medio, spero di riuscire a trascrivere ancora qualcosa per approfondire ed estendere la tematica.

Blog su WordPress.com.
Entries e commenti feeds.