STATISTICA
STATISTICA
je komplexní integrovaný systém pro statistickou a grafickou analýzu a správu
dat, obsahující širokou škálu základních i pokročilých analytických postupů pro
vědu, inženýrské aplikace, obchodní aplikace a vytěžování dat.
Systém obsahuje nejen všeobecné statistické a grafické procedury, ale rovněž
implementace specializovaných modulů, určených například pro oblast biochemie,
sociálních věd nebo nejrůznějších technických oborů. Všechny moduly jsou v
integrovaném systému okamžitě přístupné prostřednictvím několika uživatelských
propojení, včetně programovacích jazyků (vybavených "průvodci"), s jejichž
pomocí lze přidávat do systému vlastní procedury nebo propojit program
STATISTICA s ostatními aplikacemi.
Lze si stěží představit uživatele, který by potřeboval všechny statistické
metody a grafické postupy obsažené v systému. Zkušenost mnoha spokojených
uživatelů systému však dokazuje, že přístupnost analytických a grafických
technik obvykle nepoužívaných v oblasti uživatelova působení, často vybízí k
vyzkoušení nových tvůrčích postupů při ověřování hypotéz a zkoumání dat.
Obsah
Popisné statistiky,
kategorizace a analýza dat
Korelace
Základní statistiky
a skupinové statistiky
Interaktivní
pravděpodobnostní kalkulátor
T-testy (a další testy
rozdílů skupin)
Histogramy, křížové
tabulky a kombinované tabulky, Vícerozměrná analýza
Metody vícerozměrné
regrese
Obecná
ANCOVA/MANCOVA
Komponenty rozptylu
a smíšené modely ANOVA/ANCOVA
Kroková
diskriminační analýza
Neparametrické
statistiky
Testování
rozdělení
Faktorová analýza a
hlavní komponenty
Vícerozměrné
škálování
Korespondenční
analýza
Analýza
spolehlivosti
Techniky shlukové
analýzy
Klasifikační
a regresní stromy
Log-lineární analýza
Obecné
nelineární odhady (a logit/probit)
Kanonická
korelační analýza
Analýza
přežívání
Časové řady,
předpovědi
Strukturální
modely (SEPATH)
Vizuální obecné lineární modely
(VGLM - anglicky)
Vizuální obecná kroková regrese
(VGSR - anglicky)
Vizuální zobecněné lineární
modely (VGLZ - anglicky)
Vizuální metoda částečných
nejmenších čtverců(VPLS - anglicky)
POPISNÉ STATISTIKY, KATEGORIZACE DAT, ANALÝZA DAT
STATISTICA nabízí široký výběr metod pro výzkumné
analýzy: Program počítá všechny běžné, obecně užívané popisné statistiky,
mediány, módy, kvartily, percentily, průměry a standardní odchylky, kvartil
rozsahu, intervaly spolehlivosti pro průměr, šikmost a špičatost (s příslušnými
standardními odchylkami), harmonické průměry, geometrické průměry a mnoho
dalších speciálních popisných statistik a diagnostik. Stejně jako u všech
ostatních modulů programu STATISTICA, usnadňuje výzkumnou analýzu široká
škála dostupných grafů, např. box grafy s průměrem a směrodatnou odchylkou,
histogramy, 2D a 3D bodové grafy, grafy normálního, polo-normálního i
centrovaného rozdělení, Q-Q grafy, P-P grafy a další. Pro
testování rozdělení je k dispozici rozsáhlý soubor testů, např.
Kolmogorov-Smirnovův, Lillieforsův a Shapiro-Wilksův test, stejně jako procedury
pro testování širokého rozsahu dalších rozdělení (viz rovněž STATISTICA Process
Analysis a kapitola o testování v sekci o užití grafiky
(anglicky) ). Lze počítat prakticky všechny popisné statistiky a
sestavovat sumární grafy pro data, která jsou kategorizována (rozdělena) jednou
nebo více skupinovými proměnnými. Např. pomocí několika málo kliků myší uživatel
rozdělí data třeba podle pohlaví či věku a okamžitě má k dispozici
kategorizované histogramy, box grafy s průměrem a směrodatnou odchylkou, grafy
normálního rozdělení, bodové grafy atd. Při výběru více než dvou
kategorizujících proměnných lze ihned generovat kaskády odpovídajících
grafů.
K dispozici jsou možnosti kategorizace spojitými proměnnými, např.
lze rozdělit proměnnou do požadovaného počtu intervalů, nebo použít "on-line"
dekodér na předdefinování stylu, jakým bude proměnná dekódována. Kategorizační
kritéria mohou být prakticky libovolně složitá a mohou obsahovat relace ke všem
proměnným v souboru dat. V systému existuje i speciální procedura na
hierarchické rozdělení dat, která umožňuje rozdělovat data podle až šesti
kategorizujících proměnných, počítat množství kategorizovaných grafů, popisných
statistik a korelačních matic pro podskupiny (zadavatel může interaktivně
požadovat vynechání některých faktorů v rozdělené tabulce a prozkoumávat
statistiky pro libovolné marginální tabulky). Četné formátovací a popisné funkce
umožňují vytvářet tabulky a zprávy v tzv. "publikační kvalitě". Ve výstupech lze
používat dlouhá návěští a popisy pro jednotlivé proměnné. V kategorizační
proceduře lze specifikovat i extrémně rozsáhlé konstrukce analýzy (např. 300
skupin pro jednu kategorizační proměnnou). Ve výsledku přesto dostaneme všechny
příslušné ANOVA statistiky (včetně kompletní tabulky ANOVA, testů předpokladů
jako je např. Levenův test homogenity rozptylu, výběr sedmi post-hoc
testů atd.). Jako v ostatních modulech i zde se používá pro výpočty rozšířená
přesnost čísel. Díky interaktivnosti programu je práce při průzkumu dat velmi
snadná. Například lze vytvářet všechny typy grafů přímo z tabulek zobrazených
výsledků prostým výběrem příslušné buňky nebo skupiny buněk myší. Stejně snadno
lze jediným kliknutím myší vytvořit kaskády složitých (např. vícenásobně
kategorizovaných) grafů. Kromě nespočetných předdefinovaných statistických
grafů, sumárních statistik a relací lze několika výběry a kliky myší vytvářet i
vlastní "uživatelské" grafy či statistiky. Veškeré výzkumné grafické techniky
(popsané v oddíle o užití
grafiky (anglicky) jsou propojeny s analytickou částí, a tak umožňují
uživateli vizuálně vyšetřovat vybraná data.
zpět na obsah
KORELACE
Rozsáhlý soubor voleb umožňuje
zkoumání korelací mezi proměnnými. Je možné počítat prakticky všechny známe míry
korelace, např. Pearsonův "r" koeficient, Spearmanův "R" koeficient, Kendalův
"tau" koeficient, Gamma, Phi, Cramerův "V" koeficient, kontingenční koeficient
"C", Sommersův "D", koeficienty neurčitosti, parciální korelace, autokorelace,
různé míry vzdálenosti atd. (nelineární regrese, regrese kritických dat a další
speciální míry korelací jsou součástí modulu "Nelineární
odhady", případně modulu "Analýza
přežívání" či dalších. Korelační matice lze počítat s použitím párových
či případových doplnění chybějících dat nebo substitucí průměrem. Tam, kde je to
potřebné, používá program pro numerické výpočty rozšířené přesnosti dat, a tím
poskytuje výsledky s vysokou numerickou přesností. Výsledky jsou stejně jako
ostatní numerické výstupy programu zobrazovány v posunovacích protokolech. K
dispozici jsou nejrůznější formátovací funkce a rozsáhlé prostředky pro
vizualizaci numerických výsledků. Uživatel může prostě myší vybrat příslušnou
korelaci z protokolu a okamžitě zobrazit výběr grafického znázornění výsledku
(např. bodový graf s intervaly spolehlivosti, různé dvojrozměrné histogramy
distribuce, grafy rozdělení pravděpodobnosti atd.). Další prostředky umožňují
výběr individuálních bodů z grafu a ověření jejich vlivu na regresní křivku.
Program poskytuje širokou škálu obecných formátů zobrazení korelací;
signifikantní korelační koeficienty lze automaticky zvýraznit, každou buňku v
tabulce výsledků lze libovolně rozšířit tak, aby se zobrazily odpovídající
hodnoty "n" a "p", na požádání lze zobrazit detailní výsledky obsahující všechny
deskriptivní statistiky (párové průměry a směrodatné odchylky, "B" váhy, atd.).
V jedné výsledkové tabulce lze zobrazit extrémně velké korelační matice (až do
velikosti 4096 x 4096).
Pomocí tzv. správce
megasouborů a správce megatabulek lze počítat a zobrazovat matice až do
velikosti 32000 x 32000. Jako u jiných výsledků i korelační matice lze
zobrazovat s použitím "zoom" funkce a interaktivně ovládaného číselného formátu
(např. od +0.4 do 0.41258927645193). Stejně tak lze rozsáhlé matice komprimovat
(pomocí funkce "zoom" nebo nastavením šířky číselného formátu tažením myší).
Buňky obsahující hodnoty, které přesahují uživatelem nastavené meze lze označit
červenou barvou. Lze sestavovat korelační matice kategorizované skupinovými
proměnnými a znázorňované kategorizovanými bodovými grafy. Lze rovněž vytvářet
rozdělení korelačních matic (jedna matice pro jednu podmnožinu dat) a výsledky
zobrazovat ve skupinách výsledkových tabulek. Celou korelační matici lze
sumarizovat do jednoho grafu (s prakticky neomezenou hustotou). Velké bodové
matice pak lze studovat interaktivně pomocí funkce "zoom" uplatněné na vybrané
části grafu (příp. postupným prohlížením - "scrolováním" velkého grafu v "zoom"
režimu - viz ilustraci vlevo). Lze rovněž generovat kategorizované korelační
matice (jedna matice pro každou podmnožinu dat). Případně lze vytvořit bodový
graf matice pro více podmnožin dat a jednotlivé datové podmnožiny označit
značkami. Při vyhledávání obecných závislostí lze použít další grafické
prostředky (např. obrysové grafy, nevyhlazované povrchové grafy, ikony, atd.).
Všechny tyto operace lze provádět pouhými několika poklepy myší. Pochopitelně je
k dispozici celá množina zkratek (shortcuts) pro nejčastěji prováděné úkony.
Souběžně lze na obrazovce zobrazit libovolné množství výsledkových tabulek a
grafů, což značně usnadňuje provádění interaktivní průzkumné analýzy a
porovnávání.
zpět na obsah
ZÁKLADNÍ STATISTIKY A SKUPINOVÉ STATISTIKY
Popisné statistiky, korelace a histogramy jsou dodávány v provedení "on-line",
což umožňuje počítat základní statistiky a vytvářet grafy kdykoliv v průběhu
datové analýzy jediným poklepem myší. Tyto Rychlé základní statistiky
jsou přístupné ze všech panelů nástrojů a ze všech plovoucích panelů nabídek
a pokud uživatel neurčí jinak, produkují výsledky okamžitě bez nutnosti zadávat
dodatečná data (viz obrázek vlevo). Navíc tyto procedury nepožadují, aby
uživatel předem určil analyzované proměnné, protože tyto jsou definovány právě
vybranou skupinou dat nebo rozsahem sloupců (či řad) v aktivní tabulce dat nebo
výsledků. To poskytuje velice pohodlnou cestu k získání okamžité informace o
proměnných, které byly použity ve výpočtu zkoumaných výsledků. Základní
statistiky zahrnují kompletní sadu popisných statistik (včetně pořádkových
statistik), korelací a histogramů a velký výběr příslušných statistických grafů.
Výstup ze všech statistik a grafů lze kategorizovat (rozdělit na základě další
proměnné). Kromě toho všechny funkce, které poskytují výsledky počítané ze
základních dat, všechny výsledkové tabulky a protokoly v programu
STATISTICA rovněž nabízejí skupinové statistiky a skupinové
statistické grafy (viz obrázek vlevo). Skupinové statistiky jsou operace
prováděné na dočasně vybraných (zvýrazněných) blocích hodnot v právě aktivní
tabulce nebo výsledkové tabulce. Výstup lze počítat pro sloupec nebo
pro řadu bez ohledu na význam počítaných dat (např. původní data,
faktorové zátěže, průměry, frekvence). Tak třeba můžete po provedení studie
"Monte Carlo" modulem SEPATH vybrat skupinu čísel (například odhady parametrů
pro postupné experimenty) v tabulce výsledků a spočítat pro ně popisné
statistiky (průměry, střední hodnoty, kvartily), sestavit histogramy, grafy
rozdělení, krabicové grafy atd.
zpět na obsah
INTERAKTIVNÍ PRAVDĚPODOBNOSTNÍ KALKULÁTOR
Flexibilní interaktivní pravděpodobnostní kalkulátor (viz obrázek
vlevo) lze vyvolat z libovolného panelu nástrojů. Kalkulátor obsahuje široký
výběr distribucí, například distribuce Beta,
Cauchyho,Chi-kvadrát, Exponenciální, Extremních
hodnot, F, Gamma, Laplaceovo, Lognormální,
Logistické, Paretovo, Rayleigh, t (Studentovo),
Weibullovo, a Z (Normální)) Součástí kalkulátoru je část
zobrazující interaktivně (hustotu) aktualizované grafy (graf hustoty distribuční
funkce a graf distribuční funkce). Při vizuálním zkoumání jednotlivých
distribucí lze s výhodou použít speciální technologii STATISTICA Smart
MicroScrolls, která dovoluje přejít přímo bud na poslední významnou číslici
(stiskem levého tlačítka myši) nebo těsně před poslední významnou číslici
(stiskem pravého tlačítka myši). Kalkulátor skýtá prostředky pro vytváření
uživatelsky upravených rozdělení a jejich grafů s požadovanými useknutými
oblastmi. Tím lze kalkulátor použít k interaktivnímu vyšetřování rozdělení
(např. lze vyšetřovat jednotlivé pravděpodobnosti v závislosti na parametrech
tvaru rozdělení).
zpět na obsah
T-testy (a další testy rozdílností skupin)
Program umožňuje
počítat t-testy pro závislé i nezávislé výběry dat stejně jako Hottelingův T2
(viz rovněž informace o modulu "ANOVA/MANOVA") pro jednorozměrná i vícerozměrná
porovnání průměrů). Stejně jako u ostatních funkcí i zde jsou k dispozici
rozsáhlé diagnostické a grafické prostředky volitelné z nabídky výsledků. Např.
pro t-test nezávislých výběrů jsou k dispozici prostředky pro výpočet t-testu se
separátními variačními odhady, Levenův test homogenity rozptylu, různé krabicové
grafy, kategorizované histogramy a grafy rozdělení, kategorizované bodové grafy
atd. Další (více specializované) testy skupinových rozdílností jsou obsaženy v
mnoha dalších modulech, např. v modulu "Neparametrické statistiky" nebo v modulu
"Analýza přežívání".
zpět na obsah
HISTOGRAMY, KŘÍŽOVÉ TABULKY, KOMBINOVANÉ TABULKY, VÍCEROZMĚRNÁ
ANALÝZA
Program obsahuje mnoho prostředků pro tabelování
spojitých, kategorizovaných a vícenásobných kontrolních proměnných nebo
vícenásobných dichotomií. K dispozici je široká nabídka formátovacích funkcí pro
sestavování tabulek. Např. tabulky obsahující vícenásobné dichotomie nebo
kontrolní proměnné lze marginální počty a příslušná procentuální vyjádření
založit na celkovém počtu respondentů nebo odpovědí, vícenásobné kontrolní
proměnné lze zpracovat do párů a pod. Program dále obsahuje prostředky pro
ošetření chybějících dat. Histogramy lze rovněž sestavovat na základě uživatelem
definovaných logických výběrových podmínek (libovolné složitosti, s odkazy na
libovolné relace mezi proměnnými a datovými soubory), sloužících k přiřazování
případů do jednotlivých kategorií v tabulce. Všechny tabulky lze libovolně
editovat podle potřeby. Např. křížové tabulky mohou v každé buňce obsahovat
procenta pro sloupec, řádek i celek, lze použít dlouhá návěští pro popis
kategorií tabulky, hodnoty mimo uživatelem zvolené meze lze zvýraznit atd.
Program může zobrazit kumulativní i relativní četnosti, Logit a Probit
transformované četnosti, normální očekávané četnosti, očekávané a zbytkové
četnosti v křížových tabulkách atd. Testy dostupné pro statistické hodnocení
křížových tabulek zahrnují: Pearsonův test, test maximálně věrohodnostní,
Yates-corrected Chi-kvadrát, McNemarův Chi-kvadrát, Fisherův exaktní test (jedno
i dvoustranný), Phi-test a tetrachordický "r" test. Další dostupné statistiky
zahrnují Kendallův "tau" (a,b) test, Gamma test, Spearmanův "r" test, Sommerův
"D" test, koeficienty neurčitosti atd. Grafické prostředky obsahují jednoduché,
kategorizované (vícenásobné) a trojrozměrné histogramy, křížové histogramy a
mnoho dalších typů grafů včetně unikátního interakčního grafu četností, který
sumarizuje četnosti pro složité křížové tabulky (podobný grafu průměrů v ANOVA
modulu). Pomocí programu lze vytvářet a studovat kaskády i těch nejsložitějších
grafů.
zpět na obsah
METODY VÍCEROZMĚRNÉ REGRESE
Regresní modul je obsáhlá
množina lineárních a nelineárních regresních technik. Zahrnuje regrese
jednoduché, vícenrozměrné, krokové (dopředu, dozadu nebo po skupinách),
hierarchické, nelineární (včetně polynomických, exponenciálních, logaritmických
apod.), hřebenové regrese (s oříznutím nebo bez oříznutí) a metodu vážených
nejmenších čtverců. Program počítá soubor statistik a rozšířených diagnostik
včetně kompletních regresních tabulek (se standardními chybami pro B,
Beta, R2 a upravené R2 a tabulky regrese ANOVA, parciální korelační
matice, korelace a kovariance pro regresní váhy, inverzní matice,
Durbin-Watsonovu d statistiku, Mahalanobisovy a Cookovy vzdálenosti,
zbytková residua, intervaly spolehlivosti pro predikované hodnoty a mnoho
dalších. Rozsáhlá residuální a přehledová analýza má k dispozici velký výběr
grafů, včetně množiny bodových grafů, histogramů, grafů rozdělení, centrovaných
rozdělení, částečných korelačních grafů a dalších. Výsledky pro jednotlivé
hodnocené případy lze vizualizovat pomocí ikonových grafů a dalších
vícerozměrných grafů propojených přímo s výsledkovými tabulkami. Předpovědní
funkce umožňuje uživateli provádět podmíněné (what-if ) analýzy a
interaktivně počítat predikované výsledky v závislosti na uživatelsky
definovaných predikátech. Analyzovat lze i extrémně velké regresní modely (500 a
více proměnných). Sada přídavných funkcí obsahuje i regresní modul schopný
zpracovat modely s tisíci proměnnými stejně jako dvoustupňovou regresi
nejmenších čtverců nebo Box-Coxovu a Box-Tidwellovu transformaci s grafy.
Program STATISTICA rovněž obsahuje modul obecných nelineárních odhadů,
který je schopen počítat prakticky jakýkoliv uživatelsky definovaný nelineární
model a obsahuje výběr předdefinovaných modelů, včetně logitové a probitové
analýzy a dalších. Dále je v programu zahrnut modul strukturálních modelů
SEPATH, který umožňuje počítat extrémně rozsáhlé korelace, kovariance a
momentové matice.
zpět na obsah
OBECNÁ ANCOVA/MANCOVA
Modul ANCOVA/MANCOVA je
program pro provádění obecné jednorozměrné a vícerozměrné analýzy rozptylu a
kovariance, pomocí kterého může uživatel provádět analýzu modelů prakticky
neomezené složitosti. I méně zkušení uživatelé metody ANOVA dokáží s tímto
programem analyzovat velice složité modely. Implicitně používá modul , který
užívá metodu průměrů pro tvorbu modelu, uživatel však může volit mezi
rozsáhlou množinou jiných přístupů, např. Typ I (sekvenční, podle
implicitního nebo uživatelsky definovaného řádu), Typ II, Typ III
- součty čtverců, nebo Typ IV - hypotézy pro neúplné modely. Dále lze
analyzovat meziskupinové modely, modely s pevnými či náhodnými faktory,
nevyvážené a vložené modely i modely izolovaných kontrolních skupin. Pro všechny
typy modelů lze použít pevné (statické) nebo proměnné kovariance. Lze analyzovat
i neúplné modely (vložené modely, latinské čtverce, řecko-latinské čtverce,
modely s jedním pozorováním v buňce, náhodné skupinové modely a další). Lze
provádět "Post-hoc" testy pro marginální průměry nebo interakční účinky,
včetně testu Newman-Keulsova, Duncanova testu pro vícenásobný rozsah,
Scheffeova, Tukeyova "HSD" testu a Spjotvoll a Stolineova "HSD" testu.
Program poskytuje kompletní ANOVA statistiky pro všechny hlavní vlivy,
interakce nebo plánovaná porovnání a počítá vícenásobné klasifikační tabulky a
SSCP matice.
Lze generovat tabulky výsledků se zvýrazněním všech hodnot,
významných na uživatelem stanovené úrovni. Hodnoty v tabulkách lze vyšetřovat
pomocí grafů pouhým dvojitým poklepáním myší na zvolenou hodnotu. U všech
jednorozměrných i vícerozměrných modelů lze provádět kontrastní analýzu
(plánovaná porovnání) neomezené složitosti. Uživatel může specifikovat částečné
interaktivní vlivy, jednoduché vlivy, polynomické kontrasty nebo experimenty s
libovolnou kombinací kontrastních koeficientů. K dispozici jsou prostředky pro
usnadnění a urychlení přípravy i těch nesložitějších kontrastních analýz, stejně
jako rozsáhlý výběr předefinovaných kontrastů dostupný uživateli na poklepání
myší (včetně polynomických, deviačních, diferenčních, Helmertových a opakovaných
koeficientů kontrastu). Pro analýzu neúplných modelů s náhodně rozloženými
chybějícími hodnotami označí prostředek pro analýzu kontrastů samočinně všechny
chybějící hodnoty a navede uživatele na konstrukci testovatelné hypotézy. Pro
usnadnění analýzy je k dispozici rozsáhlá sada grafických pomůcek (jako
samočinně generované grafy interakcí v uživatelem definovaných kaskádách, grafy
meziskupinových distribucí proměnných, meziskupinových korelací, uživatelsky
definovaných krabicových grafů průměrů, kvartilů, směrodatných odchylek,
standardních chyb atd. Program dále umí počítat Greenhouse-Geisserovy a
Huynh-Feldtovy adjustace pro opakovaná měření faktorů doprovázených výpočtem
jednorozměrných i vícerozměrných výsledků pro tyto faktory opakovaných měření.
Uživatel může studovat (SS) matice součtů čtverců (hypotéza, chyba) a tam, kde
je to případné, provede program úplnou kanonickou analýzu a spočítá kanonické
kořeny, vlastní hodnoty, procento variance pro každý kořen a standardizované i
nestandardizované diskriminační funkce.
Pro testování hypotéz a předpokladů a vizualizaci výsledků je v modulu
"ANCOVA/MANCOVA" k dispozici široká paleta grafů: grafy distribucí, listové
grafy, kategorizované a zřetězené grafy korelací, grafy proložení umožňující
porovnání relací mezi závislými měřeními a kovariancemi přes buňky vyšších
úrovní modelů, grafů průměrů vs. standardních odchylek nebo variancí, grafy
normálních, polo-normálních a centrovaných rozdělení atd. Jedním poklepáním lze
vytvořit kaskády příslušných grafů, které pak lze studovat v kontinuálním
(slide-show) režimu pomocí tlačítka Continue. Pro testování předpovědí je
k dispozici celá sada statistických funkcí: Cochranův "C" test, Hartleyův test,
Bartlettův test, Leveneův test, Boxům "M" test, Senův test, Puriho
neparametrický test, Kolmogorov-Smirnovův test, Mauchleyův test sféričnosti atd.
Upozornění: Verze tohoto modulu, obsažená v programu Quick STATISTICA,
je omezena na jednorozměrné modely s max. 4 meziskupinovými faktory, jedním
faktorem opakovaného měření a jednou kovariancí.
zpět na obsah
NEPARAMETRICKÉ STATISTIKY
Modul
neparametrických statistik přináší obsáhlý výběr analytických a popisných
statistik zahrnující všechny běžné testy a několik speciálních funkcí. Mezi
dostupnými statistickými funkcemi jsou: Wald-Wolfowitzův test, Mann-Whitneyův
"U" test (s přesnými pravděpodobnostmi [namísto aproximací normálním rozdělením]
pro malé vzorky), Kolmogorov-Smirnovovy testy, Wilcoxonův párový test,
Kruskal-Wallisova ANOVA, mediánový test, znaménkový test, Kendallův koeficient
shody, Friedmanova ANOVA, Cochranův "Q" test, Chi-kvadrát, "V" statistiky
kvadrátů, Phi, Gamma, Sommerovy kontingenční koeficienty, McNemarův test a
další. (Specializované neparametrické testy a statistiky jsou rovněž součástí
mnoha dalších modulů, např. analýzy přežívání, analýzy procesů a dalších).
Stejně jako u všech ostatních modulů programu STATISTICA, i zde jsou
všechny testy propojeny s grafy (zahrnujícími nejrůznější verze bodových grafů,
specializovaných krabicových grafů, čárových grafů, histogramů a mnoha dalších
2D a 3D zobrazení).
zpět na obsah
TESTOVÁNÍ ROZDĚLENÍ
Prostředky modulu "Testování
rozdělení" umožňují provádět porovnání rozdělení proměnné s širokou paletou
teoretických rozdělení. Data lze testovat na následující rozdělení: Normální,
rovnoměrné, exponenciální, GAMMA, lognormální, Chi-kvadrát, Weibullovo,
Gompertzovo, Binomické, Poissonovo, Geometrické a Bernoulliho. Shodu lze
testovat pomocí Chi-kvadrát testu, jednovýběrového Kolmogorov-Smirnovova testu
(testovací parametr lze nastavovat) nebo Lillieforsova a Shapiro-Wilksova testu.
Navíc, shoda konkrétního hypotetického rozložení s empirickým rozložením může
být vyjádřena pomocí histogramů (standardních nebo kumulativních) proložených
vybranými funkcemi. Z výsledkové tabulky lze vytvořit čárové či sloupcové grafy
očekávaných a pozorovaných četností. Další prostředky pro testování rozdělení
najde uživatel v modulu "Analýza procesů", kde lze počítat odhady parametru
metodou maximální věrohodnosti pro tato rozdělení: Beta, exponenciální,
Extrémních hodnot (typ I,Gumbel), Gamma, Log-normální, Rayleighovo a Weibullovo.
Tento modul obsahuje rovněž prostředky pro samočinný výběr optimálního rozložení
pro testovaná data. Další prostředky pro testování předdefinovaných nebo
uživatelem definovaných funkcí prakticky neomezené složitosti jsou popsány v
modulu: "Nelineární odhady".
zpět na obsah
OBECNÉ NELINEÁRNÍ ODHADY (a logit/probit)
Modul nelineárních odhadů umožňuje uživateli testovat v podstatě libovolný typ
nelineárního modelu. Jedním z jedinečných rysů tohoto modulu je skutečnost, že
(na rozdíl od tradičních programů pro nelineární odhady) neklade žádné limity na
velikost datových souborů určených ke zpracování. Modely lze testovat metodou
nejmenších čtverců, metodou maximální věrohodnosti nebo příslušnou uživatelem
specifikovanou funkcí. Uživatel má možnost volby mezi čtyřmi rozdílnými, velice
výkonnými funkcemi odhadů (quasi-Newtonova, Simplexová, Hooke-Jeevesova a
Rosenbockova vyhledávací metoda rotujících souřadnic), takže se lze dobrat ke
stabilním odhadům parametrů prakticky ve všech situacích. Uživatel může
specifikovat libovolný model zápisem příslušné funkce pomocí editoru rovnic.
Funkce mohou obsahovat logické operátory, takže lze testovat i nekontinuální
regresní modely a modely obsahující umělé proměnné. Funkce mohou dále obsahovat
i širokou škálu distribučních funkcí a kumulativních distribučních funkcí:
(Beta, binomického, Cauchyho, Chi-kvadrát,
exponenciálních, extrémních hodnot, F, Gamma,
geometrického, Laplaceova, Logistického, normálního,
Log-Normálního, Paretova, Poissonova, Rayleighova,
t (Studentova) nebo Weibullova rozdělení). Modul dovoluje
uživateli nastavovat všechny parametry postupu odhadu (např. počáteční hodnoty,
velikost kroku, kritéria konvergence atd.). Nejčastěji užívané nelineární modely
jsou předdefinovány a lze je jednoduše vybrat z nabídky možností. Regresní
modely zahrnují probitový a logitový krokový regresní model, exponenciální
regresní model a lineární postupnou regresi s usekáváním. Spolu s různými
popisnými statistikami obsahují standardní výsledky nelineárních odhadů pomocí
parametrických odhadů a jejich standardní chyby (počítané nezávisle na samotném
odhadu), varianční a kovarianční matice odhadů parametrů, předpovídané hodnoty,
residua a příslušné míry testu shody. Předpovězené a residuální hodnoty lze
připojit k datovému souboru pro potřeby další analýzy. Všechny výstupní hodnoty
jsou propojeny s širokým výběrem grafů, včetně interaktivně nastavitelných 2D a
3D povrchových grafů prokládané funkce, které umožňují znázornit kvalitu odhadu
a identifikovat mezní hodnoty nebo intervaly neshod mezi modelem a daty.
Uživatel má možnost interaktivně upravovat rovnici prokládané funkce a
vizualizovat prakticky všechny aspekty odhadu. Kaskádu vizuálních výsledků lze
uložit nebo zkombinovat s protokolem. K dispozici je i mnoho dalších speciálních
grafů pro studium procesu odhadu a znázornění výsledků, např. histogramy všech
zvolených proměnných a residuálních hodnot, bodové grafy pozorovaných versus
předpovězených hodnot, grafy rozložení residuí a další.
zpět na obsah
ANALÝZA ČASOVÝCH ŘAD, PŘEDPOVĚDI
Modul
časových řad obsahuje široký výběr popisných, modelovacích, rozkladových a
předpovědních metod pro modely v časové i spektrální oblasti. Metody jsou
integrované, tzn. že výsledky jedné analýzy (např. ARIMA residua) lze přímo
použít v následných analýzách (např. výpočet autokorelací residuí). K dispozici
jsou rovněž četné flexibilní prostředky pro studium a zobrazení jednotlivých
nebo vícenásobných řad. Analýzy lze provádět i na velmi dlouhých řadách (např.
více než 100 000 pozorování lze zpracovat na počítači s pouhými 8 MB paměti).
Vícenásobné řady lze zpracovávat v "aktivní pracovní oblasti" programu, (např.
vícenásobné řady vstupních dat nebo řady, které jsou výsledkem různých stádií
analýzy), řady lze studovat a porovnávat. Program si pamatuje postup následných
analýz a udržuje deník transformací a ostatních výsledků. To umožňuje vrátit se
kdykoliv k předchozí transformaci nebo porovnat (a vykreslit) původní řadu a
její transformaci. Informace o jednotlivých transformacích je zaznamenávána
pomocí dlouhých názvů proměnných, takže uživatel může uložit nově vytvořené
proměnné do souboru dat a "historie" každé řady je přesto zachována. Následující
odstavce popisují jednotlivé procedury modulu časových řad.
Transformace, modelování, grafy, autokorelace. Dostupné transformace
časových řad umožňují plně vyšetřovat zákonitosti vstupních řad a provádět
všechny běžné transformace, včetně: centrování, odstranění autokorelace,
vyhlazení metodou klouzavých průměrů (vážených a nevážených, uživatelsky
definovaných nebo s váhami Daniella, Tukeyho, Hamminga, Parzena či Bartletta),
vyhlazení klouzavým mediánem, jednoduché exponenciální vyhlazení, diferencování,
integrování, tvorba residuí, posunu, "4253H" vyhlazení, zúžení, Fourierovy (a
inverzní) transformace a dalších. Rovněž lze provést autokorelační, parciální
autokorelační a křížovou korelační analýzu.
ARIMA a (intervenční) analýza přerušovaných časových řad. Modul
časových řad umožňuje kompletní využití ARIMA metody. Modely mohou obsahovat
konstantu a řady lze před analýzou transformovat; transformace budou automaticky
"odstraněny" před výpočtem ARIMA předpovědí, takže předpovědi a jejich
standardní chyby budou vztaženy k hodnotám původní vstupní řady. Lze spočítat
přibližné i přesné maximálně věrohodné podmíněné součty čtverců. Implementace
metody v modulu "časových řad" je zejména vhodná pro modely s dlouhými sezónními
obdobími (např. období 30 dnů). Standardní výsledky zahrnují odhady parametrů a
jejich standardní chyby a korelace parametrů. Lze spočítat a vykreslit
předpovědi a jejich standardní chyby. Výsledky lze připojit k původním řadám.
Sezónní a nesezónní exponenciální vyhlazení. V modulu časových řad je
k dispozici všech 12 běžných exponenciálních vyhlazovacích funkcí. Lze stanovit,
že model má obsahovat aditivní nebo multiplikativní sezónní komponent a (nebo)
lineární, exponenciální nebo tlumený trend; dostupné modely zahrnují populární
Holt-Winterův lineární model. Uživatel může specifikovat počáteční hodnotu pro
vyhlazovací transformaci, počáteční hodnotu trendu a sezónní faktory (kde je to
vhodné). Pro trend a sezónní komponenty lze specifikovat separátní vyhlazovací
parametry. Uživatel může identifikovat nejlepší parametry průzkumem mřížky
parametrů; tabulka výsledků obsahuje všechny kombinace hodnot parametrů:
směrodatnou odchylku, absolutní odchylku, součet čtverců chyb, rozptyl,
procentní odchylku a absolutní procentní odchylku. Nejmenší hodnota těchto
indikátorů shody je v tabulce zvýrazněna. Uživatel může rovněž požadovat
automatické vyhledání nejlepších parametrů. Pro následnou analýzu poskytuje
program výsledky příslušných exponenciálních transformací, residuí a požadovaný
počet předpovědí. K ocenění přiměřenosti zvoleného exponenciálního vyhlazovacího
modelu slouží součtový graf zobrazující původní řady spolu s vyhlazenými řadami
a předpověďmi a s křivkou vyhlazovacích residuí, vykreslenou odděleně proti
pravé y-ose.
Klasická sezónní dekompozice (Census Method I). Modul umožňuje volit
délku periody sezóny a vybrat mezi aditivním nebo multiplikativním modelem.
Program spočítá klouzavé průměry, podíly nebo diference, sezónní faktory,
sezónně upravené řady, komponenty vyhlazeného trendového cyklu a neregulární
komponentu. Tyto komponenty jsou k dispozici pro další analýzu; například lze
dále sestavovat histogramy, grafy normálního rozložení atd. pro kteroukoliv z
těchto komponent (nebo pro všechny najednou) a tak testovat přiměřenost modelu.
X-11 Měsíční a čtvrtletní sezónní dekompozice a sezónní
přizpůsobení (Census Method II). Modul časových řad obsahuje plnou
implementaci procedury Census Method II, varianta Census X-11. Uspořádání
možností a dialogů plně odpovídá definicím a konvencím popsaným v dokumentaci
"Výboru pro Census". Lze specifikovat aditivní nebo multiplikativní sezónní
modely. Uživatel může volit faktor "prior trading-day" a faktory sezónního
přizpůsobení. Varianci faktoru "trading-day" lze odhadnout pomocí regrese (pro
extrémní pozorování) a poté ji použít pro přizpůsobení řady (podmíněně, je-li to
žádoucí). K dispozici jsou standardní prostředky pro odstupňování extrémních
pozorování, výpočet sezónních faktorů a výpočet komponent cyklu trendu (uživatel
může volit mezi různými typy vážených průměrů; program je však schopen sám
vybrat optimální délky a typy pohyblivých průměrů). Vypočtené finální komponenty
(sezónní, cyklických trendů, neregularity) a sezónně přizpůsobené řady jsou
automaticky dostupné pro další analýzy a grafické zpracování. Rovněž lze tyto
komponenty uložit pro další analýzu jinými programy. Program vytváří grafy
jednotlivých komponent včetně grafů kategorizovaných po měsících (nebo
čtvrtletích).
Modely s polynomickým zpožděním. Implementace modelů s polynomickým
zpožděním v modulu časových řad umožňuje provádět testování modelů s neomezeným
zpožděním stejně jako modelů typu "Almon"s omezeným zpožděním. K dispozici je
výběr grafů usnadňující studium distribucí modelových proměnných.
Spektrální (Fourierova) a křížová spektrální analýza. Modul časových
řad obsahuje úplnou implementaci spektrální (Fourierovy) analýzy a různé
techniky křížové analýzy. Program je zejména užitečný pro analýzu neobvykle
dlouhých časových řad (např. řad s více než 250 000 pozorováními) a neklade
žádná omezení na délku řad (délka řad nemusí být násobkem 2). Uživatel však má
možnost před provedením analýzy řady doplnit nebo zkrátit. Standardní předběžné
transformace zahrnují zúžení, odečtení průměru a centrování. Pro jednoduchou
spektrální analýzu se počítá frekvence, perioda, koeficienty sinu a cosinu,
hodnoty pro frekvenční graf a odhady spektrální hustoty. Odhady hustoty lze
počítat pomocí váhového koeficientu Danielliho, Hamminga, Bartletta, Tukeye,
Parzena nebo uživatelem definovaného. Užitečná, zejména pro dlouhé vstupní řady,
je možnost zobrazit pouze uživatelem definovaný počet hodnot z frekvenčního
grafu nebo hustotní funkce v sestupném třídění; tak lze snadno nalézt
nejvýznačnější část frekvenčního průběhu nebo vrchol hustoty i v nejdelších
řadách. Uživatel může počítat Kolmogorov-Smirnovův "d" test pro hodnoty
frekvenčního grafu a tak zjišťovat, jestli průběh odpovídá exponenciálnímu
rozložení (neboli jestli vstupní řada nereprezentuje bílý šum) Pro
sumarizaci výsledků jsou k dispozici četné typy grafů; lze znázornit koeficienty
sinu a cosinu, hodnoty frekvenčního grafu, hodnoty spektrální hustoty a hustotu
versus frekvenci, periodu nebo log-periodu a další. Pro dlouhé vstupní řady lze
volit segment, pro který bude frekvenční graf nebo hustotní funkce znázorněna a
tak zvýšit rozlišení a tím i vypovídací hodnotu grafu. U křížové analýzy program
kromě výše uvedeného počítá křížové frekvenční grafy (reálnou a imaginární
část), co-spektrální hustotu, spektrum kvadratury, křížovou amplitudu, hodnoty
koherence, hodnoty zisku a fázové spektrum. Všechny tyto výsledky lze opět
zobrazit proti frekvenci, periodě nebo log-periodě buď pro celý průběh nebo
pouze pro vybranou část. Stejně jako u jednoduché spektrální analýzy lze vybrat
pouze část spočítaných hodnot a ty zobrazit v sestupném třídění, aby bylo možné
identifikovat význačné body i u delších řad. Všechny výsledky spektrální analýzy
jsou jako obvykle použitelné pro zpracování v dalších modulech programu
STATISTICA.
Techniky předpovědí založené na výpočtu regrese. STATISTICA
nabízí regresně orientované techniky časových řad pro zpožděné i nezpožděné
proměnné (včetně regresí od počátku, nelineárních regresí a interaktivních
podmínkových ("what-if") předpovědí.
zpět na obsah
TECHNIKY SHLUKOVÉ ANALÝZY
Tento
modul obsahuje rozsáhlý soubor metod shlukové analýzy (k-průměry,
hierarchické shluky, dvoucestné spojování). Program je schopen zpracovávat data
buď z původních datových souborů nebo z matic míry vzdáleností (např.
korelačních matic). Uživatel může seskupovat případy, proměnné nebo obojí podle
širokého výběru měr vzdáleností (včetně euklidovské metriky, čtverce euklidovské
metriky, měr typu "city-blok" (Manhattan), Čebyševovy, mocninných, procenta
neshody a "l-r") a podle slučovacích pravidel (včetně jednoduchých, kompletních,
vážených a nevážených skupinových průměrů, těžišť, Wardovy metody a dalších).
Matice vzdáleností lze uložit pro další analýzu v ostatních modulech programu
STATISTICA . Při použití metody "k-průměrů" má uživatel plnou kontrolu
nad počátečními centry shluků. Lze zpracovávat extrémně velké modely, např.
hierarchické (stromové) uspořádání může analyzovat matici 90 000 vzdáleností. V
doplnění standardních výstupních hodnot program počítá rozsáhlý soubor popisných
statistik a rozšířených diagnostik. Data obsažená ve shlucích lze připojit k
současnému souboru dat pro další zpracování. Grafické prostředky modulu shlukové
analýzy zahrnují upravovatelné stromové diagramy, diskrétní obrysové maticové
grafy a mnoho dalších.
zpět na obsah
KLASIFIKAČNÍ A REGRESNÍ STROMY
Modul klasifikačních a
regresních stromů obsahuje implementaci nejnovějších algoritmů pro efektivní
produkci a testování "robustnosti" klasifikačních stromů ("klasifikační strom"
je pravidlo pro předpovídání třídy objektů z predikčních hodnot) Klasifikační
stromy lze vytvářet použitím kategorických predikčních proměnných, tříděných
predikčních proměnných nebo obou typů najednou a použitím jedno-variančních
rozštěpů nebo lineárních kombinací rozštěpů. Analytické prostředky zahrnují
postupy pro provádění úplných rozštěpů (jako ve THAID a CART™)
nebo diskriminačně-založených rozštěpů, výběr nestranné proměnné (jako v
QUEST), přímých ukončovacích pravidel (jako ve FACT), větvení
(jako v CART), větvení založeném na deklasifikačních poměrech nebo na
klasifikační funkci, či mírách dobré shody jako zobecněný Chi-kvadrát, G-kvadrát
nebo Giniho index. Uživatel má možnost specifikovat "v" hodnotu pro v-násobnou
validaci odhadu chyby, velikost SE pravidla, minimální velikost uzlu před
větvením, startovací proměnnou pro generátor náhodných čísel a "alfa" hodnotu
pro výběr proměnné. Pro studium vstupních a výstupních dat jsou v modulu
integrované grafické prostředky.
zpět na obsah
FAKTOROVÁ ANALÝZA A HLAVNÍ KOMPONENTY
Modul obsahuje širokou paletu prostředků faktorové a hierarchické faktorové
analýzy s rozsáhlými diagnostickými postupy a množstvím analytických a
průzkumných grafických nástrojů. Modul provádí analýzu hlavních komponent a
běžnou a hierarchickou faktorovou analýzu pro modely s až 300 proměnnými (větší
modely lze analyzovat pomocí modulu "SEPATH"). Výstupní hodnoty zahrnují vlastní
hodnoty (řádné, kumulativní, relativní), faktorovou zátěž, faktorová skóre
(která lze přidat do souboru vstupních hodnot, graficky znázornit jako ikony a
interaktivně měnit) a množství dalších technických statistik a diagnostik.
Dostupné rotace zahrnují typy: Varimax, Equimax, Quartimax, Biquartimax
(normalizovanou nebo ryzí) a nakloněnou rotaci. Faktorový prostor lze zobrazit a
prohlížet "řez po řezu" ve 2D či 3D bodových grafech s vyznačenými body
proměnných. Mezi další integrované grafy patří "Scree-grafy", sloupcové a čárové
grafy a další. Po nalezení faktorového řešení má uživatel možnost přepočítat
(tzn. rekonstruovat) korelační matici podle příslušného počtu faktorů. Jak
původní datové soubory tak i korelační matice lze použít jako vstupní data.
Potvrzující faktorovou analýzu je možné provést pomocí modulu strukturálních
modelů. V tomto modulu nalezne uživatel "průvodce potvrzující faktorovou
analýzou", který jej krok za krokem provede procesem specifikace modelu.
zpět na obsah
KANONICKÁ KORELAČNÍ ANALÝZA
Modul obsahuje prostředky kanonické analýzy a doplňuje tak postupy této analýzy,
vestavěné do ostatních modulů (např. modulu "ANCOVA/MANCOVA" nebo modulu
"DISKRIMINAČNÍ FUNKČNÍ ANALÝZY"). Modul zpracovává vstupní datové soubory nebo
korelační matice, na nichž počítá všechny standardní korelační statistiky
(včetně vlastních vektorů, vlastních čísel, koeficientů nadbytečnosti,
kanonických vah, zátěží, extrahovaných variancí, testů významnosti pro každý
kořen atd.) a množství rozšířených diagnostik. Pro každý případ lze vypočíst
skóre kanonických variancí. Výsledky lze znázornit pomocí vestavěných grafů
ikon, nebo je lze přidat k datovému souboru. Modul umožňuje vytvářet množství
různých grafů, (včetně grafů vlastních hodnot, kanonických korelací, bodových
grafů kanonických variací a mnoho dalších). Potvrzující analýzu strukturálních
závislostí mezi latentními proměnnými lze provádět rovněž pomocí modulu
"SEPATH".
zpět na obsah
VÍCEROZMĚRNÉ ŠKÁLOVÁNÍ
Modul vícerozměrného škálování
obsahuje kompletní implementaci nemetrického vícerozměrného škálování. Pomocí
modulu lze analyzovat matice podobností, rozdílností nebo korelací mezi
proměnnými při specifikaci až 9 dimenzí. Výchozí konfiguraci sestavuje buď
program sám (prostřednictvím analýzy hlavních komponent), nebo ji lze zadat
uživatelsky. Program používá interaktivní proceduru pro minimalizaci zátěžové
proměnné a koeficient poruchy. Uživatel má možnost monitorování iterací a
sledování změn těchto hodnot. Konečnou konfiguraci lze prohlížet ve výsledkových
tabulkách a v 2D a 3D bodových grafech dimensionálního prostoru s vyznačenými
datovými body. Testy dobré shody lze oceňovat pomocí Shepardových diagramů
(d-hats a d-stars). Jako u všech ostatních modulů lze i zde
konečnou konfiguraci uložit do datového souboru.
zpět na obsah
KORESPONDENČNÍ ANALÝZA
Modul
obsahuje úplnou implementaci jednoduchých i vícenásobných technik analýzy
korespondence, které umožňují analyzovat i extrémně velké soubory dat. Program
přijímá vstupní data spolu se skupinovými (kódovými) proměnnými, které slouží
pro výpočet křížových tabulek. Vstupní data mohou obsahovat četnosti (nebo jinou
podobnou míru shody, asociace, podobnosti, záměny atd.) a kódové proměnné které
identifikují (číslují) buňky vstupní tabulky nebo datové soubory s četnostmi.
Při vícenásobné analýze shody může uživatel přímo specifikovat Burtovu
tabulku jako vstup pro analýzu. Program počítá různé tabulky, včetně tabulky
řádkových četností v procentech, sloupcových četností v procentech, celkových
četností v procentech, očekávaných hodnot, rozdílů pozorovaných a očekávaných
hodnot, standardizovaných odchylek a příspěvků k hodnotám Chi-kvadrát
statistiky. Všechny tyto statistiky lze vynášet do 3D histogramů nebo studovat
prostřednictvím animovaného rozvrstvení. Modul analýzy korespondence počítá
zobecněná vlastní čísla a vlastní vektory a míry netečnosti pro každou dimenzi.
Uživatel může sám zvolit počet dimenzí, nebo zvolit mezní hodnotu pro maximální
kumulativní procento netečnosti. Program spočítá standardní souřadnice pro
sloupcové a řádkové body. Uživatel má možnost volby standardizace podle
řádkového či sloupcového profilu nebo kanonické standardizace. Pro každou
dimenzi a řádkový nebo sloupcový bod spočítá program hodnoty netečnosti, kvality
a cos2. Dále lze zobrazit matice zobecněných singulárních vektorů. Tyto
matice lze zpracovávat prostřednictvím modulu STATISTICA BASIC, např. v
případě potřeby implementace nestandardních metod výpočtu souřadnic. Uživatel
může spočítat hodnoty souřadnic a příslušných statistik pro doplňkové body
(řádkové či sloupcové) a porovnat výsledky s normálními řádkovými a sloupcovými
body. Doplňkové body lze specifikovat i pro vícenásobnou korespondenční analýzu.
Kromě 3D histogramů, které lze počítat pro všechny tabulky, může uživatel
vytvářet čárový graf vlastních hodnot a 1D, 2D a 3D grafy pro řádkové či
sloupcové body. Všechny body jsou opatřeny návěštími a program poskytuje možnost
zkrátit návěští na uživatelem určený počet znaků.
zpět na obsah
ANALÝZA STRUKTURÁLNÍCH MODELŮ (SEPATH)
Tento
modul obsahuje rozsáhlou implementaci technik strukturálního modelování s
flexibilními prostředky pro simulaci typu Monte Carlo . SEPATH
modul je nejmodernější verze tohoto postupu s inteligentním uživatelským
rozhraním. Nabízí obsáhlý výběr modelovacích procedur integrovaných s unikátními
uživatelskými nástroji, které umožňují specifikovat i velmi složité modely bez
nutnosti užívat nějakou předepsanou syntaxi příkazů. Prostřednictvím "průvodců"
a dalších nástrojů může uživatel definovat analýzu pomocí jednoduchých funkčních
termínů volených z panelů nabídek či dialogových oken (není tedy zapotřebí
zvládat složitý programovací či příkazový jazyk, jako u ostatních programů
tohoto typu). SEPATH je kompletní implementace, zahrnující četné
pokročilé prostředky. Modul dokáže analyzovat korelační, kovarianční a momentové
matice, všechny modely lze sestavovat pomocí "průvodců". Modul počítá příslušné
směrodatné odchylky pro standardizované modely a pro modely sestavené pro
testovací korelační matice. Sada výsledků zahrnuje množinu diagnostických
statistik včetně standardních indexů shody a necentrovaných indexů shody zcela v
souladu s posledními výzkumy z oblasti strukturálního modelování. Uživatel může
testovat modely proti vícenásobným vzorkům (skupinám) a pro každou skupinu může
specifikovat pevné, volné nebo omezené (shodné pro celou skupinu) parametry. Při
analýze momentových matic tak má uživatel možnost testovat komplexní hypotézy
pro strukturované průměry v různých skupinách. Dokumentace modulu obsahuje
podrobný popis četných příkladů včetně příkladů potvrzující faktorové analýzy, a
dalších.
Simulace SEPATH Monte Carlo Modul strukturálního modelování
(SEPATH) obsahuje i výkonný předdefinovaný simulační model Monte Carlo
. Uživatel může generovat (a ukládat) datové soubory pro předdefinované
modely založené na normálních nebo zešikmených rozloženích. Lze počítat
distribuce pro nejrůznější diagnostické statistiky, odhady parametrů a další
prostřednictvím testů Monte Carlo . Pro vizualizaci výsledků je k
dispozici množství grafických prostředků.
zpět na obsah
ANALÝZA SPOLEHLIVOSTI
Tento modul obsahuje výběr
procedur pro přípravu a vyhodnocení průzkumů a dotazníků. Stejně jako u
ostatních modulů programu STATISTICA lze analyzovat i značně velké modely
(škály s až 300 prvky lze zpracovávat v jednom běhu). Uživatel může počítat
spolehlivostní statistiky pro všechny prvky škály, interaktivně volit podmnožiny
nebo porovnávat podmnožiny prvků ve škále. Při interaktivním vynechávání prvků
se automaticky okamžitě spočítá nová spolehlivost bez nutnosti zpracovávat znovu
celý soubor vstupních dat. Výstup obsahuje korelační matice a popisné statistiky
pro prvky: Cronbachoova "alfa", standardizovaná "alfa", průměrná meziprvková
korelace, kompletní ANOVA tabulka pro škálu, kompletní sada statistik
"item-total", "split-half" spolehlivost a korelace mezi polovinami s opravou na
útlum. K dispozici je výběr grafů (včetně různých bodových grafů, histogramů,
čárových a dalších grafů). Pro konstrukci škál má uživatel k dispozici
interaktivní podmínkové procedury ("what-if"). Tak například lze počítat
očekávanou spolehlivost po přidání určitého počtu prvků do škály nebo odhadovat
počet prvků, které je nutno přidat do škály aby byla dosažena určitá
spolehlivost.
zpět na obsah
KROKOVÁ DISKRIMINAČNÍ ANALÝZA
Modul obsahuje úplnou implementaci krokové diskriminační funkční analýzy.
Program provádí dopředné nebo zpětné krokové analýzy nebo analýzy po uživatelem
specifikovaných skupin proměnných. Kromě početných grafů a diagnostik
popisujících diskriminační funkce poskytuje program široký výběr statistik pro
klasifikaci starých nebo nových případů (pro validaci modelu).
Výsledky obsahují odpovídající koeficienty Wilkových "lambd", parciální
"lambdy", koeficient "F", "p" úrovně, hodnoty tolerance a "R-čtverce". Program
provádí úplnou kanonickou analýzu a počítá řádková a kumulativní vlastní čísla
pro všechny kořeny a jejich "p" úrovně, řádkové a standardizované koeficienty
diskriminační (kanonické) funkce, matici strukturálních koeficientů, průměry pro
diskriminační funkce a diskriminační skóre pro každý případ. Připojené grafy
zahrnují histogramy kanonických skóre uvnitř každé skupiny (a kombinace všech
skupin), speciální bodové grafy pro páry kanonických proměnných (ve kterých je
vyznačena příslušnost jednotlivých případu do odpovídající skupiny) a rozsáhlý
výběr kategorizovaných grafů, které uživateli umožňují vyšetřovat distribuce a
relace mezi závislými proměnnými napříč skupinami (vícenásobné krabicové grafy,
histogramy, bodové grafy a grafy rozložení). Modul dále počítá pro každou
skupinu standardní klasifikační funkce. Klasifikaci případů lze posuzovat v
termínech Mahalanobisových vzdáleností, posterior pravděpodobností nebo
skutečných klasifikací a skóre pro individuální případy lze znázornit
prostřednictvím ikonových grafů či dalších vícedimensionálních grafů propojených
přímo s výsledkovými tabulkami. Všechny tyto hodnoty lze připojit ke
zpracovávanému datovému souboru pro účely další analýzy. Rovněž lze zobrazit
sumární klasifikační matici počtu a procent korektně klasifikovaných případů.
Uživatel má několik možností jak specifikovat a priori klasifikační
pravděpodobnosti a výběrové podmínky pro zahrnutí či vynechání vybraných případů
z klasifikace.
zpět na obsah
LOG-LINEÁRNÍ ANALÝZA
LOG-LINEAR ANALYSIS. Modul obsahuje kompletní implementaci log-lineárních
modelovacích procedur pro vícerozměrné tabulky četnosti. Uživatel může
analyzovat až sedmi rozměrné tabulky jedním chodem programu. Lze analyzovat jak
úplné, tak neúplné tabulky (se strukturálními nulami). Tabulky četnosti lze
sestavit z řádkových dat nebo je lze zapsat přímo do programu. Modul poskytuje
rozsáhlý výběr pokročilých modelovacích postupů v interaktivním a flexibilním
prostředí, které značně ulehčuje průzkumné a potvrzující analýzy komplexních
tabulek. V každém okamžiku práce má uživatel možnost studovat kompletní
vyšetřovanou tabulku stejně jako marginální tabulky a testované (očekávané)
hodnoty, může testovat všechny parciální a marginální asociační modely nebo
vybírat specifické modely (marginální tabulky) pro testování na pozorovaných
datech. Program rovněž nabízí inteligentní automatickou proceduru výběru modelu,
která nejprve spočítá potřebný řád interakcí požadovaný pro testování modelu na
datech a poté, zpětnou eliminací, určí nejvhodnější model, který uspokojivě
odpovídá testovaným datům (při užití kritérií stanovených uživatelem).
Standardní výstup obsahuje G-kvadrát,(maximálně věrohodný
(Chi-kvadrát), standardní Pearsonův Chi-kvadrát s příslušnými
stupni volnosti a hladinami významnosti, pozorované a očekávané tabulky,
marginální tabulky a další statistiky. Grafické prostředky dostupné v modulu
zahrnují množství 2D a 3D grafů určených pro vizualizaci dvourozměrných a
vícerozměrných tabulek četnosti (včetně interaktivních, uživatelsky
kontrolovaných kaskád kategorizovaných histogramů a 3D histogramů znázorňujících
řezy vícerozměrnými tabulkami) a mnoho dalších.
zpět na obsah
ANALÝZA PŘEŽÍVÁNÍ
Modul obsahuje rozsáhlou
množinu technik pro analýzu cenzurovaných dat z oblasti sociálního, biologického
a lékařského výzkumu stejně jako procedury užívané v inženýrství a marketingu
(např. kontrola kvality, odhady spolehlivosti atd.). Kromě výpočtu "životních"
tabulek s různými popisnými statistikami a limitními odhady Kaplan-Meierovými
může uživatel srovnávat funkce přežívání pro různé skupiny použitím velké
nabídky metod (včetně Gehanova testu, Coxova "f-testu", Cox-Mantelova testu,
Log-rank testu a Petova zobecněného Wilcoxonova testu). Lze počítat
Kaplan-Meierovy grafy pro skupiny (necenzorovaná pozorování jsou v grafu
rozlišena odlišnými bodovými markery). Program obsahuje výběr procedur pro
testování funkcí přežívání (včetně exponenciální, Gompertzovy, Weibullovy a
funkce lineárního hazardu) založených na metodách vážených či nevážených
nejmenších čtverců. Nakonec program nabízí plnou implementaci čtyř obecných
testovacích modelů (Coxův model proporcionálního hazardu, exponenciální regresní
model, log-normální a normální regresní modely) s rozšířenými diagnostikami
včetně stratifikované analýzy a grafů přežívání pro uživatelem specifikované
predikované hodnoty. V případě Coxova modelu proporcionálního hazardu může
uživatel zvolit rozvrstvení vzorku za účelem spočtení různých základních hazardů
na různých vrstvách. K dispozici jsou obecné prostředky pro definování jedné
nebo více časově závislých kovariancí. Časově závislé kovariance lze definovat
prostřednictvím vloženého interpretoru vzorců, který umožňuje vkládat
aritmetické výrazy obsahující jak časové tak standardní logické funkce, např.
timdep=age+age*log(t_)*(age>45), (kde t_ označuje čas
přežívání) Modul rovněž nabízí rozsáhlý soubor grafických prostředků a
specializovaných diagramů usnadňujících interpretaci výsledků.
zpět na obsah
KOMPONENTY VARIANCE A SMÍŠENÁ ANOVA/ANCOVA
Modul komponent variance doplňuje modul obecného modelu ANCOVA/MANCOVA. Modul
slouží pro analýzu modelů s náhodnými faktory. Takové faktory se často vyskytují
v průmyslovém výzkumu (upozorňujeme, že tento modul je obsažen rovněž v produktu
STATISTICA Process Analysis), kde úrovně faktorů představují vzorkovaná
data náhodné proměnné (na rozdíl od faktorů volených účelově experimentátorem).
Modul umožňuje analyzovat modely s libovolnou kombinací stálých vlivů, náhodných
vlivů a kovariancí. Lze účinně analyzovat i extrémně velké ANOVA/ANCOVA modely.
Faktory mohou mít několik set úrovní. Program analyzuje jak standardní faktorové
modely, tak i hierarchicky vnořené modely a počítá standardní analýzu variance
Typu I, II a III součtů čtverců a průměru čtverců vlivů v modelu. Dále lze
počítat tabulku očekávaných průměrů čtverců, komponenty variance pro náhodné
vlivy modelu, kompletní ANOVA tabulku s testy založenými na syntetizovaných
součtech čtverců chyb a stupňů volnosti (Satterthwaiteovou metodou). Modul
podporuje i další metody pro odhad komponent variance (např. MIVQUE0,
ML nebo REML). Pro odhad maximální věrohodnosti se používá jak
Newton-Raphsonův tak Fisherův skórovací algoritmus. K dispozici je rovněž
několik možností pro zkoumání vážených a nevážených marginálních průměrů a
odpovídajících intervalů spolehlivosti. K vizualizaci výsledků jsou k dispozici
rozsáhlé grafické prostředky.
|
 |
StatSoft CR s.r.o.
Podbabská 16, 160 00 Praha 6 e-mail: info@statsoft.cz |
Telefon: Mobil:
Fax: |
(02) 333 250 06
0603 255 051
(02) 333 240 05 |
|
©Copyright StatSoft CR, 2000.
StatSoft, StatSoft logo, STATISTICA, SEWSS, SENS, STATISTICA/W,
STATISTICA/Mac, a Scrollsheet jsou obchodní známky společnosti StatSoft,
Inc. |