otdk - dolgozat csorba tímea ba 2009. a kockázatelemzés számítógépes módszerei the computerized method of risk assessment t

OTDK - dolgozat
Csorba Tímea
BA
2009.
A kockázatelemzés számítógépes módszerei
The computerized method of risk assessment
Tartalomjegyzék
1.
1. Bevezetés 1
2. A scoring módszerek 3
2.1 Credit scoring története 4
2.1.1 Bázel II. tőkeegyezmény rövid ismertetése 6
2.1.2 Az 5C eljárás rövid ismertetése (Sóvágó [2001]) 7
2.2 Credit scoring bemutatása 8
3. Regressziós modellek 11
3.1 Lineáris regresszió 11
3.1.1 A lineáris regressziós modell 12
3.2 Logisztikus regresszió 13
3.2.1 Összegzés 13
4. Logisztikus regresszió az SPSS rendszerében 16
5. Hitelelemzés az SPSS rendszerében 27
6. Összegzés 33
Irodalomjegyzék 35
Internetes források 35
Táblázat- és ábrajegyzék
1. Bevezetés 1
2. A scoring módszerek 3
2.1 Credit scoring története 4
2.1.1 Bázel II. tőkeegyezmény rövid ismertetése 6
2.1.2 Az 5C eljárás rövid ismertetése (Sóvágó [2001]) 7
2.2 Credit scoring bemutatása 8
3. Regressziós modellek 11
3.1 Lineáris regresszió 11
3.1.1 A lineáris regressziós modell 12
3.2 Logisztikus regresszió 13
3.2.1 Összegzés 13
4. Logisztikus regresszió az SPSS rendszerében 16
5. Hitelelemzés az SPSS rendszerében 27
6. Összegzés 33
Irodalomjegyzék 35
Internetes források 35
1. Bevezetés
============
Az elmúlt évtizedhez képest jelentős változások mentek végbe a
pénzügyi szolgáltatások piacán: az üzlet és a kockázat együtt járnak,
egymás elválaszthatatlan kísérői lettek. (Farkas et al. [2005]) A
kockázatok kezelése ezért az eredmény és a versenyképesség javításának
egyik fontos eszközévé vált.
Tulajdonképpen mit is értünk kockázat alatt? A kockázat nem más, mint
egy cselekvési változat lehetséges negatívan értékelt
következményeinek teljes leírása, beleértve a következmények súlyának
és bekövetkezési valószínűségének megmutatását is.
A vállalkozások, bankok, stb. folyamatosan különböző döntési helyzetbe
kerülnek. A döntéseik pedig kockázattal járnak. Amelyik vállalkozás,
bank, stb. nem vállalja fel a kockázatot, az lemarad a piaci
versenyben, veszít piaci részesedéséből, csökken a nyereségessége,
stb. Vég nélkül lehetne folytatni a felsorolást, ebből is látszik,
hogy a vállalatoknak, bankoknak, a gazdaság egyéb szereplőinek a
fennmaradásuk érdekében fel kell vállalniuk a kockázatokat. Ugyanakkor
dönteniük kell arról is, hogy milyen jellegű és mekkora mértékű
kockázatot képesek felvállalni. Ez nagyon fontos, mivel nem szabad
olyan mértékű kockázatot felvállalni, amely veszélyeztetné az adott
gazdasági szereplő működését. Ahhoz, hogy képesek legyenek döntéseket
hozni számos külső és belső információra van szükségük.
Az összegyűjtött adatokat ezután általában számítástechnikai eszközök
segítségével dolgozzák fel, és tárolják el. Ez hatalmas méretű
adatbázisok meglétét eredményezi. Ezáltal különböző számítógépes
elemzési módszerek igénye is felmerül. Részben nemzetközi egyezmények
(például bankoknál Bázel II tőkeegyezmény), részben pedig a kockázat
számszerűsítésének követelménye is szükségessé teszi a döntést
támogató számítástechnikai szoftverek megszületését.
A scoring módszerek egy score-t rendelnek az elemzés során az
adatokhoz, ami alapján el lehet dönteni, hogy mennyire kockázatos egy
tevékenység megvalósítása. A dolgozat második fejezetében az egyik
legelterjedtebb scoring módszer kerül bemutatásra: a credit scoring.
Számos lehetséges alkalmazása ismert, de ezek különböző korlátokba
ütköznek. A legszélesebb körben alkalmazott módszere a logisztikus
regressziós modell, amely a harmadik fejezetben kerül ismertetésre. A
negyedik fejezetben a logisztikus regresszió gyakorlati alkalmazását
mutatom be az SPSS rendszer segítségével, egy példán keresztül. Az
ötödik fejezetben egy bonyolultabb gyakorlati alkalmazás kerül
bemutatásra és értékelésre. A hatodik fejezetben pedig az
összefoglalás és a konklúziók levonása következik.
2. A scoring módszerek
======================
A scoring módszerek legelterjedtebb fajtája a credit scoring (Oravecz
[2007]), amelyet elsősorban a banki gyakorlatban alkalmaznak, hiszen
itt térül meg a leginkább a rendszer működtetésének költsége. Ezért
ebben a részben főként banki vonatkozásban történő használatról írunk.
A bankok automatikus döntéshozói és döntéstámogatási modelleket
alkalmaznak, hogy felgyorsítsák a hitelengedélyezési döntéseket. A
fogyasztói hitelek állományának növekedéséhez nagyban hozzájárult a
credit scoring modell, amely egy pontos és automatizált kockázatelemző
rendszer. A hitelkockázat mérése a bank saját érdeke, de ugyanakkor
erre számos előírás is hat, mint például a Bázel II. tőkeegyezmény.
A credit scoring modellek fejlesztése és folyamatos tökéletesítése
rendkívül fontos, hiszen minimális hatékonyság javulás esetén is
rendkívül nagy profitnövekedést és/vagy kockázatcsökkentést érhetnek
el vele a bankok, mivel itt nagy volumenű kihelyezésekről van szó.
Ugyanakkor a hétköznapi ember számára is előnyös, ha folyamatosan
tökéletesítik ezeket a modelleket, hiszen ez a jó adós kockázati
felárának csökkentéséhez is vezethet.
Most pedig vizsgáljuk meg, hogy milyen hatásai lehetnek a credit
scoring módszerek javításának, javulásának! Ehhez nézzük meg az 1.
ábrát!
Az ábrán az A pont a jelenlegi helyzetet jelöli. Láthatjuk, hogy itt a
rossz adósok kisebb százalékát szűrik ki, mint a javított modellt
jelképező görbén található B pont esetén, ezáltal tehát csökkenthető a
rosszak hitelezéséből adódó veszteség. Ugyanakkor az ábrán
feltüntetett harmadik pont (C pont) is hatékonyabb az eredeti
modellhez képest, mivel itt ugyanannyi rossz hitel mellett növelhető a
hitelezési volumen, illetve csökkenthető az elutasítási arány.

1.
ábra: A scoring modell javítása
Forrás: Hitelintézeti szemle 2007. 6. szám
2.1 Credit scoring története
----------------------------
A kvantitatív modellek matematikai és statisztikai módszereken
alapulnak (De Servigny et al. [2004]), amelyeknek a továbbfejlesztése
vezet el a credit scoring modellek alkalmazásához. Fitzpatrick (1932)
ismerte fel először a hiba bekövetkezésének valószínűsége és az egyéni
jellemzők közötti összegfüggést a vállalati hitelek esetében.
Ugyanebben az időszakban mutatta be Fisher (1936) az adott populációk
közötti csoportok szétválasztására alkalmazható
diszkriminancia-analízist. Ennek következtében Durand (1941) egy NBER
tanulmányban a diszkriminancia-analízis módszerét használta fel arra,
hogy megkülönböztesse a jó és a rossz fogyasztói hiteleket. A II.
világháború után a nagy vállalatok alkalmazták ezeket a technikákat
elsősorban marketing célokra.
A kvantitatív módszerek alkalmazásában a nagy áttörést az 1960-as
években egyre elterjedtebbé váló hitelkártyák használata jelentette. A
kártyák egyre szélesebb körben való elterjedése megkövetelte az
automatikus döntéshozatali rendszer kiépítését. A credit scoring
jelentőségét az 1975-ös és az 1976-os hitellehetőségek egyenlőségére
vonatkozó törvényben ismerték fel. A törvények tiltották a
hitelnyújtásban való megkülönböztetést, kiéve ez alól azokat az
eseteket, amelyek statisztikai értékelésen alapultak. A hitelbírálat
során használt módszerek az úgynevezett 5C eljáráson alapulnak.
A módszertan szempontjából az 1960-as évek jelentős fejlesztéseket
eredményeztek. A credit scoring módszerek alkalmazását kiterjesztették
más vagyonosztályokra is, így különösen a kis- és
középvállalkozásokra. Myers és Frogy (1963) összehasonlították a
regressziót és a diszkriminancia-analízist a credit scoring módszerek
alkalmazásában. Ezután Beaver (1967) úttörő ötlettel ált elő a
csődeljárás előrejelzési modelljével. Altman (1968) összetett
diszkriminancia-analízist használt a credit scoring elemzésében. Ezek
a módszerek lehetővé teszik, hogy minőség alapján osztályozzuk a
vállalatokat és egy Z-értéket rendeljünk hozzájuk. Martin (1977),
Ohlson (1980) és Wiginton (1980) voltak az elsők, akik elfogadták a
logit elemzéseket a bankcsőd előrejelzésének problémája során.
Ezek a megközelítések egyaránt fókuszáltak a hiba előrejelzésére és a
hitel minősítésére. Napjainkban a credit scoring széles körben
alkalmazott módszerré vált a bankvilágban. Egy 1996-os FED által
készített felmérés szerint az USA bankjainak 97 %-ában használnak
belső scoring alkalmazásokat a hitelbírálat során, és a bankok 70
%-ában használják ezt a módszert a kisvállalkozói hitelek
megítélésére. Az elmúlt években ez az arány tovább nőtt, részben a
Bazel II. tőkeegyezménynek köszönhetően.
A scoring modellek legfőbb vonzereje a versenyképes kibocsátással van
összefüggésben. Ugyanis lehetővé teszik a termelékenység növekedését
azáltal, hogy csökkentett költségekkel korlátozott időkereten belül
elvégzik a hitel értékelését. Allen 1995-ben készült tanulmányában a
kisvállalkozói hitelek elbírálási idejének csökkenéséről ír, amely
szintén a credit scoring módszernek köszönhető, hiszen míg manapság
körülbelül 12 óra alatt elbírálják a hitelkérelmet, addig a múltban ez
akár több mint két hetet is igénybe vehetett.
Berger, Frame és Miller (2002) a scoring rendszerek bankkölcsönökre
gyakorolt hatását vizsgálták a 100000 $ alatti hitelek tekintetében az
1995-1997-ig terjedő időszakra vonatkozóan az Egyesült Államokban. A
tanulmány rámutatott arra, hogy a scoring rendszerek bankon belüli
használata abban az értelemben pozitív, hogy így felkeltik a bankok
érdeklődését e kockázati profilok iránt, és csökkentik a kedvezőtlen
kiválasztások számát azáltal, hogy lehetővé teszik a csekély
jelentőségű magasabb kockázati profilok esetében a könnyebb
finanszírozást, mindezt persze megfelelő áron. Érdekes módon Berger,
Frame és Miller képtelenek voltak bizonyítani a nagyobb kölcsönök (100000
és 250000 $ között) esetén a scoring modellek igazi előnyét.
A jelenlegi széles körben alkalmazott credit scoring módszerek négy
többváltozós scoring modellből állnak: lineáris regressziós
valószínűségi modellből, logit modellből, probit modellből és az
összetett diszkriminancia-analízis modellből.
Az olyan optimális modell kiválasztása, amely létező adatbázisra
alapozva történik, napjainkra is igazi kihívás maradt. Galindo és
Tamayo (2000) öt szükséges tulajdonságot állapított meg az optimális
scoring modell választás folyamatában:
1.
Pontosság
2.
Takarékosság
3.
Jelentőség
4.
Megvalósíthatóság
5.
Átláthatóság és értelmezhetőség
2.1.1 Bázel II. tőkeegyezmény rövid ismertetése
A Bázel II. tőkeegyezmény a nemzetközileg aktív bankokra vonatkozik.
Ez az egyezmény a hitelkockázat tőkekövetelményének számítása terén
vezet be újításokat. Három alappillérre épül:
1. pillér: Tőkeminimum – Hitel- és működési kockázat
A működési kockázat a kiemelt kockázati kategóriák közé került, és
erre a célra a hitelintézeteknek és a befektetési vállalkozásoknak
tőkefedezetet kell elkülöníteniük. A működési kockázat definíciója a
bázeli javaslat szerint: az emberek, a belső folyamatok és rendszerek
nem megfelelő vagy hibás működése, illetve külső tényezők által előidézett
veszteségek kockázatát jelenti. A tőkeszükséget számítási módszerek
tekintetében a kockázatkezelési rendszereik fejlettségi szintje
szerint három módszer közül választhatnak a hitelintézetek és a
befektetési vállalkozások: alapmutató módszer, standard módszer,
fejlett mérési módszer). A bázeli bizottság a biztosítást csak a
fejlett mérési módszerek alkalmazása esetén ismeri el.
2. pillér: Felügyeleti vizsgálat
A felügyeleti felülvizsgálati folyamat célja, hogy a hitelintézetek és
befektetési vállalkozások kockázati profiljuknak megfelelő tőkeszintet
alakítsanak ki, valamint magas színvonalú kockázatmenedzselést működtessenek.
A felügyeleti hatóság felelőssége annak megítélésében rejlik, hogy a
hitelintézetek és befektetési vállalkozások a saját tőkeszükségletüket
megfelelően határozták-e meg.
3. pillér: Nyilvánosságra hozatali követelmények
A közzétételi kötelezettség az anyavállalat szintjén konszolidáltan
értendő. A nyilvánosságra hozatali kötelezettséget folyamatosan
szigorítják. Nem csak adatokat, hanem működési leírásokat is tartalmaz
(pl. kockázatkezelési rendszerek).
2.1.2 Az 5C eljárás rövid ismertetése (Sóvágó [2001])
1.
Character (adós jelleme): Ez a vizsgálati szempont az adós
hitel-visszafizetési hajlandóságát vizsgálja. Azt állapítja meg,
hogy az adós akar-e egyáltalán fizetni, ez vonatkozhat
vállalatokra, magánszemélyekre, stb.
2.
Capital (vagyon): A vállalat vagyona megteremti a biztonságos
működés feltételeit, felszámolás esetén pedig fedezetet nyújt a
vállalat kötelezettségeire. A vagyon növekedése mindegy milyen
indíttatásból történtik a hitelbírálat során pozitív információval
bír.
3.
Capacity (visszafizetési képesség): A visszafizetési képesség
vizsgálata tekinthető a hitelbírálat legfontosabb részének. A
vizsgálat célja, hogy megállapítsuk, hogy az adós képes lesz-e
visszafizetni a felvett hitelt.
4.
Collateral (biztosítékok): Ebben a részben annak a vizsgálatára
kerül sor, hogy a vállalat rendelkezik-e a hitel fedezetéül
felajánlható vagyontárgyakkal. Nemzetközi gyakorlatban a bank nem
mindig kér biztosítékot, de abban az esetben mindig, ha
kockázatosnak ítéli meg a hitel folyósítását az adós minősítése
vagy a hitel nagysága miatt. A magyar jogszabályok előírják, hogy
a bankok minden esetben kérjenek biztosítékot. A hitelnyújtás
alapelve, hogy nem szabad olyan hitelt nyújtani, aminél a várható
visszafizetés csak a biztosítékok értékesítéséből származik.
5.
Conditions (feltételek): A feltételek értékelésénél a külső
körülményeket is fel kell mérni pl. az ágazati kockázatot. Meg
kell vizsgálnunk az ágazat jelenbeli helyzetét és jövőbeli
kilátásait, a trendeket, a konkurenciát, a nyersanyag és a
munkaerő biztosításának feltételeit, politikai döntések hatását az
ágazatra, stb. Ezen kívül értékelni kell az adós országában rejlő
politikai és gazdasági kockázatokat is. Az ország kockázati
elemzés elkészítése azonban költséges eljárás, ezért csak ritkán
alkalmazzák.
2.2 Credit scoring bemutatása
-----------------------------
A credit scoring döntési modellek és mögöttes módszereik együttese
(Oravecz [2007]). A credit score egy számszerű kifejezés, amely egy
személy hitelhez fűződő adatairól készült statisztikai elemzésen
alapul, azért hogy kifejezze az adott egyén hitelképességét. A
hitelképesség azonban relatív fogalom, mert ez az egyénnek nem olyan
kézzelfogható tulajdonsága, mint például a magasság, vagy a jövedelem.
Egyes bankok akár olyan ügyfeleket is hitelképesnek tarthatnak,
akiknek más bankok már nem kínálnak hitelt. Az, hogy egy adott bank
kinek folyósít hitelt, az függ a kockázatvállalási hajlandóságától,
hitelezési politikájától vagy a meglévő portfoliójától. A hitelezők
(bankok, hitelintézetek, stb.) azért használják a credit scoring
modellt, hogy kiértékeljék az ügyfél hitelezésének kockázatát, és
csökkentsék a behajthatatlan követelésekből származó veszteségeket. A
credit scoring modell segítségével határozzák meg továbbá, hogy ki
alkalmas a hitel felvételére, illetve mekkora kamatláb és hitelösszeg
mellett alkalmas erre.
A credit scoring módszerek alkalmazásának mindegyike egy nagy
adatbázisra épül, amely tartalmazza a korábbi ügyfelek adatait (a
hitelkérelem benyújtásakor felvett adatokat), és a hitel
visszafizetési tulajdonságaikat (problémamentes, akadtak késések, nem
fizetések). Ezután különböző technikák segítségével megpróbálják
feltárni a kapcsolatot az ügyfél jellemzői és a fizetési hajlandósága
között. Egyes módszerek ún. scorecardot eredményeznek: minden
tulajdonsághoz rendelhetünk valamilyen pontszámot (score-t), és a
pontszámok összeadása után dönthetjük el, hogy az adott ügyfélből jó
vagy rossz adós válik-e, vagyis hogy nagy-e nála a hitel vissza nem
fizetésének a kockázata. Vannak azonban olyan technikák is, amelyek
nem eredményeznek ilyen scorecardot, hanem közvetlenül mutatják a nem
fizetés valószínűségét.
Napjainkban a scoring módszerek széles skáláját alkalmazzák, ez
részben köszönhető az új banki termékek megjelenésének és annak, hogy
a bankok szegmentálják az ügyfeleket Az eltérő termékcsaládok és
ügyfélcsoportok más és más vizsgálati módszer használatát követelik
meg. Például egy új ügyfél megítélése esetén hiányoznak az elemzésből
azok a változók, amiket egy régebbi ügyfél esetén ismerünk (pl.
visszafizetési hajlandóság).
A credit scoring használata nem csak a bankokra korlátozódik. Más
szervezetek, mint például mobilszolgáltatók, biztosító cégek,
munkáltatók és a kormányzati szektor is ugyanezt a módszert
alkalmazza. A credit scoring és az adatbányászat között sok átfedés
van, hiszen számos hasonló technikát alkalmaznak.
A hitelezési döntés támogatása a credit scoring modellek feladata. A
modelltől elvárjuk, hogy megmondja, mely változókat kell figyelembe
venni a döntési folyamat során és ezek felhasználásával megadja a
döntési módszert is. Végül a hitelkérelmeket a modellek segítségével
két vagy több csoportba szeretnék sorolni, hogy a várható kockázat
alapján el tudjuk különíteni a csoportokat.
Hagyományos módszerek: lineáris valószínűségi modell, probit- és logit
modellek, diszkriminancia-analízis, klasszifikációs fák, lineáris
programozás és a k-adik „legközelebbi szomszéd”-módszer.
Mesterségesintelligencia-módszerek: neurális hálózatok, szakértői
rendszerek, genetikus algoritmusok.
A módszerek közül a legelterjedtebb a logisztikus regresszió.
Rendkívül széles körben alkalmazzák, mivel nincs a modellben az adatok
milyenségére vonatkozó korlát. Ez azt jelenti, hogy a logisztikus
regresszióban a független adatok lehetnek akár binárisak, akár
kategorikusak, akár folytonosak, a modell számára nem jelent problémát
a változók használata.
3. Regressziós modellek
=======================
A logisztikus regresszió bemutatása előtt fontosnak tartjuk a lineáris
regresszió bemutatását, hiszen a kettő között hasonlóságok fedezhetők
fel.
3.1 Lineáris regresszió
-----------------------
A társadalmi-gazdasági jelenségek változását vizsgálhatjuk önmagukban
és a vizsgált jelenséggel szoros kapcsolatban lévő tényezők
összefüggésében. A kétféle vizsgálat más és más kérdésekre ad választ,
hiszen a jelenségek önmagukban való elemzése már bekövetkezett állapot
leírását adja, míg a hatótényezők vizsgálata során arra enged
következtetni, hogy a bekövetkezett állapot hogyan jött létre: mely
tényezők hatására következett be, és a különböző tényezők milyen
mértékben járultak hozzá a jelenség kialakulásához.
A társadalmi-gazdasági jelenségeket számos tényező határozza meg,
amelyek között vannak meghatározó és a jelenséggel kevésbé összefüggő
tényezők, ezen utóbbi tényezők hatását a kapcsolatvizsgálat
szempontjából véletlennek tételezzük fel, sztochasztikus vagy
valószínűségi kapcsolatnak nevezzük. A gazdasági életben erre
vonatkozóan rengeteg példát lehet felhozni: ilyen például a munkások
bére, amely egy sor tényezőtől függ, és bár a tényezők között
közvetlen kapcsolat van, az még sem determinisztikus, mivel számos
külső tényező is alakítja a munkabérek megállapítását (pl. a
munkaerőpiac helyzete). A gazdasági életben tapasztalt kapcsolatok
természetét befolyásolja, hogy a benne érvényesülő statisztikai
törvények is sztochasztikus jellegűek.
A sztochasztikus kapcsolatok elemzésével gazdagíthatjuk a jelenségről
és összefüggéseikről alkotott ismereteinket. Az okozati összefüggések
feltárásához szükséges a vizsgálat tárgyát képező jelenség megfelelő
szakismerete. A jelenségek okozati összefüggés nélkül is gyakran
mutatnak hasonlóságot.
A sztochasztikus kapcsolatok elemzésére gyakran használjuk a
regresszió számítást.
3.1.1 A lineáris regressziós modell
A vizsgált jelenség grafikus ábrázolása nagy szerepet játszik az
összefüggés lényegének feltárásában (Mundruczó [1981]). A
koordináta-tengely vízszintes tengelyére a befolyásoló (független)
változók értékeit vesszük fel, míg a függőleges tengelyen a függő
változó értékei lesznek ábrázolva. (Az ábrázolást elvégezhetjük pl.
pontdiagrammal is.) A két változó közötti összefüggés feltárásában
fontos, hogy a változók közötti kapcsolatot valamilyen függvényszerű
kapcsolattal fejezzük ki. Ha a függvény egy egyenesre illeszkedik,
akkor lineáris regresszióról beszélhetünk.
Lineáris regresszió-függvény esetén az i-edik érték és az Yi érték
közötti összefüggés:
Yi=β0+β1*Xi+εi (1)
Ebben az összefüggésben a β0 és a β1 a regresszió-függvény ismeretlen
paraméterei, az εi pedig a hibatényező, ami a modellben nem szereplő
független változók hatását magyarázza.
A lineáris regressziós modell elemzése során arra törekszünk, hogy a
megválasztott egyenes a lehető legjobban leírja a változóink között
meglévő függvénykapcsolatot, és minimalizálja a hiba mértékét. Ha a
két változó közötti kapcsolatot leíró pontok illeszkednek a
regresszió-egyenesre, akkor a függvény hiba nélkül írja le a változók
közötti kapcsolatot.
Sztochasztikus kapcsolatoknál számos egyenes szóba jöhet a kapcsolat
jellemzésére. A pontok és a regresszió-egyenes közötti eltérés azonban
jó jellemzője lehet az elkövetett hibának, ezért azt az egyenest
célszerű választani, amelynél a pontok egyenestől mért átlagos
távolsága a legkisebb. Ez a megállapítás további kérdéseket is felvet:
nevezetesen azt, hogy hogyan mérjük az pontok egyenestől való
távolságát, és hogy a hibákból milyen átlagot számolunk. A
leggyakrabban használatos módszer szerint a pontok egyenestől való
távolságát az Y tengellyel párhuzamosan mérjük fel. A távolságok
átlagolására azonban nem használhatjuk az egyszerű számtani átlagot,
hiszen az egyenes feletti pontok pozitív előjelű, míg az egyenes
alatti pontok negatív előjelű hibaként kerülnének be a mintába, így
azok akár ki is ejthetik egymást. Ezáltal könnyen előfordulhat, hogy
mindkét irányban jelentős hibát követünk el, de az elkövetett hibák
összegében ez nem jelenik meg, mert kiütik egymást. Tehát olyan
átlagot célszerű választanunk, amely közömbös az előjelekkel szemben.
A négyzetes átlag a legalkalmasabb számítási mód erre. Nemcsak az
előjel hatását küszöböli ki, hanem a nagyobb hibákat jobban ki is
hangsúlyozza a négyzetre emeléssel. Ezek alapján könnyen beláthatjuk,
hogy a legkisebb négyzetek módszere a leginkább megfelelő
görbeillesztési módszer a problémára.
2.
Logisztikus regresszió
----------------------
3.2.1 Összegzés
---------------
Ha modellezni szeretnénk egy bináris függő változót (Campbell [2004]),
ahhoz gyakran a leginkább megfelelő módszer a logisztikus regresszió.
Swinscow szerint a khi-négyzet próbát kellene alkalmazni a két bináris
változó közötti kapcsolat leírására. A khi-négyzet teszt a logisztikus
regresszió általánosítása, abból a szempontból, hogy megvizsgálja a
kapcsolatot a két kimenetelű függő változó és egy vagy több független
változó között, amelyek értékei lehetnek binárisak, kategorikusak
(több mint kétkategóriásak) vagy folytonosak. A logisztikus regresszió
hasznos az esettanulmányok elemzésénél is.
3.2.2 A modell felépítése
A függő változó egy esemény leírására szolgál, amely vagy
bekövetkezik, vagy nem (akár sikerként és bukásként is értelmezhető).
Így például megvizsgálhatjuk a vállalatok egymásnak nyújtott
hiteleinek kockázatát, vagy a bankok felmérhetik az ügyfél
hitelkockázatát. Meg kell vizsgálnunk azokat a tényezőket, amelyek
összefüggésbe hozhatók az eseménnyel. Mivel csak ritkán tudjuk
pontosan előre jelezni, hogy egy esemény bekövetkezik-e vagy sem,
ezért valójában olyan tényezőket keresünk, amik az esemény
bekövetkezésének valószínűségével állnak kapcsolatban.
A statisztikai elemzések célja, hogy megbecsüljék a szükséges
paramétereket. A logisztikus regresszióval mi modellezzük ezeket a
paramétereket.
A modell:
(2)
(3)
Ahol, xi,j = az i-edik egyed j-edik jellemzőjének értéke,
yi = az i-edik egyed célváltozója,
n = a megfigyelt egyedek száma,
m = az osztályozási szempontok (jellemzők) száma.
A binomiális logisztikus regresszió a regresszió azon formája, amelyet
akkor használnunk, ha a függő változó dichotóm, és a független változó
típusa bármi lehet. A multinomiális logisztikus regressziót abban az
esetben használjuk, ha a függő változónak több mint két kimenete van,
habár néha ekkor is bináris változót használunk úgy, hogy leírjuk, mi
alapján osztályozza a változókat két csoportba. Ha a függő változó
többes osztályai rangsorolva vannak, akkor az ordinális logisztikus
regressziót előnyben részesítjük, mint a multinomiális logisztikus
regressziót. A folytonos változókat nem használjuk függő változóként a
logisztikus regresszióban. Eltérően a logit regressziótól, itt csak
egy függő változó lehetséges.
A logisztikus regressziót használjuk a függő változó előrejelzésére a
folytonos és a kategorikus független változókra alapulva, hogy
meghatározzák az eltérés százalékát a függő változóban, és hogy
rangsorolja a független változók relatív fontosságát, és hogy
értékeljék a közöttük lévő kölcsönhatást, és hogy megértsük az
együtthatók befolyását az ellenőrző változókra. Az előre jelzett
változók befolyását gyakran magyarázzák az odds ratio vonatkozásában.
A logisztikus regresszió a maximum likelihood becslést alkalmazza a
függő változó logit változóvá transzformálása után. Ebben a
vonatkozásban a logisztikus regresszió megbecsüli egy bizonyos esemény
bekövetkezésének valószínűségét.
A logisztikus regresszió nem feltételez linearitást a függő és a
független változók között, nem követeli meg a normális eloszlást, és
általában korlátozó feltétele van. Azonban egy fontos követelmény,
hogy a megfigyelések legyenek függetlenek, és a független változók
lineárisan utaljanak a függő változóra. A logisztikus regresszió előre
jelzett sikerét értékelhetjük, ha a klasszifikációs táblára nézünk,
ugyanis ez megmutatja a helyes és a helytelen dichotóm, ordinális és
polichotóm klasszifikációkat. Hála az illeszkedési teszteknek, mint a
likelihood ratio teszt megvizsgálható a modell mutatóinak
alkalmassága.
SPSS-ben a binomiális logisztikus regresszió az
Analyze-Regression-Binary Logistic menüpontja alatt található, míg a
multinomiális az Analyze-Regression-Multinomial Logistic alatt. A
logit regresszió egy másik kapcsolódó alkalmazás az SPSS rendszerében
a loglineáris alkalmazások használatára, hogy egy vagy több függő
változót elemezhessünk. Ha mindkét megoldás alkalmazható, akkor a
logit regresszió számszerűleg ugyanazt az eredményt adja, mint a
logisztikus regresszió, de különböző kimeneti beállításokkal. A
megegyező probléma osztályokra a társadalomtudósok szívesebben
alkalmazzák a logisztikus regressziót. A független változók kódolása
függ a számítástechnikai programcsomagtól is. Néhány program
feltételezi, hogy a pozitív szám az esemény bekövetkezését jelöli, míg
a nulla ennek az ellenkezőjét. A regressziós modellben a kódok
megváltoztatása 0/1-ről 1/0-ra egyszerűen az együttható előjelének
megváltozását eredményezi és a konstans tag a régi együtthatóval
növekszik.
Bináris változók esetén a cut-off value azt az értéket mutatja meg,
amely felett a változó értéke 1, és alatta pedig 0. A cut-off value
értékének változtatásával változik az osztályokba való besorolás is,
hiszen vagy egy magasabb értéknél vagy egy alacsonyabb értéknél húzzuk
meg a határt, így az eredeti határ közelében lévő elemek
átsorolódhatnak a másik csoportba.
4. Logisztikus regresszió az SPSS rendszerében
==============================================
Az SPSS egy számítástechnikai szoftver, a neve a Statistical Package
for the Social Sciences rövidítése, melynek magyar jelentése:
statisztikai programcsomag társadalomtudományok részére. Az SPSS az
egyik piacvezető statisztikai program, amelynek segítségével
nagyméretű, összetett adatbázist lehet feldolgozni gyorsan és
hatékonyan.
Sir Ronald Aylmer Fisher korának egyik legnagyobb statisztikusa,
evolúciós biológusa és genetikusa volt. Hald Anders szerint egy zseni
volt, aki szinte segítség nélkül megalkotta a modern statisztika
tudomány alapjait, más vélemények szerint ő volt a legnagyszerűbb
Darwin utódai között. Az ő példáján keresztül, amely talán a
legismertebb adatbázis a fajfelismerési szakirodalomban szeretnénk
bemutatni egy egyszerű SPSS alkalmazást. Fisher tanulmánya klasszikus
a maga területén, és máig gyakran hivatkoznak rá. Az Iris virág vagy
más néven a Fisher féle Iris adatbázis egy többváltozós adatbázis,
amelyet példaként mutatott be Fisher a diszkriminancia-analízisre.
Gyakran nevezik Anderson-Iris adatbázisának is, mivel Edgar Anderson
gyűjtötte össze az adatokat, azért hogy mennyiségileg meghatározza az
Iris virágnak a különböző földrajzi változatait Quebec tartományban,
Kanadában.
Az adatbázis 50 példát tartalmaz az Iris növény mindegyik fajtájára
(Iris setosa, Iris versicolor, és Iris virginica). Mindegyik fajnak
négy jellemzőjét mérte fel Anderson, ezek pedig a következők: a
csésze- és a sziromlevelek hossza, és szélessége. Fisher a négy
jellemző kombinációjára felépített egy lineáris diszkriminancia
modellt, amely meghatározza, hogy az egyes egyedek mely fajba
tartoznak.
Kitűzött feladatként azt szeretnénk bemutatni ezen az egyszerű példán,
hogy az SPSS rendszer segítségével könnyen meg lehet határozni annak a
valószínűségét, hogy az egyes egyedek mely csoportba fognak tartozni,
majd ezek után az egyedek osztályozása is elvégezhető.
Mint már említettem az adatbázis 50 példát tartalmaz mindegyik Iris
növény osztályára vonatkozóan. A feladat megoldása során két
részfeladatot vizsgálunk:
1.
A négy adat mérése után mekkora a valószínűsége annak, hogy a
vizsgált egyed Iris setosa?
2.
Illetve a négy adat mérése után mekkora a valószínűsége annak,
hogy a vizsgált egyed Iris Versicolor?
Ránézésre a két feladat megegyezik, de ez csak a látszat. Az elsőt
ugyanis sokkal könnyebben meg lehet oldani, mint a másodikat. Ez azért
van így, mert az Iris setosa lineárisan elkülöníthető a másik két
fajtától. A másik két fajta azonban nem különíthető el lineárisan
egymástól, ezért a második feladatnál sokkal nehezebb meghatározni,
hogy az adott egyed tulajdonképpen melyik csoportba is tartozik: Iris
versicolor vagy pedig Iris virginica. A 2. ábrán is jól látható ez az
elkülönülés: a piros jelöli az Iris setosa-t, és ezt egy egyenessel el
lehet különíteni a többi fajtától. A másik kettő között nem tudunk
ilyen egyenest meghúzni, hiszen ott szóródnak az adatok.

2. ábra: Iris növények adatai (piros=setosa, zöld=versicolor,
kék=virginica)
Forrás: en.wikipedia.org/wiki/Iris_flower_data_set
1. feladat: Az SPSS rendszerbe bevittük az Anderson által
összegyűjtött adatokat. 4 független változót tudtunk azonosítani:
csészelevél hossza (1), csészelevél szélessége (2), sziromlevél hossza
(3) és sziromlevél szélessége (4). Mivel azt vizsgáljuk, hogy az adott
egyed milyen jellemzők alapján sorolható be az Iris setosa osztályába,
ezért azt tételezzük fel igaz állításnak, amit egyessel jelölünk. A
másik két fajta mellé ebben az esetben nullát írunk. Ezután az Analyze
menü Regression/Binary Logistic parancsával lefuttatunk az adattáblára
egy logisztikus regressziót. A kapott eredményeket egy output ablakban
láthatjuk.
Az 3. ábra megmutatja, hogy a teljes mintanagyság 150, nincs hiányzó
eset, ezért az elemzésbe bevont esetek száma is 150.

3. ábra: Az elemzésbe bevont esetek
Az elemzés első fázisa:
A 4. ábra megmutatja, hogy 50 eset az egyes, míg 100 eset, azaz a
minta 66,7%-a a nullás csoporthoz tartozik. Ez azt jelenti, hogy ha
véletlenszerűen azt állítjuk egy egyedről, hogy az nem az Iris setosa
csoportjába tartozik, akkor 66,7%-ban igazunk lett volna.

4. ábra: Klasszifikációs tábla
A 5. ábra csak a konstans értékét tartalmazza és a Wald statisztikát
használja a paraméterbecslésre.

5. ábra: A konstans tag értéke
A 6. ábra azt mutatja, hogy a független változókat még nem vittük be a
becslésbe, együttes hatásukat a program nem mutatja, de egyedi
hatásukat igen.

6. ábra: Független változók
Az elemzés második fázisa:
Az elemzés második része a végeredményt mutatja. A négy független
változót egyszerre vittük be az elemzésbe. Az 7. ábra alapján
megállapítható, hogy az összes változó értéke szignifikáns.

7. ábra: Szignifikancia vizsgálat eredménye
A 8. ábra becslést ad arra, hogy a négy független változó kombinációja
mekkora részt magyaráz meg a függő változó varianciájából. Két mutató
is szolgál a kapcsolat feltárására: az egyik a Cox és Snell R négyzet
mutató, a másik pedig a Nagelkerke R négyzet mutató. A Cox és Snell
mutató rendszerint alábecsüli a kapcsolatot, ezért a Nagelkerke mutató
a valósághoz közelibb eredményt mutat. Ebben az esetben is a
Nagelkerke a magasabb, hiszen ez azt állítja, hogy a független
változók 100%-ban magyarázzák a függő változót.

8. ábra: Független változók korrelációja a függő változóval
A 9. ábra szerint a modell 100%-ig helyesen kategorizálta a
csoportokat, mind az Iris setosa, mind pedig a másik csoport
tekintetében.

9. ábra: A csoportok osztályozásának eredménye
Az 10. ábra ellenőrző jelleggel létrehozott p oszlopának értékei
alapján is megbizonyosodhatunk arról, hogy az SPSS 100%-ig pontosan el
tudta különíteni egymástól a csoportokat. A p értékét úgy kaptuk meg,
hogy 1/(1+exp(-skalárszorzat))-ot (logisztikus regresszió képlete
alapján) vettük, és így világosan láthatjuk, hogy minden esetben jó
megoldást adott a problémára. Ezután már hasztalan lenne bemutatni a
cut-off value értékének változására bekövetkező változásokat, mert
ebben az esetben bármely cut-off value érték esetén ugyanez lenne a
helyzet.

10. ábra: Adatok SPSS táblában
Ahogyan azt a 11. ábrán láthatjuk, a ROC görbe is mutatja, hogy az
SPSS 100%-os pontossággal meg tudta állapítani, hogy az egyes egyedek
mely csoportba tartoznak, tehát 100%-ig el tudta különíteni az Iris
setosa-t az Iris versicolor-tól és az Iris virginica-tól.

11. ábra: ROC görbe
A 2. feladat bonyolultabb az elsőnél, hiszen itt nem lehet ennyire
egyértelműen megkülönböztetni egymástól a csoportokat. Ebben az
esetben az Iris versicolort tekintjük igaz kimenetelnek, ezért itt ez
kapja az egyes értéket, az összes többit pedig nullás értékre
kódoltam.
A 12. ábra megmutatja, hogy a teljes mintanagyság 150, nincs hiányzó
eset, ezért az elemzésbe bevont esetek száma is 150. Eddig a
feladatunk megegyezik az előző esettel.

12. ábra: Az elemzésbe bevont esetek
Az elemzés első fázisa:
A 13. ábra megmutatja, hogy 50 eset az egyes, míg 100 eset, azaz a
minta 66,7%-a a nullás csoporthoz tartozik. Ez azt jelenti, hogy ha
véletlenszerűen azt állítjuk egy egyedről, hogy az nem az Iris
versicolor csoportjába tartozik, akkor 66,7%-ban igazunk lett volna.
Az elemzésnek ez a része is még megegyezik az első esettel.

13. ábra: Klasszifikációs tábla
A 14. ábra csak a konstans értékét tartalmazza és a Wald statisztikát
használja a paraméterbecslésre.

14. ábra: A konstans tag értéke
A 15. ábra azt mutatja, hogy a független változókat még nem vittük be
a becslésbe, együttes hatásukat a program nem mutatja, de egyedi
hatásukat igen.

15. ábra: Független változók
Az elemzés második fázisa:
Az elemzés második része a végeredményt mutatja. A négy független
változót egyszerre vittük be az elemzésbe. Az 16. ábra alapján
megállapítható, hogy az összes változó értéke szignifikáns.

16. ábra: Szignifikancia vizsgálat eredménye
A 17. ábra becslést ad arra, hogy a négy független változó
kombinációja mekkora részt magyaráz meg a függő változó
varianciájából. Két mutató is szolgál a kapcsolat feltárására: az
egyik a Cox és Snell R négyzet mutató, a másik pedig a Nagelkerke R
négyzet mutató. A Cox és Snell mutató rendszerint alábecsüli a
kapcsolatot, ezért a Nagelkerke mutató a valósághoz közelibb eredményt
mutat. Ebben az esetben is a Nagelkerke a magasabb, hiszen ez azt
állítja, hogy a független változók 36,1%-ban magyarázzák a függő
változót.

17. ábra: Független változók korrelációja a függő változóval
A 18. ábra szerint mindössze 50% azoknak az aránya, ahol a modell
helyesen kategorizálta, hogy az adott egyed Iris versicolor, míg 86% a
helyes kategorizálás aránya a másik csoport esetében. Ez összességében
azt jelenti, hogy a helyesen kategorizált esetek aránya 74%, amelyet a
véletlen kategorizálás várható sikeréhez (66,7%) viszonyítva
észrevehető, hogy pontosabb eredményt értünk el.

18. ábra: A csoportok osztályozásának eredménye
A 19. ábrán szintén a Wald statisztikát alkalmazza, amely a béta(B) és
a standard hiba(S.E.) hányadosának négyzete. Amennyiben a Wald
-statisztika szignifikáns, az adott változó hozzájárul az modellhez.
Az exp(B) a táblázat legfontosabb mutatója, ugyanis ez mutatja meg,
hogy az egyes értékek mennyivel javítják a becslést. Például egy 1,05
érték azt jelentené, hogy az adott együttható 5%-kal javítaná a helyes
kategorizálás értékét.

19. ábra: Független változók együtthatóinak és
szignifikanciájának meghatározása
Fontos belátnunk azt is, hogy a tényezők önmagukban mért
szignifikanciája nem jelenti azt, hogy a közös elemzés során is
szignifikánsak maradnak. Ezt láthatjuk a V1 változó esetén is, ahol az
egyéni hatása még szignifikáns volt, de a közös elemzésbe való bevonás
után elveszítette ezt a jellegét. Ennek a jelenségnek több oka is
lehet: 1. a változó korrelál a többi változóval, 2. a standard hiba a
B értékéhez képest nagy.
A ROC görbe elemzésénél láthatjuk (20. ábra), hogy ebben az esetben is
viszonylag pontos eredményt kapunk, hiszen a ROC görbe alatti terület
nagysága 0,8231, ami jónak mondható.


20. ábra: ROC görbe
A 2. feladatnál érdemes megfigyelni a különböző logisztikus
regressziós módszerek és a cut-off value értékének változtatására
bekövetkező módosulásokat. Az SPSS-ben logisztikus regressziót
hét-féle eljárással hajthatunk végre: Enter, Forward: conditional,
Forward: LR, Forward: Wald, Backward: conditional, Backward: LR,
Backward: Wald. Az eljárások váltakozó lefuttatása állandó cut-off
value esetén nem hozott jelentős változásokat a hatékonyságban,
viszont megfigyelhető, hogy a forward módszerek mindegyike 1,3%-kal
pontatlanabb eredményt adott, mint az enter és a backward módszerek.
A cut-off value változtatásának hatására ugyanazon módszer esetén
(jelen esetben Enter) nagyobb eltérések tapasztalhatóak. 5
századonként emeltük a cut-off value értékét, a [0,05; 0,95]
tartományon. A legkisebb hatékonyságot (42,7%) 0,05-ös cut-off value
érték mellett, a legnagyobbat (76%) pedig 0,35-ös és 0,4-es cut value
mellett értem el. A kettő közötti különbség 33,3%. Ebből az a
következtetés vonható le, hogy a cut-off value érték erőteljesen
meghatározza a hatékonyság alakulását.
5. Hitelelemzés az SPSS rendszerében
====================================
Az SPSS rendszer lehetővé teszi számunkra, hogy segítségével
értékeljük a hiteligénylések kockázatát. Ehhez azonban azonosítanunk
kell azokat a jellemzőket, ami alapján el tudjuk dönteni, hogy az
adott egyénből jó vagy netán rossz adós válik. A banki adatbázis
megkönnyíti a dolgunkat, hiszen letárolja a múltbeli ügyfelek adatait,
amelyek jellemzőiből következtetéseket vonhatunk le a jövőre nézve. A
bank a kockázat értékeléséhez számos adatot kér be egy-egy ügyfeléről.
A döntéshez szükséges legfontosabb adatok a következők: a hiteligénylő
életkora, az iskolázottsági szintje, mennyi ideje dolgozik a jelenlegi
munkahelyén, mennyi ideje lakik a jelenlegi címén, az egész
háztartásra vonatkoztatva mekkora a jövedelme, amit 1000Ft-ban adnak
meg, az adósság hány százalékát teszi a jövedelemének, az ügyfél
hitelkártyáján lévő tartozás összegének nagysága szintén 1000Ft-ban
kifejezve, valamint az egyéb adósságok összege. Ha régi ügyfelünkről
van szó, akkor fontos megvizsgálni az adott ügyfél korábbi
hitel-visszafizetési hajlandóságát. Ezek az adatok kellenek ahhoz,
hogy el tudjuk bírálni a hitelkérelmet akár egy régi, akár egy új
ügyfélről legyen szó.
Az SPSS rendszerbe kialakítjuk a modell vázát a fent említett
ismérveknek megfelelően. Majd az adatbázist feltöltjük az egyes
egyénekre vonatkozó adatokkal. A hitel-visszafizetésének várható
alakulása lesz a függő változónk. Ismerve a múltbéli adatokat a
korábbi adósok esetén egyértelműen meghatározható a hitel
visszafizetési hajlandóság. Ezen adatokat felhasználva felépíthetünk
egy modellt, ami alapján elbírálhatjuk vagy pozitívan, vagy pedig
negatívan az új ügyfelek hitelkérelmét.
A feladat megoldása során kétféle adatbázist használunk. Mindkét
esetben az SPSS beépített adatbázisát használjuk fel a modell
megalkotása során. Az első esetben az egész adatbázisra építem fel a
modellt. A második esetben az adatbázis egy (nagy) részére felépítünk
egy modellt, amelynek hatékonyságát a kihagyott tesztkészlet
segítségével fogjuk értékelni. Végül a két módszer eredményességét
hasonlítjuk össze egymással.
A betöltött adatbázisra logisztikus regressziós elemzést hajtunk
végre, amelyet az Analyze/Complex Sample/Logistic Regresion… menüpont
alatt érhetünk el. A megjelenő output ablakban pedig megkapjuk a
futtatás eredményét.
1. feladat: A független változók nem azonos mértékben gyakorolnak
hatást a modellre, ezért meg kell vizsgálnunk, hogy az egyes változók
külön-külön hogyan befolyásolják a modellt. Ezt azzal mérjük, hogy az
adott változóhoz tartozó együttható együttható egyenlő-e 0-val. Erre
hipotézisvizsgálatot végzünk. A modell szempontjából az a változó
számít meghatározónak, amelynél a fenti tesztben a
szignifikancia-szint („p-value”) 0,05 alatti, ezt mutatja a következő
ábra. A 21. ábra alapján megállapíthatjuk, hogy az életkor, a
munkaviszony időtartama, a havi törlesztő részlet nagysága a jövedelem
százalékában, valamint a felhalmozott hitelkártya tartozás hatása
szignifikáns a modellre nézve. A többi változót a későbbi elemzésekből
ki is hagyhatjuk, mivel ezek hatása kicsi.

21. ábra: A szignifikáns változók meghatározása
A paraméter becslések táblázata összefoglalja minden egyes változó
hatását (22. ábra). A paraméter értékek a hitel vissza nem fizetésének
valószínűségére hatnak a hitel visszafizetésének kategóriájára
vonatkoztatva. Ezáltal azok a paraméterek, amelyek pozitív
együtthatóval állnak növelik a hitel vissza nem fizetésének
kockázatát, míg a negatív együtthatóval rendelkező paraméterek
csökkentik ugyanezt.
A logisztikus regresszió együtthatóinak jelentése nem olyan
egyértelmű, mint a lineáris regresszió együtthatóié. Exp(B) megmutatja
az arány változását a meghatározó változókban annak hatására, hogy ha
változtatunk egy elemet a kölcsönhatásban nem szereplő független
változókban. Például, ha a munkaviszony időtartamának változását
figyeljük, megállapíthatjuk, hogy 0,798-szor (ez az exp(B) értéke)
akkora a hiba bekövetkezésének esélye azoknál a munkavállalóknál, akik
legalább 2 éve dolgoznak, mint azoknál, akik csak egy éve. A mintára
gyakorolt hatás megmutatja, hogy néhány standard hiba ezeket a
paramétereket nagyobbra becsüli, mint azokat, amelyeket úgy kapunk
meg, hogy ha feltételezzük, hogy a megfigyelések az egyszerű véletlen
mintából származnak.
2 2. ábra: Paraméter becslések táblázata
A klasszifikációs tábla (23. ábra) a gyakorlati eredményét mutatja a
logisztikus regresszió használatának. A cellák diagonálisában vannak a
helyesen előre jelzett értékek, míg a többi cella a hibás
előrejelzések adatait tartalmazza. A modell használatával 85,5%-ban
helyesen klasszifikálják azokat az ügyfeleket, akik képesek
visszafizetni a hitelt. 60,9%-ban helyes azon ügyfelek osztályozása,
akik nem képesek visszafizetni a hitelt. Összességében elmondhatjuk,
hogy a modell 76,5%-ban ad vissza helyes értéket.

23. ábra: Klasszifikációs tábla
2. feladat: Az 1500 ügyfél adatait tartalmazó adatbázist először
felosztom validációs és tesztkészletre. Az első 1400 ügyfélre
vonatkozó adatok alapján építem fel a modellt, majd a maradék 100
ügyfél adataira tesztelem le a modell hatékonyságát.
A változók modellre gyakorolt hatásának vizsgálatakor megállapítható,
hogy 3 változó hatása szignifikáns: a munkaviszony időtartama, a havi
törlesztő részlet nagyság a jövedelem százalékában, valamint a
felhalmozott hitelkártya tartozás. (24. ábra)

24. ábra: A szignifikáns változók meghatározása
A paraméter becslések táblázata (25. ábra) összefoglalja minden egyes
változó hatását. A paraméter értékek a hitel vissza nem fizetésének
valószínűségére hatnak a hitel visszafizetésének kategóriájára
vonatkoztatva. Ezáltal azok a paraméterek, amelyek pozitív
együtthatóval állnak növelik a hitel vissza nem fizetésének
kockázatát, míg a negatív együtthatóval rendelkező paraméterek
csökkentik ugyanezt.
Az előző esethez képest megfigyelhető a B együtthatók, valamint a
konstans tag és az exp(B) változása is.

25. ábra: Paraméter becslések táblázata
A klasszifikációs tábla (26. ábra) a gyakorlati eredményét mutatja a
logisztikus regresszió használatának. A cellák diagonálisában vannak a
helyesen előre jelzett értékek, míg a többi cella a hibás
előrejelzések adatait tartalmazza. A modell használatával 85,5%-ban
helyesen klasszifikálják azokat az ügyfeleket, akik képesek
visszafizetni a hitelt. 61,4%-ban helyes azon ügyfelek osztályozása,
akik nem képesek visszafizetni a hitelt. Összességében elmondhatjuk,
hogy a modell 76,6%-ban ad vissza helyes értéket.

26. ábra: Klasszifikációs tábla
Most pedig teszteljük a modellt a tanulókészletünk elkülönített, a
modellalkotásban részt nem vevő részére! Ez úgy oldható meg, hogy
kiszámoljuk a meghatározó változók skalár szorzatát a B
együtthatókkal, és hozzáadjuk a konstans tagot, majd ennek vesszük a
1/(1+exp(- skalárszorzat)) –át. Így megkapjuk a hitel elbírálásához
szükséges mutatót, amelynek értéke minden esetben a [0; 1]
intervallumban van. Meg kell határoznunk egy cut-off value értéket,
ami meg fogja mutatni nekünk, hogy egy adott hitelkérelmet
elfogadhatunk, vagy vissza kell utasítanunk. Ezt az értéket minden
bank maga határozza meg a kockázatvállalási politikájának megfelelően,
így előfordulhat az az eset, hogy egyik helyen visszautasítják az
illető hiteligénylését, míg a másik helyen megkapja a hitelt. A mi
esetünkben legyen ez az érték 0,5. Az ennél nagyobb értékkel
rendelkező ügyfelek hitelkérelmét fogadjuk el, míg ez alattiakat
utasítsuk el, mert azok kockázatosak.
Megfigyelhető (27. ábra), hogy a tesztkészleten a teljes hatékonyság
kisebb, mint ahogy azt a modell alakulásából gondoltuk volna. A modell
ugyanis azt állította, hogy 76,6%-ban jól klasszifikálja a
hitelkérelmeket, míg a tesztkészleten ez az érték csak 73%-ra jött ki.
Observed
predicted
No
yes
percent correct
No
59
7
89,4%
Yes
20
14
41,2%
overall percentage
79,0%
21,0%
73,0%
27. ábra: A hatékonyság vizsgálata a tesztkészletre
Ez az eredmény jó összhangban van a szakma tapasztalataival.
6.
Összegzés
=========
Napjainkban a kockázatok elemzése és kezelése egyre fontosabb
feladattá válik, ugyanis egyre nyilvánvalóbb, hogy a kockázatkerülő
piaci magatartás nem vezet eredményre. Ezen felismerés szükségessé
teszi a minél eredményesebb kockázatkezelési stratégia kialakítását és
a minél hatékonyabb kockázatelemzési szoftverek kifejlesztését.
A kockázatelemzési szoftvereket a bankok, a vállalatok, egészségügy,
marketingkutatások és a gazdaság egyéb szereplői is alkalmazhatják,
mégis a legelterjedtebb a használatuk a banki szférában.
A credit scoring modellek alkalmasak a hitelkockázat mérésére. A
leggyakrabban használt módszerük a logisztikus regressziós modell,
mivel ennek alkalmazhatósága kevés korlátba ütközik: a logisztikus
regresszió esetén a változók lehetnek binárisak, kategorikusak és
folytonosak is, és még a folytonos változók eloszlására sem írunk elő
normalitást.
Az egyik piacvezető statisztikai szoftver, az SPSS segítségével
felépítettünk egy olyan logisztikus regressziós modellt, amely alapján
becslést tudunk mondani, hogy egy adott ügyfél jó, vagy rossz adós
lesz-e. A modell felépítéséhez más ügyfelek múltbeli adatait és a
hitel visszafizetési eredményét vesszük figyelembe, és ezekből modellt
építve alakítjuk ki várakozásainkat minden egyes új ügyfél esetén. A
szoftver ezt az elemzést végzi el.
Világos, hogy a regressziós modell, így a szoftver sem nem tudja
megmondani 100%-os bizonyossággal egy adott ügyfélről, hogy az képes
lesz-e visszafizetni a felvett hitelt vagy sem. Ezt a hibát
dolgozatunkban – az SPSS keretein túlmenően - az elmélet alapján saját
elemzéssel végeztük el.
Törekedni kell arra – és ezt a dolgozat továbbfejlesztésével meg
szeretnénk tenni -, hogy minél pontosabban oldjuk meg feladatunkat, a
kockázat előrejelzését, hiszen a programok minimális
hatékonyságnövekedése esetén is óriási profitnövekedést és/vagy
kockázatcsökkentést lehet elérni nagy volumenű kihelyezések esetén.
Irodalomjegyzék
===============
M J Campbell [2004]: Statistics At Square Two, 37-58. o. BMJ Books,
London
De Servigny – Renault [2004]: Measuring and Managing Credit Risk, Mc
Graw Hill, USA
Farkas Szilveszter – Szabó József [2005]: A vállalati kockázatkezelés
kézikönyve, Dialóg Campus Kiadó, Budapest – Pécs
Ketskeméty László – Izsó Lajos [2005]: Bevezetés az SPSS
programrendszerébe, ELTE Eötvös Kiadó, Budapest
Mundruczó György [1981]: Alkalmazott regresszió számítás, Akadémiai
Kiadó, Budapest
Oravecz Beatrix [2007]: Credit scoring modellek és teljesítményük
értékelése, Hitelintézeti Szemle, 2007 Hatodik évfolyam 6. szám,
607-627.
Sajtos László – Mitev Ariel [2007]: SPSS kutatási és adatelemzési
kézikönyv, Alinea Kiadó, Budapest
Dr. Sóvágó Lajos [2001]: Hitelbírálat, Unió Kiadó, Budapest
Internetes források
===================
archive.ics.uci.edu/ml/datasets/Iris (letöltve: 2008.10.14.)
en.wikipedia.org/wiki/Credit_score (letöltve: 2008.10.15)
en.wikipedia.org/wiki/Iris_flower_data_set (letöltve: 2008.10.15)
en.wikipedia.org/wiki/Logistic_regression (letöltve: 2008. 10.15)
faculty.chass.ncsu.edu/garson/PA765/logistic.htm (letöltve:
2008.10.23)
luna.cas.usf.edu/~mbrannic/files/regression/Logistic.html (letöltve:
2008.10.15)
www.hik.hu/tankonyvtar/site/books/b163/ch16s03s02.html (letöltve:
2008.10.16)
www.pszaf.hu/bazel2/20031120/20031120.htm (letöltve:2008.10.16)
www.pszaf.hu/bazel2/hatas.pdf (letöltve: 2008.10.16)
www.sciencedirect.com (letöltve: 2008.10.15)
www.uni-miskolc.hu/~euint/20031002zzz20031231/kornygazdea01bsclev.pdf
(letöltve: 2008.10.18)

  • THIS VERSION IS FOR THE VISUALLY IMPAIRED – TO
  • MODULI DI INTEGRAZIONE IDONEITA’ E PRELIMINARI ALL’ESC DIRITTO –
  • ZADÁVACÍ DOKUMENTACE K VEŘEJNÉ ZAKÁZCE NA SLUŽBYDODÁVKYSTAVEBNÍ PRÁCE ZADÁVANÉ
  • UNIVERSIDAD DE EL SALVADOR FACULTAD DE MEDICINA CIRUGIA GENERAL
  • LAUDATIO AUF DIE PREISTRÄGER DES ARTHUR KRONTHALPREISES 2016 DR
  • 14 THÉORIE DES ORGANISATIONS UNIVERSITÉ DE PARIS X NANTERRE
  • DER ERFOLG UND DAS HONORAR DES ANWALTS DIE SITUATION
  • ACROSS 4 A MEMBER OF THE CLASS POLYPLACOPHORA (MOLLUSKS
  • 14 STROKOVNI POSVET – »OTROK IN PASTI SODOBNEGA ČASA
  • INSTRUCTIONS FOR APPLICATION DATA SHEET 37 CFR 176 UPDATED
  • CARTA DEL PATRIMONIO VERNÁCULO CONSTRUIDO (1999) RATIFICADA POR LA
  • BUND NATURSCHUTZ IN BAYERN EV MÜNCHEN 29052006 PM 0706FA
  • SEKOLAH TINGGI FILSAFAT THEOLOGI JAKARTA J A K A
  • FORMATO DE IDENTIFICACIÓN Y CONOCIMIENTO DEL CLIENTE O USUARIO
  • ROZPOCZĘCIE SEZONU – SOLWIT TEE TIME TEE I 800
  • RECURSOS PARA EDUCACIÓN PRIMARIA MATEMATICAS ESCRIBE NÚMEROS PARA PRACTICAR
  • OBWIESZCZENIE BURMISTRZA OLECKA Z DNIA 3 PAŹDZIERNIKA 2006 R
  • MODULE 18 HIVAIDS AND NUTRITION PART 4 TRAINING RESOURCE
  • ŁĄCZNIK PROSTY 12 AGENDA SZKOLENIA TYTUŁ SZKOLENIA KODEKS POSTĘPOWANIA
  • PROGRAMMING AND DOCUMENTATION STYLE REQUIREMENTS HERE IS A LIST
  • IBEW LOCAL 1928 2022 UNIT MEETINGS THE BUSINESS MANAGER
  • ESTADO PLURINACIONAL DE BOLIVIA UNIDAD DE AUDITORÍA INTERNA UAI
  • LJUBLJANA 4 11 2016 INFORMACIJA O JAVNIH RAZPISIH URADA
  • FIJACION%20EN%20LISTA%20N%20072-%20GRUPO%20DE%20COMPETENCIA%20DESLEAL
  • SS8H5ABCD SUMMARY WESTWARD EXPANSION AND INDIAN REMOVAL SS8H5A
  • MMSE SCORE WHAT IS TODAY’S DATE? (THEN ASK FOR
  • BOLNIK Z DUŠEVNO BOLEZNIJO V OČEH ZDRAVNIKA DRUŽINSKE MEDICINE
  • SUPPLY OPPORTUNITY NO 18LDS051 NSPA CURRENTLY EXPECTS TO MEET
  • RESPUESTA DE MÉXICO A LA SOLICITUD DE INFORMACIÓN DEL
  • DEPARTAMENTO DE FÍSICA Y QUÍMICA COLEGIO COOP ALCÁZAR DE