2. Doddington 30-as szabálya
George Doddington egy általános statisztikai alapelvet fogalmazott meg a vizsgált p paraméter intervallum becslésének jellemzésére [3, 4]. A szabály így hangzik:
„90 százalékos konfidencia szint esetén, legalább 30 hibát kell észlelnünk, hogy a keresett p valószínűség a tapasztalat alapján számított relatív gyakoriság ±30 százalékos környezetébe essen.”
Az alábbiakban bebizonyítjuk az idézett „Doddington-féle 30-as szabályt”, amelynek során kiderül az is, hogyan fogalmazhatunk meg ehhez hasonló kijelentéseket, tehát az idézett szabályt általánosítjuk tetszőleges konfidencia szintre és tetszőleges hibaszámra. Ehhez induljunk ki a 2. rész ([2] 3.9) összefüggéséből valamint abból, hogy a p valószínűséget az relatív gyakorisággal közelítjük. Helyettesítsük ezt a közelítő értéket az idézett ([2] 3.9)-be. Ekkor azt kapjuk, hogy az eloszlás vizsgált p paramétere 1 – ε valószínűséggel benne van a ([2] 3.10) átalakításával kapott
(2.1) képlet
intervallumban. Ez a formula ([2] 3.10)-hez képest annyival jobb helyzetet teremt, hogy az intervallum végpontjai csak ismert mennyiségektől függenek és függetlenek p-től. Használjuk fel továbbá azt, hogy a vizsgált biometriai problémakörben olyan esetekre alkalmazzuk a binomiális eloszlást, amelyekben a p paraméter értéke kicsi. Ennek a következménye az, hogy az r értéke az n egész szám mellett elhanyagolható, tehát , ami azt jelenti, hogy (2.1)-ben a négyzetgyökök alatti kifejezések egyszerűsíthetők, az 1 mellett a törtek értéke elhanyagolható. Ennek figyelembe vételével azt kapjuk, hogy az 1 – ε szintű konfidencia intervallum a binomiális eloszlás p paraméterére vonatkozólag, abban az esetben amikor p értéke kicsi, az alábbi módon adható meg
(2.2) képlet
Tegyük fel ezek után, hogy elvégeztünk egy kísérletsorozatot, és a kezünkben van a (2.2) képlet szerinti megbízhatósági intervallum. A kérdés az, hogy mennyire lehetünk „elégedettek” ezzel az intervallumbecsléssel. Mint azt korábban tisztáztuk, a legjobb pontbecslés a p valószínűségre a relatív gyakoriság. Tegyük most azt, hogy a (2.2) intervallumot valamilyen módon viszonyítjuk a ML-becsléshez.
Első gondolatunk az lehet, hogy a konfidencia intervallumból vegyük figyelembe annak felső határát, hiszen a p valószínűségre alsó becslésre úgy tűnik nincs szükségünk, sőt nyilvánvalónak látszik, hogy az a jó ha nincs alsó becslés. Ugyancsak (2.2) képlet alapján világos, hogy a megbízhatósági intervallum felső határa . Ezek után képezzük a felső határ és az ML-becslés hányadosát
(2.3) képlet
Azt kaptuk tehát, hogy a h1 hányados nagyobb, mint 1, és alapvetően az észlelt hibák számának négyzetgyökétől függ a (2.3) képlet szerint. A k valós állandó a konfidencia szinttől függ ([2] 3.6) szerint. Az 1. ábrán szemléltetjük a h1 hányados függését a vizsgált események bekövetkezéseinek r számától, különböző konfidencia szintek esetén. Az ábráról az olvasható le, hogy az intervallum felső határa mindig nagyobb, mint a ML-becslés, függetlenül attól, hogy milyen megbízhatósági szintet írunk elő. Az ábrán referenciaként szerepel a konstans 1 függvény képe, amelyhez a görbék csak r → ∞ esetén közelítenek. Tehát hangsúlyozzuk, hogy itt az abszcissza tengelyen nem az összes megfigyelések n száma szerepel, hanem a megfigyelni kívánt események vagy, ha tetszik az észlelt hibák r száma. Azt természetesen a felhasználó dönti el, hogy mikor tekinti a megbízhatósággal kapcsolatos kijelentését elfogadható eredménynek, de ezt természetesen világossá kell tenni azzal, hogy közli milyen n és r értékek mellett állapította meg azt. Ha a h1 = 1 értéket tekintjük elfogadhatónak, akkor látható, hogy a konfidencia intervallum felső határának az alapul választása nem volt jó ötlet.
A megbízhatósági intervallum és a ML-becslés hányadosának függése a hibák számától. (1. ábra)
Módosítsuk az előbbi gondolatmenetet úgy, hogy a konfidencia intervallum hosszát viszonyítjuk a ML-becsléshez. Az (2.2) képlet alapján világos, hogy a megbízhatósági intervallum hossza . Értelmezzük tehát a h2 hányadost (2.3) mintájára a következő módon
(2.4) képlet
A h2 hányados egyrészt ugyancsak attól függ, hogy milyen megbízhatósági szintet választunk, azaz ([2] 3.6) szerint függ a k valós értéktől, másrészt függ a hibák r számától, azonban itt azt kapjuk, hogy h2 a hibák számának négyzetgyökével fordítottan arányos. Ugyancsak a konstans 1 függvényt tekintve referenciának, a 2. ábrán láthatjuk a h2 hányados függését a hibák számától a szokásos konfidencia szintek esetén.
Ha az ordináta értéke éppen 1, akkor kijelenthetjük, hogy a megbízhatósági intervallum hossza egyenlő a p értékének legjobb becslésével, természetesen adott konfidencia szinten. Konkrétan, a 2. ábráról leolvashatóan azt kapjuk, hogy a konfidencia intervallum hossza 90 százalék, 95 százalék illetve 99 százalék megbízhatósággal megegyezik a vizsgált paraméter ismeretlen értékével, ha olyan mennyiségű megfigyelést végeztünk, hogy a megfigyelni kívánt esemény, tehát a „hiba” rendre legalább 11, 16 illetve 27 alkalommal bekövetkezett. Amit ismét hangsúlyozunk az, hogy nem elég a megfigyelések számát kellően nagyra növelni, hanem ezen túl az adott eseménnyel kapcsolatban elegendő mennyiségű „bekövetkezést” is regisztrálnunk kell.
A megbízhatósági intervallum hosszának és a ML-becslés arányának függése a hibák számától (2. ábra)
A felhasználó dönti el, hogy mit fogad el megfelelő szintű megbízhatóságnak, a h2 = 1 értéket mintaként vettük tekintetbe. Semmiféle módon nincs elvileg kitüntetve ez az érték a többihez képest. A fentiek alapján bármilyen h2 esetére megfogalmazhatjuk a megbízhatóság kritériumát. A címben említett „Doddington-féle 30-as szabály” is a fenti általános eredmény egy speciális esete. Ha azt kívánjuk, hogy a keresett p valószínűség a tapasztalat alapján számított relatív gyakoriság ±30 százalékos környezetébe essen, akkor ezt azt jelenti, hogy a megbízhatósági intervallum a következő
(2.5) képlet
Ennek az intervallumnak a hossza nyilvánvalóan , így a (2.4) képlet alapján számított h2 hányados most egyértelműen
(2.6) képlet
A 3. ábrán szemléltetjük ezt a szituációt a szokásos konfidencia szintek esetén.
A Doddington féle szabály szemléltetése és általánosítása (3. ábra)
Ha koncentrálunk a 90 százalékos megbízhatóságú becslésre, akkor a grafikon alapján világos, hogy pontosan 30 észlelt hiba esetén tehetjük azt a kijelentést, hogy az n számú megfigyelés alapján adódó relatív gyakoriság ±30 százalékos környezetében 90 százalék eséllyel van benne a p paraméter értéke. Ez a kijelentés természetes módon függ a megfigyelések n számától, azonban a hangsúly ismét azon van, hogy kellő számú hibát is kell regisztrálnunk. Ha a regisztrált hibák száma nő, akkor természetesen a konfidencia intervallum hossza csökken, hiszen a h2 értéke szigorúan monoton csökken. Általánosítva a Doddington-féle szabályt, világos, hogy ha nagyobb megbízhatóságú kijelentést szeretnénk tenni a p értékére vonatkozólag, akkor több hibát kell észlelnünk. Ha például 95 százalék megbízhatósággal szeretnénk kijelenteni, hogy a p értéke a relatív gyakoriság ±30 százalékos környezetében van, akkor a grafikonról leolvashatóan már 43 hibát kell észlelnünk, ha pedig 99 százalék az előírt konfidencia szint, akkor az észlelt hibák számára az alsó korlát már 74. Az alábbi táblázatban 90 százalék megbízhatósági szintre, különböző megfigyelés szám esetére közlünk néhány adatot a Doddington-szabály közvetlen alkalmazására. Ebből látható, hogy 1 százalék értéket viszonylag könnyedén elérhetünk, de ennél kisebb p valószínűséget aligha tudunk felelősséggel megállapítani a megfigyeléseink alapján, kivéve ha akkor méretű a felhasználói adatbázis, hogy „belátható” időn belül regisztrálni lehet 30 ezer belépési eseményt. Ebben a táblázatban foglalt adatokhoz hasonló értékeket könnyedén kaphatunk bármely h2 és konfidenciaszint esetén (2.4) alapján.
A p valószínűség |
A hibák r száma
|
A megfigyelések n száma
|
0,1 = 10 százalék
|
30
|
300
|
0,01 = 1 százalék
|
30
|
3000
|
0,001 = 0,1 százalék
|
30
|
30 000
|
0,0001 = 0,01 százalék
|
30
|
300 000
|
3. A téves elutasítási arány (FRR) és a téves elfogadási arány (FAR) konkrét vizsgálata
Egy biometrikus beléptető rendszer esetén alapvető kérdés az, hogy a regisztrált személyek esetében milyen valószínűséggel következik be, hogy a rendszer elutasítja a másodlagos ujjnyomata alapján, pedig az adatbázisban szerepel az elsődleges ujjnyomata. Ezt méri a téves elutasítási arány (FRR = False Reject Rate). Ez fontos kérdés, hiszen számos kellemetlenséggel járhat, ha jogosult személyeket nem enged át az eszköz a beléptető ponton. Nyilván célszerű, hogy ez az arány a lehető legkisebb legyen. Ugyanakkor az is fontos, hogy téves azonosításnak köszönhetően olyan személyeket, akik nincsenek regisztrálva (csalókat, „imposztorokat”), ne fogadjon el a rendszer, mert ez azt jelenti, hogy a rendszer átenged jogosulatlan személyeket is. Ennek az eseménynek a valószínűsége a téves elfogadási arány (FAR = False Accept Rate). Nyilván célszerű ennek az értékét is a lehető legkisebbre állítani. Az alábbiakban azt vizsgáljuk, hogy milyen módon lehet optimálisan beállítani ezt a két értéket. Már most hangsúlyozzuk, hogy ez a két paraméter nem vizsgálható egymástól függetlenül, csakis az együttes elemzés vezethet optimális megoldáshoz, még akkor is, ha az üzemeltető csak az egyik paraméter értékére kíváncsi.
Már az [1] rész 2. pontjában vizsgáltuk, hogyan írható le binomiális eloszlással az ujjnyom azonosítás minutiák azonosításával [5, 6, 7, 8]. Röviden összefoglalva a következőt mondhatjuk: ha egy sablonban van N darab referencia minutia, és a másodlagos ujjnyomat alapján felismerhető n darab minutia, akkor a távolsági azonosítást alapul véve, egy tetszőleges minutiát vonatkoztatási pontnak kijelölve, azt mondhatjuk, hogy az n felismert minutia között van darab minutiapár. Azonban ezen távolságok nem mind függetlenek, elég megadni n – 1 darab távolságot, abból a többi már a távolságok és szögek alapján kiszámítható. Kapjuk tehát, hogy a távolsági azonosítás esetén n – 1 független adatunk van. Ezért az azonosított minutiák száma a vonatkoztatási minutia rögzítése után modellezhető binomiális eloszlással.
Térjünk rá FAR és FRR konkrét kiszámítására. Legyen p1 annak valószínűsége, hogy egy, a referenciák között nem található minutiát a rendszer elfogad. Ettől az eseménytől függ a téves elfogadási arány. Annak valószínűsége, hogy a rendszerbeli szoftver r darab ilyen minutiát tévesen elfogad egy Bin(n – 1, p1) paraméterekkel adott binomiális eloszlással írható le, mert az n – 1 darab távolság független. Az, hogy a rendszer átenged-e egy „imposztort” attól függ, hogy az eszközt vezérlő szoftver hány azonosított minutia alapján fogad el egy ujjnyomatot. Ez nyilván attól függ, hogy a szoftvert milyen kritériumok szerint írják meg. Meg kell határozni tehát egy küszöbértéket, jelölje ezt km, amelynél több azonosított minutia esetén az ujjnyomatot a rendszer elfogadja, ennél kevesebb esetén pedig a rendszer természetesen elutasít. Ezen minutia-küszöb figyelembe vételével a kérdéses FAR a következő módon számítható
(3.1) képlet
Ez az összefüggés matematikailag éppen 1 – F1(x) ahol F1(x) az eloszlásfüggvény [9, 10, 11]. A későbbiek szempontjából ez fontos lesz.
Ha az FRR téves elutasítási arányt vizsgáljuk, akkor hasonló logikával a következőt mondhatjuk. Legyen p2 annak az eseménynek a valószínűsége, hogy egy referenciák között megtalálható minutiát a rendszer nem azonosít egy másodlagos ujjnyomat vizsgálata során. Természetesen itt ugyanazt a km küszöbértéket figyelembe kell venni az azonosításnál, hiszen az azonosító szoftver nem tudja, hogy egy regisztrált felhasználó vagy egy „imposztor” másodlagos ujjnyomatát érzékelte a leolvasó egység. Ha a rendszer p2 valószínűséggel nem azonosít egy minutiát, akkor nyilván 1 – p2 valószínűséggel elfogadja azt. Az ujjnyomat azonosítás pedig legalább km darab minutia elfogadását jelenti. Eszerint a téves elutasítási arány egy Bin(1 – p2, n – 1) paraméterekkel adott binomiális eloszlással modellezhető, akkor következik be téves elutasítás, ha legfeljebb km – 1 darab minutia azonosítása következik be. Ebből pedig az következik, hogy a téves elutasítási arány a következő:
(3.2) képlet
Ez pedig éppen a Bin(n – 1, 1 – p2) valószínűség eloszlás F2(x) eloszlásfüggvénye [9, 10, 11]. Világos ezek után, hogy alapvetően fontos kérdés a km küszöbérték meghatározása. Ezt a legegyszerűbb grafikus úton vizsgálni.
Az „imposztorok” és a jogosult felhasználók eloszlása egy hipotetikus ideális esetben (4. ábra)
Tekintetbe véve a (3.1) és (3.2) összefüggéseket szemléltetni tudjuk az FAR és FRR értékeket meghatározó valószínűség-eloszlásokat. Elsőként olyan ideális esetet szemléltetünk a 4. ábrán, amely a valóságban sajnos nem fordul elő. A 4. ábrán olyan esetet szemléltettünk, amely során a két binomiális eloszlás „gyakorlatilag” nem fedi egymást. Az „imposztorok” eloszlása a [0, 4] intervallumon különbözik 0-tól, a jogosult felhasználók eloszlása pedig az [5, 14] intervallumon különbözik 0-tól. Ez azt jelenti, hogyha a km = 4,5 küszöbértéket választjuk, akkor mind az FAR mind az FRR zérus, tehát nincs téves elfogadás és nincs téves elutasítás. Ez azonban nem valósul meg a gyakorlatban, valós eszközök esetén a két eloszlás számottevő módon fedheti egymást. Ilyenre látunk példát az 5. a) és b) ábrákon.
5. a ábra
5. b ábra
Az FAR és FRR arányok függése a km küszöbértéktől (5. a, b ábrák)
Kvalitatíve elemezve az ábrákat a következőket állíthatjuk:
- Ha az a célunk, hogy az FRR kicsi legyen (az 5. a ábrán a kék színű tartomány), akkor a küszöbértéket kicsinek választjuk, az 5. a ábrán ez a küszöb km = 3. Ezzel elérjük a célunkat, viszont következményként adódik, hogy az FAR értéke nagyon magas (az ábrán a piros színű tartomány). Ez nem célszerű, mert ez azt jelenti, hogy bár kevés regisztráltat utasít el a rendszer, de sok jogosulatlant is átenged.
- Ha viszont a FAR értékét szeretnénk csökkenteni, akkor a küszöbértéket az előzőnél nagyobbra választjuk, az 5. b ábrán km = 5, akkor ezzel elértük, hogy FAR viszonylag kicsi (piros tartomány), most viszont az adódik, hogy FRR értéke megnőtt (kék tartomány), ami ugyancsak kellemetlen.
A mondottak igazolják azt az állításunkat, hogy az FAR és FRR értékek nem vizsgálhatók egymástól függetlenül, pontosabban nem célszerű csak az egyikre koncentrálni a vizsgálatok során. A kérdés ezek után nyilván az, hogy hol húzzuk meg a határt, milyen értéket célszerű választani km-nek. Mivel mindkét jellemzőre igaz, hogy a magas érték hátrányos, célszerű olyan módon definiálni a küszöbértéket, hogy körülbelül FAR ≈ FRR teljesüljön, azaz legyen többé-kevésbé egyenlő a két arány. Ehhez nem a valószínűség eloszlásokat, hanem a kumulatív eloszlás függvényeket célszerű felhasználni. Mint már említettük az FAR esetében Bin(n – 1, p1) eloszlással dolgozunk, FRR esetében pedig Bin(n – 1, 1 – p2) eloszlással, aqmelyek eloszlásfüggvényét jelöli rendre F1(x) és F2(x). A FAR és FRR (3.1) és (3.2) szerinti definíciója alapján az FAR = FRR egyenlőség egyenértékű az
(3.3) képlet
egyenlőségekkel. A szóban forgó függvényeket a 6. ábrán szemléltetjük grafikusan.
Az „imposztorok” és regisztrált felhasználók kumulatív eloszlása; küszöbérték meghatározása grafikus úton (6. ábra)
A két görbe metszéspontja szolgáltatja azt a küszöböt, amelyre teljesül a kívánt egyenlőség. Ezt a pontot az EER = FAR = FRR jellel jelöljük, mert ebben a pontban egyenlő a két hiba (EER = Equal Error Rate). Célszerű tehát egy ujjnyomat érzékelő beléptető rendszer szoftverét úgy megírni, hogy abban a minutia küszöb a (3.3) egyenletek által meghatározott érték legyen. Ezzel elérhető, hogy sem a FAR sem a FRR nem lesz túl nagy a másikhoz képest.
Az ábra alapján ugyanis világos a következő kvalitatív értékelés
- Ha a küszöbérték nagyon kicsi, extrém esetben nulla, akkor FRR tart a 0-hoz, tehát egyetlen jogosult személyt sem utasít el a rendszer, azonban FAR tart az 1-hez, ami azt jelenti, hogy bárki átjut a beléptető rendszeren. Fordítva, ha a küszöb túl magas – a 6. ábrán például 15–20 vagy ennél is nagyobb –, akkor világos, hogy FAR tart a 0-hoz, tehát senki jogosulatlan nem juthat át a beléptető rendszeren, de ezzel együtt FRR tart az 1-hez, ami azt jelenti, hogy az azonosító rendszer gyakorlatilag mindenkit elutasít, még azokat is egytől-egyig, akik regisztrált felhasználók.
Mint látjuk, sarkalatos kérdés tehát a minutia-küszöb meghatározása. A 7. ábrán azt látjuk, hogy két – nyilvánvalóan különböző ujjnyomat páron – a rendszer azonosított egy-egy minutiapárt, amely típus és irány szerint megegyezik. Nyilvánvalóan mégsem tekinthető a két ujjnyomat azonosnak. Ez azonban a szoftver szempontjából csak azon múlik, hogy hogyan határozzuk meg a km értéket.
Különböző ujjnyomatpárokon található azonos minutiák, kérdés, hogy mekkora legyen a küszöbérték (7. ábra)
A gyakorlatban nyilván az a cél, hogy az üzemeltető megtalálja a számára legmegfelelőbb „középutat”. Ezt a kompromisszumos megoldást nevezzük munkapontnak. A következőkben a munkapont meghatározásának egy alternatív és igen szemléletes módját mutatjuk be.
4. Ujjnyomat érzékelő beléptető rendszerek megbízhatóságának vizsgálata ROC-görbék segítségével
A 3. pontban vizsgált kérdést igen szemléletes módon lehet tanulmányozni a rendszer „megbízhatósági karakterisztikáink” ábrázolásával illetve ezek vizsgálatával. A szakirodalom az ezeket a görbéket ROC(Receiver Operating Characteristic) görbéknek nevezi [5, 6, 7, 8]. A görbét úgy szerkesztjük meg, hogy az FRR arányt az FAR arány függvényében ábrázoljuk, azaz egy derékszögű koordinátarendszerben felvesszük az összetartozó – tehát ugyanolyan km küszöbértékhez és felhasználó számhoz, ugyanannyi referencia minutiához stb. – tartozó (FAR, FRR) rendezett párokat. Mivel ezek az értékek 0 és 1 között igen széles nagyságrendi skálán mozognak, célszerű a görbét log-log skálázású koordinátarendszerben ábrázolni. A két mennyiség közötti összefüggésre analitikus kapcsolat nem létezik, a görbét a (3.1) és (3.2) definíciók alapján szerkesztjük meg úgy, hogy kiszámítjuk az (FAR, FRR) rendezett párt, és ezt ábrázoljuk a koordináta rendszerben minden szükséges FAR illetve FRR esetén. A 8. ábrán láthatunk egy ROC-görbét n = 20 referencia minutia, p1 = 0,1 és p2 = 0,2 paraméterek esetén, log-log skálán. A paraméterválasztást indokolja a szakirodalomban található paraméterek értéke, amelyekkel ezen paraméterek értéke nagyságrendileg megegyezik.
ROC karakterisztika p1 = 0,1 és p2 = 0,2 esetén (8. ábra)
Az ábrázolt esetben a javasolt munkapont az EER = FAR = FRR = 0,00008 értéknél van, ezt a pontot az FAR = FRR („y = x”) egyenes (az ábrán a piros színű egyenes) és az ROC-görbe metszéspontja szolgáltatja. Az ehhez tartozó km minutia-küszöb a (3.1) és (3.2) összefüggések alapján meghatározható.
Érdemes megvizsgálni, hogyan függ a munkapont és ezzel együtt FAR és FRR értéke a referencia minutiák számától. Az alábbi 9. a és 9. b ábrán összehasonlítjuk a munkapont helyzetét, illetve a kérdéses arányok nagyságrendjét abban az esetben amikor a referencia minutiák száma rendre 10 illetve 30. Emlékeztetünk arra, hogy a 8. ábrán a minutiák száma 20. Érdemes mindhárom görbét tekintetbe venni az összehasonlítás során. Hangsúlyozzuk, hogy mindhárom esetben ugyanazt a két paramétert, tehát a p1 = 0,1 és p2 = 0,2 értékpárt alkalmaztuk. A számítások szerint n = 10, 20 és 30 minutia esetén a munkapontnak megfelelő EER arány rendre a következő: 3,3·10–3; 8·10–5 és végül 2·10–6. A vizsgált arány tehát nagyságrendekkel csökken, ha a referenciák számát mindössze 2-szeresére illetve 3-szorosára növeljük.
9. a Referenciák száma 10 9. b Referenciák száma 30
ROC-görbék különböző referencia minutia szám esetén (9. ábra)
Az ROC-görbék a munkapont meghatározása mellett kiválóan alkalmasak különböző rendszerek megbízhatóságának összehasonlítására. Tekintsük például azt a két rendszert, amelyekben a referencia minutiák száma egyenlő. A bemutatott esetben n = 20, azonban az 1. rendszer (a 10. ábrán a felső folytonos görbe) esetében p1 = 0,2 és p2 = 0,25, a második rendszer esetében pedig a már korábban is szerepelt p1 = 0,1 és p2 = 0,2 paraméterekkel adott (a 10. ábrán az alsó pontozott görbe).
Rendszerek megbízhatóságának összehasonlítása ROC-görbék segítségével (10. ábra)
Amit az összehasonlítás alapján elmondhatunk, a következő:
- A 2. rendszer minden szempontból jobb, mint az 1. rendszer, ugyanis ha példaként rögzítjük az FRR arányt (az ábrán FRR = 10–2), és ennél az ordinátánál illesztünk egy vízszintes egyenest, ezen egyenes és a megfelelő ROC-görbék metszéspontjainak abszcisszája adja a FAR értékeket. Világos, hogy a konkrét értékektől függetlenül, akárhogyan is választjuk meg a rögzített FRR értéket, az FAR2 minden esetben kisebb lesz, mint az FAR1. Ha megfordítva FAR értékét rögzítjük (az ábrán FAR = 10–2), minden konkrét esetben FRR2 kisebb lesz, mint FRR1, ezek az arányok ugyanis a rögzített FAR abszcisszánál állított függőleges egyenesek és az ROC-görbék metszéspontjainak ordinátái. Tehát a 2. rendszer minden vizsgált szempontból megbízhatóbb, „jobbak a paraméterei”.
Vizsgáljuk most meg azt az esetet, amikor az 1. rendszer (a 11. ábrán a folytonos görbe) paramétereit a következő módon adjuk meg: p1 = 0,17 és p2 = 0,12. A 2. rendszer (a 11. ábrán a pontozott görbe) paraméterei maradjanak változatlanok. Ekkor az ábrán látható ROC-görbepárt kapjuk ismét n = 20 referencia minutia figyelembe vételével. Kérdés, hogy ebben az esetben mit mondhatunk a két rendszer minőségéről az összehasonlítás alapján.
Rendszerek megbízhatóságának összehasonlítása ROC-görbék segítségével (11. ábra)
Elemezzük a két rendszert a kapott grafikon segítségével.
- A 10. ábrán mutatott példával ellentétben, ebben az esetben a két ROC-görbének van egy metszéspontja FAR = 10–5 és FRR = 4·10–4 koordinátáknál. Ha az FAR arány nagyobb, mint 10–5, akkor a hozzá tartozó FRR értékekre FRR1 < FRR2 teljesül, tehát a megadott FAR intervallumban az FRR értékek szempontjából az 1. rendszer jobb minőségű. Ha azonban az FAR arány kisebb, mint 10–5, akkor a helyzet éppen fordított. A konstans FAR értékhez tartozó FRR arányok esetében az egyenlőtlenség éppen, hogy FRR1 > FRR2 formában teljesül, tehát a FAR jelzett értékeire a 2. rendszer mutatkozik jobbnak a vizsgált szempontból.
Értelemszerű módosítással ugyanezt tudjuk elmondani a két rendszerről rögzített FRR értékek esetén.
- Ha FRR > 4·10–4 akkor a 2. rendszer a jobb, mert FAR2 < FAR1, ha viszont FRR < 4·10–4 akkor pedig az 1. rendszer mutatkozik jobbnak, mert ekkor FAR2 > FAR1.
A két vizsgált rendszer minőségével kapcsolatban nem lehet egyértelműen nyilatkozni, bizonyos szituációkban az egyik a jobb, bizonyos szituációkban a másik. Az üzemeltetőnek kell eldönteni, hogy milyen környezetben, milyen FAR és FRR értékek mellett kívánja működtetni a rendszerét, és ennek megfelelően választhat ilyenkor a két lehetőség közül.
5. Összefoglalás
Cikksorozatunkban bemutattuk a valószínűségelmélet és a matematikai statisztika módszereinek alkalmazási lehetőségét biometrikus rendszerek vizsgálatában. Javasoljuk a gyártóknak és az üzemeltetőknek, hogy rendszereik minőségi vizsgálatánál, valószínűségi adatokkal történő jellemzése során vegyék figyelembe a bemutatott elmélet megfelelő eredményeit annak érdekében, hogy felelősségteljes és megbízható kijelentéseket tehessenek rendszerük fontos paramétereinek meghatározása során.
Dr. Hanka László PhD., Óbudai Egyetem, Bánki Donát Gépész és Biztonságtechnikai Mérnöki Kar, Mechatronikai Intézet, hanka.laszlo@bgk.uni-obuda.hu
Felhasznált irodalom
1. Hanka László: Matematikai módszerek a biometriában 1. A binomiális eloszlás alkalmazási lehetőségei ujjnyomat azonosító rendszerek vizsgálatában, a maximum likelihood elv alkalmazása
2. Hanka László: Matematikai módszerek a biometriában 2. A Bayes-analízis és az intervallumbecslés módszere ujjnyom azonosító rendszerek vizsgálatában
3. Bolla Marianna, Krámli András: Statisztikai következtetések elmélete. Typotex Kiadó Budapest, ISBN 9639548413.
4. Prékopa András: Valószínűségelmélet műszaki alkalmazásokkal. Műszaki Könyvkiadó. Budapest. 1965
5. Tsai-Yang Jea,Venu Govindaraju: A minutia-based partial fingerprint recognition system. Pattern Recognition 38 (2005) 1672 – 1684
6. Jin Qi,YangshengWang: A robust fingerprint matching method. Pattern Recognition 38 (2005) 1665 – 1671
7. Hemlata Patel, Pallavi Asrodia: Fingerprint Matching Using Two Methods. International Journal of Engineering Research and Applications. Vol. 2, Issue 3, May-Jun 2012, pp.857-860
8. Joseph N. Pato, Lynette I. Millett: Biometric Recognition: Challenges and Opportunities. National Academic Press. Washington, D.C. ISBN 978-0-309-14207-6
A sorozat cikkei
Matematikai módszerek a biometriában 1. A binomiális eloszlás alkalmazási lehetőségei ujjnyomat azonosító rendszerek vizsgálatában, a maximum likelihood elv alkalmazása
Matematikai módszerek a biometriában 2. A Bayes-analízis és az intervallumbecslés módszere ujjnyom azonosító rendszerek vizsgálatában
Matematikai módszerek a biometriában 3. A Doddington-féle 30-as szabályt és biometrikus rendszerek megbízhatóságának statisztikai elemzése