ČSN ISO 13528 - Statistické metody používané při zkoušení způsobilosti mezilaboratorním porovnáváním
Stáhnout normu: | ČSN ISO 13528 (Zobrazit podrobnosti) |
Datum vydání/vložení: | 2023-12-01 |
Třidící znak: | 010248 |
Obor: | Vyvolená čísla, normální rozměry, statistické řízení jakosti apod. |
ICS: |
|
Stav: | Platná |
3.18 certifikovaný referenční materiál
CRM referenční materiál (RM) (3.17) charakterizovaný metrologicky platným postupem pro jednu či více specifikovaných vlastností, doprovázený certifikátem referenčního materiálu, který poskytuje hodnotu specifikované vlastnosti, její přidruženou nejistotu a prohlášení o metrologické návaznosti
POZNÁMKA 1 k heslu Pojem hodnoty zahrnuje nominální vlastnost nebo kvalitativní znak jako je identita či sekvence. Nejistoty pro takové znaky mohou být vyjádřeny jako pravděpodobnosti nebo konfidenční úrovně.
[ZDROJ: Pokyn ISO 30:2016, upraveno – Poznámky 2, 3 a 4 byly vynechány.]
####
4 Obecné principy
4.1 Obecné požadavky na statistické metody
4.1.1 Používané statistické metody musí být vhodné pro daný účel a statisticky platné. Všechny statistické předpoklady, ze kterých metody nebo návrh provedení vychází, musí být uvedeny v návrhu či popisu daného programu zkoušení způsobilosti a musí se prokázat, že tyto předpoklady jsou racionální.
POZNÁMKA Statisticky platná metoda má správný teoretický základ, má známou výkonnost za očekávaných podmínek používání a vychází z předpokladů nebo podmínek, o kterých lze prokázat, že se vztahují v míře vyhovující pro daný účel k údajům, které jsou k dispozici.
4.1.2 Navržené statistické vyhodnocení a způsoby analýzy dat musí odpovídat stanoveným cílům daného programu zkoušení způsobilosti.
4.1.3 Poskytovatel zkoušení způsobilosti musí poskytnout účastníkům popis použitých výpočetních metod, výklad obecné interpretace výsledků a prohlášení s uvedením omezení, která se k interpretaci váží. Tento popis musí být součástí buď každé zprávy u jednotlivých cyklů programu zkoušení způsobilosti, nebo tvořit separátní shrnutí postupů, které je dostupné účastníkům.
4.1.4 Poskytovatel zkoušení způsobilosti musí zajistit, aby veškerý software byl validován odpovídajícím způsobem.
4.2 Základní model
4.2.1 Pro kvantitativní výsledky z programů zkoušení způsobilosti, kde se uvádí jediný výsledek pro danou položku zkoušky způsobilosti, představuje základní model vzorec (1).
kde je
výsledek zkoušky způsobilosti účastníka i
pravá hodnota měřené veličiny
chyba měření účastníka i, s rozdělením podle odpovídajícího modelu
POZNÁMKA 1 Mezi obecné modely rozdělení
POZNÁMKA 2 Základem pro vyhodnocení výkonnosti pomocí z skóre a
POZNÁMKA 3 Tento model se odlišuje od základního modelu v ISO 5725 v tom, že nezahrnuje člen odpovídající vychýlení (bias) laboratoře Bi. Je tomu tak proto, že vychýlení laboratoře a reziduální chyby nelze rozlišit, pokud se hlásí pouze jediný výsledek. Avšak tam, kde se berou v úvahu výsledky účastníka z několika cyklů nebo několika zkušebních položek programů zkoušení způsobilosti, je vhodné zahrnout samostatný člen představující vychýlení laboratoře.
4.2.2 Pro pořadové nebo kvalitativní výsledky mohou být vhodné jiné modely, anebo žádný statistický model nemusí existovat.
4.3 Obecné postupy hodnocení výkonnosti
4.3.1 Existují tři odlišné přístupy jak hodnotit výkonnost v programu zkoušení způsobilosti. Volí se tak, aby odpovídaly odlišnému zaměření jednotlivých programů zkoušení způsobilosti. Tyto přístupy jsou uvedeny níže:
a) výkonnost hodnocená porovnáním s externě odvozenými kritérii;
b) výkonnost hodnocena porovnáním s ostatními účastníky;
c) výkonnost hodnocená porovnáním s deklarovanou nejistotou měření.
4.3.2 Tyto obecné přístupy se mohou použít odlišným způsobem pro stanovení vztažné hodnoty a pro stanovení kritéria hodnocení výkonnosti. Například je-li vztažná hodnota robustní střední hodnotou výsledků účastníků a vyhodnocení výkonnosti se odvozuje od
5 Pokyny pro statistický model programů zkoušení způsobilosti
5.1 Úvod do návrhu statistického modelu programů zkoušení způsobilosti
Zkoušení způsobilosti se zabývá posuzováním výkonnosti účastníka a jako takové se specificky nezaměřuje na vychýlení (bias) a preciznost (ačkoliv tyto mohou být pomocí specifických postupů rovněž vyhodnoceny). Výkonnost účastníků se posuzuje prostřednictvím statistického vyhodnocení jejich výsledků následně po měřeních nebo interpretacích, které provedly u daných položek zkoušky způsobilosti. Výkonnost se obvykle vyjadřuje formou skóre výkonnosti, která dovolují konzistentní interpretaci v celé řadě měřených veličin, a umožňují porovnávat na stejném základě výsledky u různých měřených veličin. Skóre výkonnosti se typicky odvozují od porovnání rozdílu mezi uváděným výsledkem účastníka a vztažnou hodnotou s dovolenou odchylkou nebo s odhadem nejistoty měření. Sledování skóre výkonnosti v průběhu více cyklů programu zkoušení způsobilosti může poskytnout informace o tom, zda u jednotlivých laboratoří dochází prokazatelně ke konzistentním systematickým vlivům („vychýlení-bias“) nebo zda vykazují dlouhodobě špatnou preciznost.
Následující kapitoly 5 až 10 poskytují návod pro kvantitativní programy zkoušení způsobilosti a statistické zpracování výsledků, včetně výpočtu a interpretace různých skóre výkonnosti. O kvalitativních programech zkoušení způsobilosti (včetně pořadových programů) pojednává kapitola 11.
5.2 Základy statistického zpracování
5.2.1 Podle ISO/EC 17043:2010, 4.4.4.1 návrh statistického zpracování „musí být vypracován tak, aby odpovídal cílům programu, a musí vycházet z charakteru dat (kvantitativní nebo kvalitativní včetně pořadových a kategoriálních), ze statistických předpokladů, povahy chyb a očekávaného počtu výsledků“. Tedy programy zkoušení způsobilosti, které mají odlišné cíle a odlišné zdroje chyb, mohou mít různé návrhy zpracování.
Úvahy o návrzích zpracování pro běžné cíle jsou uvedeny níže. Možné jsou i jiné cíle.
PŘÍKLAD 1 U programu zkoušení způsobilosti porovnávajícího výsledek oproti předem určené referenční hodnotě a v rámci mezí specifikovaných před počátkem cyklu musí návrh obsahovat metodu pro získání externě definované referenční hodnoty, metodu pro nastavení mezí a metodu pro výpočet skóre.
PŘÍKLAD 2 U programu zkoušení způsobilosti porovnávajícího výsledek účastníka se sdruženými výsledky skupiny z téhož cyklu a mezemi specifikovanými před počátkem cyklu se musí v návrhu zvážit, jak bude určena vztažná hodnota ze sdružených výsledků a rovněž musí určit metody pro stanovení mezí a skóre.
PŘÍKLAD 3 U programu zkoušení způsobilosti porovnávajícího výsledek účastníka se sdruženými výsledky skupiny z téhož cyklu a mezemi určenými z variability výsledků účastníků se musí v návrhu zvážit, jak bude vypočtena vztažná hodnota a příslušná míra variability a rovněž i metoda stanovení skóre.
PŘÍKLAD 4 U programu zkoušení způsobilosti porovnávajícího výsledek účastníka se vztažnou hodnotou s využitím vlastní nejistoty měření každého účastníka, návrh musí zvážit, jakým způsobem má být získána vztažná hodnota a její nejistota a jak mají být nejistoty měření účastníků použity při stanovení skóre.
PŘÍKLAD 5 U programu zkoušení způsobilosti majícího za cíl porovnání výkonnosti různých metod měření se musí v návrhu zpracování zvážit odpovídající souhrnné statistiky a postupy jejich výpočtů.
5.2.2 Při zkoušení způsobilosti se používají různé druhy dat včetně kvantitativních, nominálních (kategoriálních) a pořadových. U kvantitativních proměnných mohou být některé výsledky měřitelné na intervalové nebo poměrové stupnici. U některých měření na kvantitativní stupnici lze uskutečnit pouze diskrétní a diskontinuální soubor hodnot (například následná ředění), avšak tyto výsledky se mohou v mnoha případech zpracovávat metodami určenými pro spojité kvantitativní proměnné.
POZNÁMKA 1 U kvantitativních hodnot, intervalová stupnice je stupnice, u které mají význam intervaly (diference), ale nikoliv poměry, jako je to tomu u Celsiovy stupnice teploty. Poměrová stupnice je stupnice, u které mají význam jak intervaly, tak poměry, jako u Kelvinovy teplotní stupnice nebo nejběžnějších jednotek délky.
POZNÁMKA 2 U kvalitativních hodnot, má stupnice kategorií různé hodnoty, u nichž řazení nemá smysl, jako jsou například názvy druhů bakterií. U hodnot na pořadové stupnici má řazení význam, ale rozdíly mezi hodnotami nikoliv, například stupnice jako „velký, střední, malý“ se může řadit, ale rozdíly mezi hodnotami mohou být definovány pouze pomocí počtu mezilehlých hodnot.
5.2.3 Programy zkoušení způsobilosti mohou být kromě výše zmíněného použity i k jiným účelům, jak je zmíněno v 0.1 a v ISO/IEC 17043. Návrh musí odpovídat každému deklarovanému účelu pro daný program zkoušení způsobilosti.
5.3 Úvahy o statistickém rozdělení výsledků
5.3.1 ISO/EC 17043:2010 v 4.4.4.2 vyslovuje požadavek, aby techniky statistické analýzy byly konzistentní se statistickými předpoklady, které se týkají daných dat. Nejběžnější techniky analýzy pro zkoušení způsobilosti předpokládají, že soubor výsledků od kompetentních účastníků bude mít přibližně normální rozdělení nebo přinejmenším to bude unimodální rozdělení s rozumnou symetrií (po transformaci, pokud bude potřebná). Běžným dalším předpokladem je, že rozdělení výsledků z kompetentně provedených měření je promícháno (nebo „kontaminováno“) s výsledky z populace chybných výsledků, které mohou dávat vznik odlehlým hodnotám. Interpretace skóre se obvykle zakládá na předpokladu normality, ale jen pro předpokládané rozdělení u kompetentních účastníků.
5.3.2 Obvykle není třeba prověřovat, zda výsledky vyhovují normálnímu rozdělení, ale je důležité prověřit přibližnou symetrii, přinejmenším vizuálně. Pokud nelze symetrii potvrdit, pak má poskytovatel zkoušení způsobilosti použít techniky, které jsou robustní vůči asymetrii.
5.3.3 Když předpokládané rozdělení u programu zkoušení způsobilosti (se započtením kontaminace odlehlými výsledky) není dostatečně symetrické, má poskytovatel zkoušení způsobilosti zvolit takové metody analýzy dat, které zohledňují předpokládanou asymetrii a jsou rezistentní vůči odlehlým hodnotám a zvolit metody stanovení skóre, které též zohledňují předpokládané rozdělení výsledků kompetentních účastníků. Mezi metody analýzy dat patří:
transformace poskytující přibližnou symetrii;
metody odhadu, které jsou rezistentní vůči asymetrii;
metody odhadu, které zahrnují vhodné předpoklady pro rozdělení (například vyrovnání metodou maximální věrohodnosti s vhodnými předpoklady o rozdělení, a pokud je to potřeba, vyřazení odlehlých hodnot).
PŘÍKLAD 1 Výsledky vycházející z ředění, jak je tomu u kvantitativních mikrobiologických počtů nebo technik immunoassay, mají často logaritmicko-normální rozdělení a tudíž prvním krokem analýzy může být logaritmická transformace.
PŘÍKLAD 2 Počty malého množství částic mohou mít Poissonovo rozdělení, a tedy kritéria vyhodnocení výkonnosti se mohou určit za použití tabelovaných hodnot Poissonova rozdělení pravděpodobnosti, vycházejících z průměrných počtů u skupiny účastníků.
POZNÁMKA 1 Transformace dat může mít vliv na zpracování a interpretaci nejistot spojených s výsledky účastníka a na vztažnou hodnotu.
POZNÁMKA 2 Příloha C poskytuje další informace o zpracování asymetrických rozdělení odlehlých hodnot a Příklad E.6 nabízí příklad odhadu, který je rezistentní vůči asymetrii.
5.3.4 V některých oblastech kalibrace mohou mít výsledky účastníků statistická rozdělení, která jsou popsána v postupu měření (například exponenciální nebo tvaru vlny). Při každém vyhodnocovacím postupu se mají tato definovaná rozdělení vzít v úvahu.
5.3.5 Podle ISO/IEC 17043:2010, 4.4.4.2 musí poskytovatel zkoušení způsobilosti uvést všechny statistické předpoklady a prokázat, že tyto předpoklady platí. Toto prokázání může vycházet například z pozorovaných dat, výsledků předchozích cyklů programu zkoušení způsobilosti či odborné literatury.
POZNÁMKA Odůvodnění předpokladů o rozdělení je méně přísné než prokázání platnosti těchto předpokladů.
5.4 Úvahy pro případ malého počtu účastníků
5.4.1 Návrh statistického zpracování programu zkoušení způsobilosti musí zvážit minimální počet účastníků, který je potřeba pro naplnění cílů návrhu a uvést alternativní přístupy, které se použijí, pokud nebude tento minimální počet naplněn (ISO/EC 17043:2010, 4.4.4.3 b)). Statistické metody, které jsou vhodné pro vysoký počet účastníků, nemusí být vhodné pro omezený počet účastníků. Jsou obavy, že statistiky, určené z malého počtu výsledků účastníků, nemusí být dostatečně spolehlivé a účastník by mohl být hodnocen vůči nepatřičné srovnávací skupině.
POZNÁMKA IUPAC/CITAC Technická zpráva Selection and use of proficiency testing schemes for a limited number of participants (Výběr a použití programů zkoušení způsobilosti pro programy zkoušení způsobilosti s omezeným počtem účastníků) [24] poskytuje užitečné pokyny pro programy zkoušení způsobilosti s málo účastníky. Ve stručnosti zpráva IUPAC/CITAC doporučuje vycházet pro vztažnou hodnotu ze spolehlivých nezávislých měření, například použití certifikovaného referenčního materiálu, nezávislého přidělení pomocí kalibrací nebo národním metrologickým institutem, nebo gravimetrickou přípravou. Zpráva dále uvádí, že směrodatná odchylka pro posuzování způsobilosti nesmí vycházet z pozorované variability výsledků účastníků v jediném cyklu programu zkoušení způsobilosti.
5.4.2 Minimální potřebný počet účastníků, potřebný pro různé statistické metody, bude záviset na mnoha situacích:
– používaných statistických metodách, například konkrétní robustní metodě nebo zvolené strategii odstranění odlehlých hodnot;
– zkušenosti účastníků s konkrétním programem zkoušení způsobilosti;
– zkušenosti poskytovatele zkoušení způsobilosti s matricí, měřenou veličinou, metodami a skupinou účastníků;
– zda záměrem je určit vztažnou hodnotu nebo směrodatnou odchylku (nebo oboje).
Další pokyny, jak použít techniky pro malý počet účastníků, podává D.1.
5.5 Pokyn pro výběr formátu zprávy
5.5.1 Obecné požadavky na formát zprávy
5.5.1.1 ISO/EC 17043:2010, 4.6.1.2 požaduje, aby poskytovatelé zkoušení způsobilosti instruovali účastníky, aby prováděli měření a uváděli výsledky položek zkoušky způsobilosti stejným způsobem jako při většině rutinně prováděných měření, kromě speciálních okolností.
5.5.1.2 Vzhledem k tomuto požadavku může být v určitých situacích obtížné získat přesné posouzení preciznosti a pravdivosti vysledků účastníka nebo kompetence pro postup měření. Poskytovatel zkoušení způsobilosti má přijmout pro program zkoušení způsobilosti konzistentní formát zprávy, ale má tam, kde je to možné, používat jednotky, na které je většina účastníků zvyklá a zvolit formát zprávy, který minimalizuje přepisování a jiné chyby. Může to zahrnovat automatické varování na nepatřičné jednotky tam, kde je známo, že účastníci uvádějí výsledky rutinně v jiných jednotkách než v těch vyžadovaných daným programem zkoušení způsobilosti.
POZNÁMKA 1 U některých programů zkoušení způsobilosti je cílem vyhodnotit schopnost účastníka dodržovat standardizovanou metodu (například oficiálně vyžadovanou, nebo mezinárodně standardizovanou), což zahrnuje použití příslušné jednotky měření nebo počtu platných číslic.
POZNÁMKA 2 Chyby v přepisování a shromažďování výsledků u poskytovatele zkoušení způsobilosti se mohou podstatně snížit nebo eliminovat použitím elektronických systémů hlášení výsledků, které umožňují vkládat účastníkům jejich údaje přímo.
5.5.2 Uvádění opakovaných měření
Pokud program zkoušení způsobilosti vyžaduje opakovaná měření položek zkoušky způsobilosti, má se požadovat, aby účastník uváděl všechny opakované hodnoty. To může například nastat, pokud je cílem vyhodnotit preciznost výsledků účastníka u známých opakovaných položek zkoušky způsobilosti nebo pokud postup měření vyžaduje oddělené uvádění vícečetných pozorování. Za této situace může poskytovatel zkoušení způsobilosti vyžadovat pro pomoc při své analýze dat též jím stanovenou průměrnou hodnotu (nebo jiný odhad polohy) a nejistotu.
5.5.3 Uvádění výsledků „menší než“ nebo „větší než“ určitá mez (cenzorovaná data)
5.5.3.1 Tam, kde je konvenční praxí uvádět výsledky jako „méně než“ nebo „více než“ určitá mez (jako je kalibrační úroveň nebo mez stanovitelnosti) a kde se vyžadují numerické výsledky pro stanovení skóre, musí poskytovatel zkoušení způsobilosti určit, jak takové výsledky budou zpracovávány.
5.5.3.2 Poskytovatel zkoušení způsobilosti má buď přijmout postupy zpracování validovaných údajů a postupy stanovení skóre, které jsou schopny začlenit cenzorované údaje (viz E.1) nebo požadovat od účastníků, aby uváděli naměřenou hodnotu výsledku buď namísto, nebo vedle uvedené konvenční hodnoty.
POZNÁMKA 1 Postup stanovení skóre může zahrnovat možnost nestanovit skóre u takových údajů a/nebo uvést, zda horní (nebo dolní) mez uváděná účastníkem je konzistentní se vztažnou hodnotou.
POZNÁMKA 2 Požadavek, aby účastníci uváděli numerické hodnoty mimo rozsah běžně uváděných hodnot (například pod mezí stanovitelnosti u účastníka) sice umožní použití statistických metod, které vyžadují numerické hodnoty, ale může vést ke skóre, která neodpovídají běžné kvalitě služeb účastníka vůči zákazníkům.
5.5.3.3 Když se používá statistika vycházející z konsenzu, nemusí být možné vyhodnotit výkonnost, pokud je počet cenzorovaných hodnot tak vysoký, že cenzorování ovlivňuje robustní metodu. Za okolností, kdy je počet cenzorovaných výsledků takový, že ovlivňuje robustní metodu, mají se výsledky hodnotit pomocí statistických metod, které poskytují nevychýlený odhad i za přítomnosti cenzorovaných dat [21], nebo se takové výsledky nemají vůbec vyhodnocovat. Tam, kde existují pochyby o dopadu zvoleného postupu, má poskytovatel zkoušení způsobilosti vypočítat souhrnné statistiky a vyhodnocení výkonnosti pomocí jednotlivých alternativních statistických postupů považovaných za těchto podmínek za potenciálně vhodné a vyhodnocovat význam jakékoli odlišnosti (odlišností).
5.5.3.4 Jestliže lze očekávat cenzorované výsledky, jakými jsou výsledná tvrzení „méně než“ nebo jestliže takové výsledky byly pozorovány, návrh programu zkoušení způsobilosti má obsahovat opatření pro způsob stanovení skóre a/nebo jiná opatření pro cenzorované hodnoty uváděné účastníky a účastníci mají být o těchto opatřeních informováni.
POZNÁMKA E.1 obsahuje příklad přístupů k analýze cenzorovaných dat. Tento příklad uvádí robustní konsenzuální statistiku s třemi různými přístupy: s odstraněnými cenzorovanými údaji, s ponechanými údaji, ale odstraněným znaménkem '<' a s výsledky nahrazenými polovinou mezní hodnoty.
5.5.4 Počet platných desetinných míst
5.5.4.1 Obvykle se počet uváděných platných číslic určí v návrhu provedení daného programu zkoušení způsobilosti.
5.5.4.2 Při specifikaci počtu platných číslic, které se mají uvádět, by měla být chyba zaokrouhlení zanedbatelná ve srovnání s očekávanou variabilitou mezi účastníky.
POZNÁMKA V některých situacích je správné uvádění výsledků součástí určení způsobilosti účastníka a počet uváděných platných číslic a desetinných míst se může měnit.
5.5.4.3 Tam, kde počet uváděných číslic za podmínek rutinního měření má významný nepříznivý vliv na zpracování dat u poskytovatele zkoušení způsobilosti (například tam, kde postup měření vyžaduje uvádění výsledku s malým počtem platných číslic), může poskytovatel zkoušení způsobilosti specifikovat počet platných číslic, které se budou uvádět.
PŘÍKLAD V postupu měření se může specifikovat uvádění na 0,1 g, což vede k významnému podílu (> 50 %) identických výsledků a následně ohrožuje výpočet robustních odhadů středních hodnot a směrodatných odchylek. Poskytovatel zkoušení způsobilosti by pak mohl vyžadovat, aby účastníci uváděli výsledky na dvě nebo tři desetinná místa, aby se získaly dostatečně spolehlivé odhady polohy a variability.
5.5.4.4 Pokud je možné, aby jednotliví účastníci uváděli výsledky na různý počet platných číslic, má to poskytovatel zkoušení způsobilosti brát v úvahu při vyhodnocování jakýchkoliv konsenzuálních statistik (jako je vztažná hodnota a směrodatná odchylka pro posuzování způsobilosti).
6 Pokyny pro prvotní posouzení položek zkoušení způsobilosti a výsledků
6.1 Homogenita a stabilita položek zkoušky způsobilosti
6.1.1 Poskytovatel zkoušení způsobilosti musí zajistit, že šarže položek zkoušky způsobilosti jsou dostatečně homogenní a stabilní pro účely daného programu zkoušení způsobilosti. Poskytovatel musí posoudit homogenitu a stabilitu za použití kritérií, která zajistí, že nehomogenita a nestabilita položek zkoušky způsobilosti nebude negativně ovlivňovat vyhodnocování výkonnosti. Posuzování homogenity a stability má používat jeden nebo více z následujících přístupů:
a) experimentální studie, jak je popisuje Příloha B, nebo alternativní experimentální metody, které poskytují ekvivalentní nebo vyšší záruku homogenity a stability;
b) zkušenosti s chováním velmi podobných položek zkoušky způsobilosti v předchozích cyklech daného programu zkoušení způsobilosti, ověřené podle potřeby pro aktuální cyklus;
c) posouzení údajů účastníků pro aktuální cyklus programu zkoušení způsobilosti pro prokázání konzistence s předchozími cykly, pro prokázání změn s časem uvádění nebo s pořadím vyhotovení nebo při jakékoliv neočekávané variabilitě, kterou by bylo možné přiřadit nehomogenitě nebo nestabilitě.
POZNÁMKA 1 Tyto přístupy se mohou upravit případ od případu za použití vhodných statistických technik a odborného odůvodnění. Daný přístup se obvykle mění v průběhu programu zkoušení způsobilosti, například tím, že získávané zkušenosti snižují počáteční potřebu experimentální studie.
POZNÁMKA 2 Spoléhat na zkušenosti (jako v b výše) je vhodné pouze pokud:
a) proces výroby šarží položky (položek) zkoušení způsobilosti se nemění žádným způsobem, který by mohl mít vliv na homogenitu;
b) materiály použité při výrobě položky (položek) zkoušení způsobilosti se nemění žádným způsobem, který by mohl mít vliv na homogenitu;
c) nedochází k porušení homogenity identifikovanému buď pomocí testování homogenity, nebo pomocí odezev účastníků;
d) požadavky na homogenitu materiálu jsou pravidelně přezkoumávány s přihlédnutím k zamýšlenému použití materiálu v době zkoumání, aby se zajistilo, že homogenita dosažená výrobním procesem zůstane zachována pro daný účel.
PŘÍKLAD Pokud směrodatná odchylka zkoušení způsobilosti u aktuálního cyklu není větší než směrodatná odchylka předchozích cyklů, za podmínek, že předchozí cykly programu zkoušení způsobilosti používaly položky zkoušky způsobilosti, které byly testovány a prokázaly, že jsou dostatečně homogenní a stabilní a účastníci jsou shodní jako v předchozích cyklech, je to důkaz o dostatečné homogenitě a stabilitě v aktuálním cyklu.
6.1.2 U kalibračních programů zkoušení způsobilosti, kde se používá stejný artefakt více účastníky, musí poskytovatel zkoušení způsobilosti zajistit stabilitu v průběhu cyklu, nebo musí mít postupy, které identifikují a zohlední nestabilitu v průběhu pokračování cyklu programu zkoušení způsobilosti. Tyto postupy mají zohledňovat postupné změny konkrétních položek zkoušky způsobilosti a měřených veličin, jako je drift. Tam, kde je to vhodné, mají se zohlednit vlivy opakovaného zasílání shodného artefaktu.
6.1.3 Všechny měřené veličiny (nebo vlastnosti) se normálně mají kontrolovat na homogenitu a stabilitu. Avšak tam, kde chování podmnožiny vlastností poskytuje spolehlivý údaj o stabilitě a/nebo homogenitě u všech vlastností uváděných v cyklu programu zkoušení způsobilosti, posuzování popisované v odstavci 6.1.1 se může omezit na takovou podmnožinu vlastností. Zvolené měřené veličiny, které se prověřují, mají být citlivé vůči zdrojům nehomogenity a nestability při zpracovávání dané položky způsobilosti. Mezi závažné případy patří:
a) kde je měřenou veličinou proporce, může být charakteristika, která představuje malou proporci, obtížněji homogenizovatelná a tedy citlivější při kontrole homogenity;
b) pokud se položka zkoušky způsobilosti při zpracování zahřívá, pak je třeba zvolit měřenou veličinu, která je citlivá na nerovnoměrné zahřívání;
c) pokud může být měřená položka ovlivněna sedimentací, vysrážením nebo dalšími časově závislými vlivy v průběhu přípravy položek zkoušky způsobilosti, pak se vlastnost má kontrolovat v průběhu pořadí plnění.
PŘÍKLAD U programu zkoušení způsobilosti na obsah toxických kovů v zeminách je měřený obsah ovlivňován obsahem vlhkosti. Kontrola konsistentního obsahu vlhkosti může být pak považována za dostačující pro zajištění stability u toxických kovů.
POZNÁMKA Příklad ověření homogenity a stability za použití statistických metod doporučovaných v Příloze B uvádí E.2.
6.2 Zvažování různých měřicích metod
6.2.1 Když se očekává, že všichni účastníci budou uvádět hodnotu stejné měřené veličiny, má být vztažná hodnota totožná pro všechny účastníky. Avšak pokud účastníci mají možnost si zvolit vlastní měřicí metodu, je možné, že jediná vztažná hodnota pro každý analyt nebo vlastnost nebude vhodná pro všechny účastníky. Toto se může vyskytovat například tam, kde různé měřicí metody poskytují výsledky, které jsou neporovnatelné. V takovém případě může poskytovatel zkoušení způsobilosti použít odlišné vztažné hodnoty pro každou měřicí metodu.
PŘÍKLADY:
a) lékařská vyšetření, u kterých je známo, že poskytují odlišnou odezvu u stejného testovaného materiálu a používají odlišné referenční rozsahy pro diagnostiku;
b) měřené veličiny definované postupem, jako jsou vyloužitelné toxické kovy v zeminách, u kterých jsou k dispozici odlišné standardní metody, a očekává se, že nejsou přímo porovnatelné, ale kde program zkoušení způsobilosti specifikuje měřenou veličinu bez vazby na specifickou zkušební metodu.
6.2.2 Potřebnost odlišných vztažných hodnot pro jednotlivé podskupiny účastníků se má zvážit v návrhu programu zkoušení způsobilosti (například aby se stanovilo jak uvádět výsledky specifických metod) a má se též zohlednit při přezkoumávání dat z každého cyklu.
6.3 Odstranění hrubých chyb
6.3.1 ISO/EC 17043:2010, B.2.5 a IUPAC Harmonized Protocol doporučují odstraňovat evidentní hrubé chyby ze souborů dat již v počátečním stadiu analýzy, před použitím jakékoliv robustního postupu nebo jakéhokoliv testu na odlehlé výsledky. Obecně by se takové výsledky měly zpracovávat odděleně (například kontaktováním účastníka). V některých případech lze některé hrubé chyby opravovat, ale to se má činit pouze podle schválených obecných zásad a schváleným postupem.
POZNÁMKA Zřejmé hrubé chyby, jako je uvádění výsledků v odlišných jednotkách, nebo přesun výsledků z odlišných položek zkoušky způsobilosti, se vyskytují u většiny cyklů zkoušení způsobilosti a tyto výsledky pouze narušují výkonnost následných statistických metod.
6.3.2 Pokud existuje pochybnost, zda výsledek je či není hrubou chybou, má se ponechat v datovém souboru a být předmětem následného zpracování, jak se popisuje v odstavcích 6.4 až 6.6.
6.4 Vizuální přezkoumání dat
6.4.1 První krok analýzy dat u poskytovatele zkoušení způsobilosti má představovat vizuální přezkoumání dat pracovníkem, který má odpovídající odborné zkušenosti a zkušenosti se statistikou. Tato kontrola má potvrdit očekávané rozdělení výsledků, identifikovat anomálie nebo nepředvídané zdroje variability. Například bimodální rozdělení by mohlo prokazovat smíšené základní soubory výsledků v důsledku různých metod, kontaminované vzorky nebo špatně formulované instrukce. Za této situace se takové záležitosti mají vyřešit před započetím analýzy nebo vyhodnocení.
POZNÁMKA 1 Histogram hodnot účastníka je užitečný a široce dostupný postup přezkoumávání, zda rozdělení je unimodální a symetrické a k identifikaci neobvyklých odlehlých hodnot (viz 10.2). Avšak intervaly použité pro sdružení výsledků v histogramu jsou citlivé na počet výsledků a na hraniční body a může být obtížné je stanovit. Graf jádrové hustoty tzv. kernel density plot je obvykle užitečnější pro určení možných bimodalit nebo nedostatků v symetrii (viz 10.3).
POZNÁMKA 2 Mohou být užitečné i jiné techniky přezkoumávání jako je graf distribuční funkce nebo číslicový histogram (stem-and-leaf diagram). Některé grafické metody přezkoumávání dat jsou znázorněny v Přílohách E.3 a E.4.
6.4.2 Tam, kde není možné provést vizuální přezkoumání všech souborů předmětných dat, musí existovat postup, který upozorňuje na neočekávanou variabilitu v souboru dat; například hodnocením nejistoty vztažné hodnoty ve vztahu ke kritériím hodnocení nebo porovnáním s předchozími cykly daného programu zkoušení způsobilosti.
6.5 Robustní statistické metody
6.5.1 Robustní statistické metody se mohou použít k popisu centrální části souboru výsledků s normálním rozdělením, avšak nevyžadují identifikaci specifických hodnot jako odlehlých výsledků a jejich vyloučení z následné analýzy. Mnoho používaných robustních technik je založených (v prvém kroku) na mediánu a rozpětí centrálních 50 % výsledků – tyto jsou mírou polohy a variability daných dat, podobně jako střední hodnota a směrodatná odchylka. Obecně se má dávat přednost využití robustních metod před metodami, které vyřazují výsledky označené jako odlehlé hodnoty.
POZNÁMKA Strategie, které používají klasické statistiky jako je směrodatná odchylka, vedou po odstranění odlehlých hodnot obvykle k podhodnocení odhadu míry variability dat blížících se normalitě; robustní statistiky jsou obvykle přizpůsobeny, aby poskytovaly nevychýlené odhady míry variability.
6.5.2 Medián, škálová mediánová absolutní odchylka (MADe), a normalizované kvartilové (také interkvartilové, či mezikvartilové) rozpětí IQR (nIQR) jsou přípustnými jednoduchými odhady. Algoritmus A transformuje původní data procesem zvaným winsorizace a poskytuje alternativní odhady střední hodnoty a směrodatné odchylky u téměř normálních dat a je nejužitečnější tam, kde očekávaný podíl odlehlých hodnot je pod 20 %. Metody Qn, a Q pro odhad směrodatné odchylky (popsané v příloze C) jsou užitečné zejména v situacích, kdy se vysoký podíl výsledků (> 20%) odlišuje, nebo kde údaje nemohou být spolehlivě přezkoumány odborníky. Další metody popsané v příloze C poskytují též dobré výsledky tam, kde podíl extrémních hodnot převyšuje 20 % (viz D.2).
POZNÁMKA Medián, kvartilové rozpětí a škálová absolutní odchylka od mediánu vykazují vyšší rozptyl než průměr a směrodatná odchylka, když se použijí na data s přibližně normálním rozdělením. Sofistikovanější robustní odhady fungují lépe u dat s přibližně normálním rozdělením, přičemž si zachovávají mnoho z odolnosti vůči odlehlým výsledkům, kterou nabízí medián a kvartilové rozpětí.
6.5.3 Za výběr statistických metod odpovídá poskytovatel zkoušení způsobilosti. Robustní střední hodnota a směrodatná odchylka se mohou použít k různým účelům, z nichž vyhodnocení výkonnosti je jedním z nich. Robustní střední hodnoty a směrodatné odchylky se mohou též použít jako souhrnné statistiky pro jednotlivé skupiny účastníků nebo pro specifické metody.
POZNÁMKA Podrobnosti o robustních postupech poskytuje Příloha C. Přílohy E.3 a E.4 uvádějí komplexní příklady ilustrující použití různých robustních statistických technik uvedených v Příloze C.
6.6 Způsoby odhalení odlehlých hodnot v souborech jednotlivých výsledků
6.6.1 Testování na odlehlé výsledky se může používat buď jako podpora vizuálního přezkoumávání anomálií nebo se spojí s vyloučením odlehlých hodnot, aby poskytlo určitou odolnost vůči extrémním hodnotám při výpočtu souhrnných statistik. Tam, kde se použijí techniky detekce odlehlých výsledků, se má prokázat, že předpoklady tohoto testování se aplikují způsobem, který odpovídá účelu daného programu zkoušení způsobilosti, zejména mnohé testy odlehlých výsledků předpokládají výchozí normalitu.
POZNÁMKA V ISO 16269-4 [10] a ISO 5725-2 [1] se uvádí několik postupů pro identifikaci odlehlých výsledků, které jsou aplikovatelné pro mezilaboratorní údaje.
6.6.2 Strategie vylučování odlehlých hodnot, které vycházejí z vylučování odlehlých hodnot, detekovaných testy odlehlých hodnot na vysoké konfidenční úrovni, s následným použitím jednoduchých statistik jako jsou průměr a směrodatná odchylka, jsou povoleny tam, kde nejsou použitelné robustní metody (viz 6.5.1). Tam, kde se použijí strategie vylučování odlehlých hodnot, musí poskytovatel zkoušení způsobilosti:
a) zdokumentovat testování a konfidenční úroveň použitou pro vylučování;
b) stanovit meze pro podíl údajů vylučovaných následným testováním na odlehlé hodnoty, pokud se provádí;
c) prokázat, že výsledné odhady polohy a (podle okolností) měřítka mají postačující parametry (včetně efektivnosti a vychýlení – bias) pro účely daného programu zkoušení způsobilosti.
POZNÁMKA ISO 5725-2 uvádí doporučení pro konfidenční úroveň vhodnou pro vylučování odlehlých hodnot u mezilaboratorních studií pro určení preciznosti zkušebních metod. ISO 5725-2 konkrétně doporučuje vylučování pouze na 99% konfidenční úrovni, pokud neexistuje jiný závažný důvod pro vyloučení konkrétního výsledku.
6.6.3 Je-li vylučování odlehlých výsledků součástí postupu zpracování dat a výsledek je odstraněn jako odlehlá hodnota, má se stále hodnotit výkonnost účastníka podle kritérií používaných pro všechny účastníky v daném programu zkoušení způsobilosti.
POZNÁMKA 1 Odlehlé hodnoty mezi uváděnými hodnotami se často identifikují použitím Grubbsova testu odlehlých hodnot, jak se uvádí v ISO 5725-2. V tomto postupu se k vyhodnocení používá směrodatná odchylka všech účastníků včetně potenciálních odlehlých hodnot. Tento postup je tedy nejvhodnější, když je výkonnost účastníků konzistentní s očekáváními vycházejícími z předchozích cyklů programu zkoušení způsobilosti a počet odlehlých výsledků je malý (jeden nebo dva odlehlé výsledky na každé straně průměrné hodnoty). Tradiční tabulky pro Grubbsův test předpokládají jednotlivou aplikaci pro možnou odlehlou hodnotu (nebo pro 2 hodnoty) v definované oblasti, nikoliv neomezené postupné aplikace. Jestliže se Grubbsovy testy používají postupně, neplatí pro ně pravděpodobnost chyby prvního druhu.
POZNÁMKA 2 Když se v cyklu programu zkoušení způsobilosti zasílají opakované výsledky, nebo jsou zahrnuty identické položky, je běžné používat na hodnoty opakovatelnosti Cochranův test odlehlých hodnot, jak též popisuje ISO 5725-2.
POZNÁMKA 3 Odlehlé výsledky se mohou též identifikovat robustními nebo neparametrickými metodami; například při výpočtu robustní střední hodnoty a směrodatné odchylky. Hodnoty, které se odchylují od robustní střední hodnoty o více než trojnásobek robustní směrodatné odchylky, je možno označit jako odlehlé.
7 Stanovení vztažné hodnoty a její standardní nejistoty
7.1 Volba metody stanovení vztažné hodnoty
7.1.1 Oddíly 7.3 až 7.7 popisují pět způsobů stanovení vztažné hodnoty xpt. Volba metody je odpovědností poskytovatele zkoušení způsobilosti.
POZNÁMKA Oddíly 7.3 až 7.6 se podobají přístupům používaným při stanovení hodnoty vlastností referenčních materiálů popsaným v Pokynu ISO 35 [13].
7.1.2 Alternativní metody stanovení vztažné hodnoty a její nejistoty se mohou použít za předpokladu, že jsou postaveny na správném statistickém základě, že použité metody jsou popsány v dokumentovaném plánu daného programu zkoušení způsobilosti a že jsou účastníkům podrobně popsány. Bez ohledu na použitou metodu pro stanovení vztažné hodnoty je vždy vhodné zkontrolovat platnost vztažné hodnoty pro konkrétní cyklus programu zkoušení způsobilosti. Tím se zabývá oddíl 7.8.
7.1.3 Postupy stanovení kvalitativní vztažné hodnoty se zabývá oddíl 11.3.
7.1.4 Metoda stanovení vztažné hodnoty a její nejistoty musí být uvedena v každé zprávě účastníkům nebo musí být jasně popsána v protokolu programu zkoušení způsobilosti, který je dostupný všem účastníkům.
7.2 Stanovení nejistoty vztažné hodnoty
7.2.1 Pokyn ISO/IEC 98-3 [14] poskytuje návod pro vyhodnocení nejistoty měření. Pokyn ISO 35 poskytuje návod pro nejistotu vztažné hodnoty pro certifikované hodnoty vlastnosti, což se může uplatnit u mnoha návrhů programů zkoušení způsobilosti.
7.2.2 Obecný model pro vztažnou hodnotu a její nejistotu popisují vzorce (2) a (3):
Model pro vztažnou hodnotu může být vyjádřen následujícím způsobem:
kde
označuje vztažnou hodnotu;
označuje hodnotu vlastnosti získanou při charakterizaci (stanovení vztažné hodnoty);
označuje příspěvek chyby v důsledku rozdílů mezi položkami zkoušky způsobilosti;
označuje příspěvek chyby v důsledku nestability za podmínek přepravy;
označuje příspěvek chyby v důsledku nestability během doby trvání zkoušení způsobilosti.
Související model pro nejistotu vztažné hodnoty je možné vyjádřit následovně:
kde
označuje standardní nejistotu vztažné hodnoty;
označuje standardní nejistotu náležící charakterizaci;
označuje standardní nejistotu náležící rozdílům mezi položkami zkoušky způsobilosti;
označuje standardní nejistotu náležící nestabilitě za podmínek přepravy;
označuje standardní nejistotu náležící nestabilitě během doby trvání zkoušení způsobilosti.
POZNÁMKA 1 Kovariance mezi zdroji nejistoty nebo zanedbatelné zdroje mohou vést k různým modelům u specifických aplikací. Jakýkoliv z příspěvků nejistoty může za určité situace nabývat hodnoty nula nebo být zanedbatelný.
POZNÁMKA 2 Když se
POZNÁMKA 3 Normálně se očekává, že poskytovatel zkoušení způsobilosti zajistí, aby změny vztahující se k nestabilitě nebo způsobené přepravou byly zanedbatelné ve srovnání se směrodatnou odchylkou pro posuzování způsobilosti, tedy, aby
7.2.3 U vztažné hodnoty může existovat vychýlení (bias), které není zahrnuto ve výše uvedeném výrazu. Toto se musí, tam kde je to možné, zohlednit v návrhu programu zkoušení způsobilosti. Opravuje-li se vztažná hodnota na vychýlení, nejistota této opravy se musí zahrnout do vyhodnocení nejistoty vztažné hodnoty.
7.3 Příprava ze složek
7.3.1 Položku zkoušky způsobilosti lze připravit smísením materiálů se známými různými úrovněmi vlastnosti ve specifikovaných poměrech nebo přidáním specifikovaného podílu látky k základnímu materiálu.
7.3.2 Vztažnou hodnotu
7.3.3 Má se věnovat patřičná péče, aby se zajistilo, že:
a) základní materiál skutečně neobsahuje přidávané složky, nebo že podíl (obsah) přidávané složky v základním materiálu je přesně znám;
b) složky byly míseny homogenně (tam, kde je to požadováno);
c) všechny významné zdroje chyb jsou identifikovány (například ne vždy se počítá s tím, že sklo absorbuje sloučeniny rtuti, a tak koncentrace sloučenin rtuti ve vodných roztocích se může ve skleněném obalu změnit);
d) neexistuje žádná nepříznivá interakce mezi složkami a matricí;
e) chování položek zkoušky způsobilosti obsahujících přidaný materiál se podobá vzorkům zákazníků, které jsou rutinně zkoušeny. Například čisté materiály přidané k přírodní matrici se obvykle extrahují snadněji než stejné látky vyskytující se přirozeně v daném materiálu. Pokud existuje obava, že by k tomu mohlo docházet, má poskytovatel zkoušení způsobilosti zajistit, že položky zkoušení způsobilosti, které se budou používat, jsou vhodné.
7.3.4 Když příprava položek ze složek poskytuje položky zkoušky způsobilosti, u kterých je přídavek vázán volněji než u vzorků pro rutinní zkoušky nebo je vázán odlišným způsobem, je vhodné dát přednost použití jiného způsobu přípravy položek zkoušky způsobilosti.
7.3.5 Stanovení vztažné hodnoty přípravou ze složek je jedním z případů obecného přístupu k charakterizaci certifikovaných referenčních materiálů popsané v Pokynu ISO 35, kde jediná laboratoř určí vztažnou hodnotu použitím primární metody měření. Primární metoda v jediné laboratoři je další možností, která může být použita pro stanovení vztažné hodnoty u zkoušení způsobilosti (viz oddíl 7.5).
7.3.6 Když se vztažná hodnota počítá ze způsobu přípravy položky zkoušky způsobilosti ze složek, standardní nejistota pro charakterizaci (
7.4 Certifikovaný referenční materiál
7.4.1 Když je položkou zkoušky způsobilosti certifikovaný referenční materiál (CRM), jeho certifikovaná hodnota vlastnosti xCRM se použije jako vztažná hodnota xpt.
Omezení pro tento přístup jsou následující:
– může být nákladné poskytovat každému účastníku jednu jednotku certifikovaného referenčního materiálu;
– certifikované referenční materiály se často zpracovávají náročným způsobem, aby se zajistila jejich dlouhodobá stabilita, což může ohrožovat zaměnitelnost položek zkoušky způsobilosti;
– CRM může být účastníkům známý, pak může být důležité utajovat identitu položky zkoušky způsobilosti.
7.4.2 Když se používá certifikovaný referenční materiál jako položka zkoušky způsobilosti, standardní nejistota vztažné hodnoty se odvodí z informace o nejistotě hodnoty vlastnosti uváděné na certifikátu. Informace na certifikátu má zahrnovat položky ve vzorci (3) a měla by vhodným způsobem sloužit pro účel daného programu zkoušení způsobilosti.
7.5 Výsledky z jediné laboratoře
7.5.1 Vztažnou hodnotu je možno stanovit v jediné laboratoři za použití referenční metody jakou je například primární metoda. Použitá referenční metoda má být kompletně popsána a pochopena, má mít úplné prohlášení o nejistotě a dokumentovanou metrologickou návaznost, která přísluší danému programu zkoušení způsobilosti. Referenční metoda má být zaměnitelná (komutabilní) vůči všem metodám měření, které používají účastníci.
7.5.1.1 Vztažná hodnota má být průměrem z navrhované experimentální studie za použití více než jedné položky zkoušky způsobilosti nebo podmínek měření a dostatečného počtu opakovaných měření.
7.5.1.2 Nejistota charakterizace je příslušným odhadem nejistoty referenční metody za podmínek navrhované studie.
7.5.2 Vztažná hodnota xpt položky zkoušky způsobilosti může být odvozena v jedné laboratoři za použití vhodné měřicí metody z kalibrace za pomocí referenční hodnoty certifikovaného referenčního materiálu vykazujícího blízkou příbuznost. Tento přístup předpokládá, že CRM je zaměnitelná (komutabilní) ve vztahu ke všem metodám měření, které používají účastníci.
7.5.2.1 Toto stanovení vyžaduje provedení série zkoušek v jediné laboratoři na položkách zkoušky způsobilosti a na CRM za použití stejné měřicí metody a za podmínek opakovatelnosti. Je-li
certifikovaná hodnota vlastnosti CRM;
vztažná hodnota položky zkoušky způsobilosti;
rozdíl mezi průměrem výsledků položky zkoušky způsobilosti a CRM u i-tého vzorku;
průměr rozdílů
,pak
POZNÁMKA EMBED Equation.DSMT4 a
7.5.2.2 Standardní nejistota charakterizace se odvodí z nejistoty měření použité pro přiřazení hodnoty. Tento přístup umožní, aby se vztažná hodnota stanovila způsobem, který vykazuje metrologickou návaznost k certifikované hodnotě CRM, se standardní nejistotou, která se vypočte ze vzorce (5).
Příklad v E.5 ilustruje, jak se může vypočítat nezbytná nejistota pro jednoduchý případ, kdy vztažná hodnota položky zkoušky způsobilosti se stanoví na základě přímého porovnání s jediným CRM.
7.5.3 Když se referenční hodnota přiřazuje před zahájením cyklu sekvenčního programu zkoušení a posléze se referenční hodnota kontroluje za použití stejného měřicího systému, rozdíl mezi hodnotami musí být menší než dvojnásobek nejistoty tohoto rozdílu (tedy výsledky musí být metrologicky slučitelné). V takových případech může poskytovatel zkoušení způsobilosti zvolit průměr z měření jako vztažnou hodnotu s příslušnou nejistotou. Pokud výsledky nejsou metrologicky slučitelné, má poskytovatel zkoušení způsobilosti zkoumat důvody vzniku rozdílu a přijmout odpovídající kroky, včetně použití alternativních metod pro stanovení vztažné hodnoty a její nejistoty nebo zrušit daný cyklus programu zkoušení způsobilosti.
POZNÁMKA Za předpokladu normálního rozdělení lze očekávat výskyt rozdílu většího než dvojnásobek standardní nejistoty asi v jednom případě z dvaceti.
7.6 Konsenzuální hodnota z odborných laboratoří
7.6.1 Vztažné hodnoty lze stanovit z mezilaboratorního porovnání za účasti odborných laboratoří, jak to popisuje Pokyn ISO 35 pro použití mezilaboratorní studie pro charakterizaci CRM. Nejprve se připraví položky zkoušky způsobilosti tak, aby byly připraveny na rozeslání účastníkům. Některé z těchto položek zkoušky způsobilosti se náhodně vyberou a analyzují v odborné skupině v souladu s protokolem, který specifikuje počty položek zkoušky způsobilosti a opakovaných stanovení a další příslušné podmínky. U každé z odborných laboratoří se vyžaduje, aby dodala standardní nejistotu spolu se svými výsledky.
7.6.2 Pokud odborné laboratoře uvádějí jediný výsledek a protokol pro měření od nich nevyžaduje poskytovat přiměřenou informaci o nejistotě spolu s výsledky, nebo pokud udávané výsledky svědčí nebo něco napovídá, že udávané nejistoty nejsou dostatečně spolehlivé, konsenzuální hodnota se normálně má získat metodami popsanými v oddíle 7.7, které se použijí na soubor výsledků z odborných laboratoří. Tam, kde každá z odborných laboratoří uvádí více než jeden výsledek (například zahrnutím opakovaných stanovení) musí poskytovatel zkoušení způsobilosti stanovit alternativní metodu stanovení vztažné hodnoty a přidružené nejistoty, která je statisticky platná (viz 4.1.1) a počítá s možností odlehlých hodnot či jiných odchylek od očekávaného rozdělení výsledků.
7.6.3 Pokud uvádějí odborné laboratoře k výsledkům i nejistoty, je odhad hodnoty na základě konsenzu výsledků komplexní problém a je navrhována široká paleta přístupů, zahrnující například vážené průměry, prosté průměry, postupy, které počítají s větší variabilitou a postupy počítající s možným výskytem odlehlých nebo chybných výsledků a odhadů nejistoty [16]. Poskytovatel zkoušení způsobilosti musí tudíž stanovit postup odhadu, který:
a) má zahrnovat kontroly validity uváděných odhadů nejistoty, například kontrolou, zda uváděné nejistoty plně odpovídají pozorované variabilitě výsledků;
b) má používat postup s vážením, který odpovídá velikosti a spolehlivosti uváděných nejistot a který může zahrnovat rovnoměrné vážení, jestliže uváděné nejistoty jsou buď podobné, nebo pochybné, nebo neznámé spolehlivosti (viz 7.6.2);
c) má počítat s možností, že uváděné nejistoty plně neodpovídají pozorované variabilitě („pozorovaná variabilita je větší“) například začleněním dodatečného výrazu, který by větší variabilitu vysvětlil;
d) má počítat s možností neočekávaných odlehlých hodnot u uváděného výsledku nebo nejistoty;
e) má mít dobrý teoretický základ;
f) musí prokázat výkonnost (například na testovacích datech nebo při simulacích) v míře dostatečné pro účely daného programu zkoušení způsobilosti.
7.7 Konsenzuální hodnota z výsledků účastníků
7.7.1 U tohoto přístupu vztažná hodnota xpt položky zkoušky způsobilosti používaná v cyklu programu zkoušení způsobilosti představuje odhad polohy (např. robustní střední hodnotu, medián, nebo aritmetický průměr) získaný z výsledků udávaných účastníky daného cyklu, vypočítaný pomocí příslušného postupu v souladu s experimentálním návrhem, jak je popsáno v Příloze C. Mají se používat techniky popsané v oddílech 6.2 až 6.6 pro potvrzení toho, že existuje potřebná shoda, před tím, než se výsledky slučují.
7.7.2 V některých situacích má poskytovatel zkoušení způsobilosti tendenci používat podsoubor účastníků, kteří jsou určení jako spolehliví, například na základě nějakých předem definovaných kritérií, jako je udělení akreditace, nebo na základě předchozí výkonnosti. Techniky popsané v tomto oddíle se na takové situace vztahují, včetně rozvah o velikosti skupiny.
7.7.3 Mohou se používat i další metody výpočtu kromě těch popsaných v Příloze C, za předpokladu, že mají správný statistický základ a že se ve zprávě se uvede, jaká metoda bude použita.
7.7.4 Mezi výhody tohoto přístupu patří:
a) nejsou potřeba žádná další měření pro získání vztažné hodnoty;
b) tento přístup může být zvláště vhodný u standardizovaných měřených veličin definovaných postupem, protože u nich často neexistuje žádná spolehlivější metoda pro získání ekvivalentních výsledků.
7.7.5 Omezení pro tento přístup jsou následující:
a) může existovat nedostatečná shoda mezi účastníky;
b) konsenzuální hodnota může zahrnovat neznámé vychýlení (bias) způsobené obecným použitím špatné metodologie a toto vychýlení se neodrazí ve standardní nejistotě vztažné hodnoty;
c) konsenzuální hodnota může být vychýlena v důsledku vychýlení metod, které jsou použity pro stanovení vztažné hodnoty;
d) může být obtížné stanovit metrologickou návaznost konsenzuální hodnoty. Zatímco výsledek je vždy návazný k výsledkům jednotlivých laboratoří, jasné prohlášení o dalších návaznostech se smí vydat jen tehdy, když poskytovatel zkoušení způsobilosti má úplné informace o použitých kalibračních standardech a o kontrole dalších relevantních podmínek metod u všech účastníků přispívajících ke konsenzuální hodnotě.
7.7.6 Standardní nejistota vztažné hodnoty bude záviset na použitém postupu. Pokud se vyžaduje zcela obecný postup, má poskytovatel zkoušení způsobilosti zvážit použití metod převzorkování („bootstrap“) pro odhad směrodatné odchylky vztažné hodnoty. V odkazech [17], [18] lze nalézt podrobnosti o technikách bootstrap.
POZNÁMKA Příklad techniky bootstrap uvádí E.6.
7.7.7 Pokud se vztažná hodnota odvodí jako robustní průměr vypočítaný postupy z přílohy C.2, C.3, standardní nejistota vztažné hodnoty
kde s* je robustní směrodatná odchylka výsledků. (Zde „výsledek“ účastníka představuje průměr všech jeho měření položky zkoušky způsobilosti.)
POZNÁMKA 1 U tohoto modelu, kde se určuje vztažná hodnota z výsledků účastníků, se může považovat za dané, že nejistota vztažné hodnoty zahrnuje příspěvky nejistoty odpovídající nehomogenitě, přepravě a nestabilitě.
POZNÁMKA 2 Koeficient 1,25 se vztahuje k směrodatné odchylce mediánu, nebo k efektivitě (vydatnosti) mediánu jako odhadu střední hodnoty velkého souboru výsledků pocházejícího z normálního rozdělení. Je zřejmé, že efektivita (vydatnost) některých sofistikovanějších robustních metod může být mnohem vyšší než efektivita mediánu, což by opravňovalo k hodnotě korekčního koeficientu menší než 1,25. Avšak tento koeficient je doporučován, protože výsledky zkoušení způsobilosti typicky nevykazují přesně normální rozdělení („kontaminované výsledky“). Koeficient 1,25 je považován za konzervativní (vysoký) odhad, započítávající možnou kontaminaci. Podle zkušeností a použité robustní procedury lze obhájit i menší faktor, nebo jinou rovnici.
POZNÁMKA 3 Příklad použití vztažné hodnoty z výsledků účastníků uvádí Příloha E.3.
7.8 Porovnání vztažné hodnoty s nezávislou referenční hodnotou
7.8.1 Pokud se použijí metody popsané v 7.7 ke stanovení vztažné hodnoty (
Když se metody popsané v 7.3 až 7.6 použijí ke stanovení vztažné hodnoty, robustní průměr x* odvozený z výsledků daného cyklu se má porovnat se vztažnou hodnotou po každém cyklu programu zkoušení způsobilosti.
Rozdíl se vypočítá jako
kde je
nejistota referenční hodnoty použité pro porovnání a
nejistota vztažné hodnoty.
POZNÁMKA Příklad porovnání referenční hodnoty s konsenzuální hodnotou je obsažen v příloze E.7.
7.8.2 Je-li rozdíl větší než dvojnásobek jeho standardní nejistoty, má se prošetřit, co je toho příčinou. Mezi možné důvody patří:
vychýlení referenční měřicí metody;
společné vychýlení výsledků účastníků;
neschopnost respektovat omezení měřicí metody při použití metody přípravy ze složek popsané v 7.3;
vychýlení výsledků „odborníků“, když se používají přístupy z oddílů 7.5 a 7.6 a
porovnávaná hodnota a vztažná hodnota nejsou návazné ke stejné metrologické referenci.
7.8.3 V závislosti na příčině rozdílu má poskytovatel zkoušení způsobilosti rozhodnout, zda hodnotit výsledky či nikoliv a (u pokračujících programů zkoušení způsobilosti) zda pozměnit experimentální návrh následných programů zkoušení způsobilosti. Pokud je rozdíl tak velký, že má vliv na posuzování výkonnosti, nebo nasvědčuje významnému vychýlení u měřicích metod používaných účastníky, má se zjištěný rozdíl uvést ve zprávě daného cyklu programu zkoušení způsobilosti. V takových případech se takový rozdíl má zohlednit při návrhu budoucích programů zkoušení způsobilosti.
8 Stanovení kritérií pro vyhodnocení výkonnosti
8.1 Přístupy při stanovování kritérií hodnocení
8.1.1 Základní univerzální přístup představuje porovnání výsledku položky zkoušky způsobilosti (
8.1.2 Jestliže se udává regulativní požadavek nebo cílová vhodnost pro daný účel v podobě směrodatné odchylky, může se tato přímo použít jako
a) výkonnostní skóre mají konzistentní interpretaci z hlediska vhodnosti pro daný účel od jednoho cyklu programu zkoušení způsobilosti ke druhému;
b) výkonnostní skóre nepodléhají očekávaným změnám, když se odhaduje variabilita z uváděných výsledků.
PŘÍKLAD Pokud je kritérium pro zásah určeno jako maximální přípustná chyba a akční mez pro vyhodnocení pomocí z skóre je 3,0, pak získáme
8.1.3 Když kritérium pro hodnocení výkonnosti vychází z konsenzuální statistiky daného cyklu nebo předchozích cyklů programu zkoušení způsobilosti, je pak preferovanou statistikou robustní odhad směrodatné odchylky. Pokud se použije tento přístup, je obvykle nejvýhodnější použít výkonnostní skóre jako je z skóre a zvolit pro směrodatnou odchylku pro posuzování způsobilosti (
8.2 Dle názoru odborníků
8.2.1 Maximální dovolená chyba nebo směrodatná odchylka pro posuzování způsobilosti se mohou nastavit na hodnotu, která odpovídá úrovni výkonnosti považované regulačním orgánem, akreditačním orgánem nebo odborníky poskytovatele zkoušení způsobilosti za přiměřenou pro účastníky.
8.2.2 Specifikovanou maximální dovolenou chybu lze převést na směrodatnou odchylku pro posuzování způsobilosti dělením této meze počtem násobků
8.3 Ze zkušeností z předchozích cyklů programu zkoušení způsobilosti
8.3.1 Směrodatná odchylka pro posuzování způsobilosti (
vyhodnocení budou vycházet z přiměřených očekávání o výkonnosti;
kritéria vyhodnocování se budou měnit od jednoho cyklu k dalšímu cyklu programu zkoušení způsobilosti, v důsledku náhodných změn nebo změn v základním souboru účastníků;
kritéria vyhodnocování se nebudou různit mezi jednotlivými poskytovateli zkoušení způsobilosti, pokud dva nebo více poskytovatelů zkoušení způsobilosti mají oprávnění pro oblast zkoušení nebo kalibrací.
8.3.2 Přezkoumání předchozích cyklů programu zkoušení způsobilosti má zahrnovat zvážení výkonnosti, která je dosažitelná kompetentními účastníky bez ovlivňování novými účastníky nebo náhodným kolísáním, například v důsledku menších velikostí skupin nebo dalších faktorů unikátních pro daný cyklus. Závěry se mohou činit subjektivně zkoumáním předchozích cyklů programu zkoušení způsobilosti, zda jsou konzistentní, nebo objektivně pomocí průměrů nebo pomocí regresního modelu, který zajistí přizpůsobení hodnotě měřené veličiny. Regresní rovnice může být lineární nebo nelineární [31]. Má se posoudit použití směrodatné odchylky nebo relativní směrodatné odchylky a zvolit ta, která je vhodnější pro příslušný rozsah úrovní měřené veličiny. Tímto způsobem lze rovněž získat příslušnou maximální dovolenou chybu.
8.3.3 Jestliže kritérium pro hodnocení vychází z konsenzuální statistiky z předchozích cyklů programu zkoušení způsobilosti, mají se používat robustní odhady směrodatné odchylky.
POZNÁMKA 1 Algoritmus S (viz C.4) poskytuje robustní celkovou směrodatnou odchylku, která je použitelná, pokud všechny předchozí cykly uvažovaného programu zkoušení způsobilosti vykazují stejnou očekávanou směrodatnou odchylku nebo (pokud se používají pro hodnocení relativní směrodatné odchylky) stejnou relativní směrodatnou odchylku.
POZNÁMKA 2 Příklad odvození hodnoty ze zkušeností předchozích cyklů programu zkoušení způsobilosti uvádí Příloha E.8.
8.4 Použitím obecného modelu
8.4.1 Hodnota směrodatné odchylky pro posuzování způsobilosti se může odvodit z obecného modelu reprodukovatelnosti metody měření. Výhodou této metody je objektivita a konzistentnost napříč měřenými veličinami a rovněž i empirický základ. V závislosti na použitém modelu může být tento případ považován za speciální případ kritéria vhodnosti pro daný účel.
8.4.2 Každá očekávaná směrodatná odchylka určená obecným modelem má být přiměřená. Jestliže obdrží podněty k opatření nebo varovné podněty velmi velký nebo velmi malý podíl účastníků, má poskytovatel zkoušení způsobilosti zaručit, že to odpovídá cílům daného programu zkoušení způsobilosti.
8.4.3 Konkrétní odhad beroucí v úvahu specifika problému měření by měl být upřednostňován před všeobecným přístupem. Proto se tedy má zkoumat možnost použití přístupů popsaných v 8.2, 8.3 a 8.5 před použitím obecného modelu.
PŘÍKLAD Horwitzova křivka.
Jeden ze známých obecných modelů pro chemické aplikace popsal Horwitz [22] a upravil Thompson [31]. Tento přístup poskytuje obecný model pro reprodukovatelnost analytických metod, který lze využít pro odvození následujícího výrazu pro směrodatnou odchylku reprodukovatelnosti:
kde c je hmotnostní zlomek chemické látky, která se má stanovovat a kde
POZNÁMKA 1 Horwitzův model je empirický, založený na pozorováních z mezilaboratorních studií mnoha parametrů po delší časové období. Hodnoty
POZNÁMKA 2 Příklad odvození hodnoty z upraveného Horwitzova modelu poskytuje Příloha E.9.
8.5 S využitím směrodatných odchylek opakovatelnosti a reprodukovatelnosti z předchozí mezilaboratorní studie preciznosti metody měření
8.5.1 Jestliže měřicí metoda, která se má používat v programu zkoušení způsobilosti, je standardizovaná a jsou k dispozici informace o opakovatelnosti (
(9)
kde m je počet opakovaných měření, která má každý účastník provést v cyklu programu zkoušení způsobilosti.
POZNÁMKA Tento vzorec je odvozen ze základního modelu náhodných efektů z ISO 5725-2.
8.5.2 Když směrodatné odchylky opakovatelnosti a reprodukovatelnosti závisejí na průměrné hodnotě výsledků zkoušky, mají se odvodit příslušné funkční závislosti metodami popsanými v ISO 5725-2. Tyto závislosti se pak mají použít k výpočtu hodnot směrodatných odchylek opakovatelnosti a reprodukovatelnosti příslušejících ke vztažné hodnotě, tedy použít v daném programu zkoušení způsobilosti.
8.5.3 Aby metody uvedené výše měly platnost, musí se mezilaboratorní studie provádět podle požadavků ISO 5725-2, nebo rovnocenným postupem.
POZNÁMKA Příklad je uveden v Příloze E.10.
8.6 Z dat získaných ve stejném cyklu programu zkoušení způsobilosti
8.6.1 Podle tohoto přístupu se směrodatná odchylka pro posuzování způsobilosti
8.6.2 Použití výsledků účastníků může vést ke kritériím hodnocení výkonnosti, která nejsou přiměřená. Poskytovatel zkoušení způsobilosti má zajistit, že
8.6.2.1 Poskytovatel zkoušení způsobilosti má stanovit mez pro nejnižší hodnotu
PŘÍKLAD Při programu zkoušení způsobilosti pro tkaninu je jednou měřenou veličinou počet nití na centimetr. Robustní směrodatná odchylka může být u některých cyklů malá (< 1 nit na cm), přičemž chyby menší než 4 nitě/cm se považují za nevýznamné. Poskytovatel zkoušení způsobilosti určí, že jako
8.6.2.2 Poskytovatel zkoušení způsobilosti má určit mez pro nejvyšší používanou
8.6.2.3 V některých případech může poskytovatel zkoušení způsobilosti stanovit horní a dolní mez intervalu výsledků, které mohou být hodnoceny jako „přijatelné“ (žádný varovný podnět nebo podnět k opatření), i když symetrické intervaly zahrnují výsledky, které by nebyly vhodné pro daný účel.
PŘÍKLAD U programu regulatorního zkoušení způsobilosti pro užitkovou vodu předpisy specifikují, že výsledky musí být v rozmezí
8.6.3 Mezi hlavní výhody tohoto přístupu patří jednoduchost a tradiční uznávání vzhledem k úspěšným aplikacím v mnoha situacích. Může se jednat o jediný proveditelný přístup.
8.6.4 Tento přístup má několik nevýhod:
a) Hodnota
b) Směrodatné odchylky mohou být nespolehlivé, pokud počet účastníků je malý nebo když se kombinují výsledky různých metod. Například při p = 20 se směrodatná odchylka údajů s normálním rozdělením může měnit o ±30 % od její pravé hodnoty od jednoho cyklu programu zkoušení způsobilosti k následujícímu.
c) Používání měr variability odvozených z dat může vést k přibližně konstantnímu podílu zdánlivě přijatelných skóre. Obecně nevyhovující výkonnost nebude detekována vyšetřením skóre a obecně dobrá výkonnost bude mít za následek, že dobří účastníci obdrží špatné skóre.
d) Neexistuje žádná použitelná interpretace, co se týče vhodnosti pro nějaké koncové použití výsledků.
POZNÁMKA Příklady použití údajů účastníků poskytuje v komplexním příkladu Příloha E.3.
8.7 Sledování shody mezi laboratořemi
8.7.1 Poskytovatel zkoušení způsobilosti má používat postup pro sledování shody mezi laboratořemi jako kontrolu výkonnosti účastníků a posuzování přínosu programu zkoušení způsobilosti pro účastníky a měl by sledovat změny ve výkonnosti a zajišťovat opodstatněnost statistických postupů.
8.7.2 Výsledky z každého cyklu programu zkoušení způsobilosti se mají použít k výpočtu odhadu směrodatných odchylek reprodukovatelnosti metody měření (a opakovatelnosti tam, kde je to možné) za použití robustních metod popsaných v příloze C. Tyto odhady se mají vynášet do grafu sekvenčně, nebo jako časová řada, spolu s hodnotami směrodatných odchylek opakovatelnosti a reprodukovatelnosti získanými z experimentálního sledování preciznosti podle ISO 5725-2 (pokud jsou k dispozici) a/nebo
8.7.3 Tyto grafy má poskytovatel zkoušení způsobilosti hodnotit. Jestliže bude graf ukazovat, že získané hodnoty preciznosti v určitém cyklu jsou dvakrát nebo vícekrát vyšší než hodnoty očekávané na základě předchozích údajů nebo zkušeností, má poskytovatel zkoušení způsobilosti zkoumat, proč shoda v tomto cyklu byla horší než předtím. Obdobně trend k lepším nebo horším hodnotám preciznosti má vyvolat zkoumání, jaké jsou nejpravděpodobnější příčiny.
9 Výpočet statistik výkonnosti
9.1 Obecné úvahy při určování výkonnosti
9.1.1 Statistiky používané ke stanovení výkonnosti musí odpovídat cíli (cílům) daného programu zkoušení způsobilosti.
POZNÁMKA Statistiky výkonnosti přinášejí nejvyšší užitek, pokud těmto statistikám a jejich odvození účastníci a další zainteresované strany rozumí.
9.1.2 Výkonnostní skóre se mají snadno hodnotit v rámci úrovní měřené veličiny a jednotlivých cyklů programu zkoušení způsobilosti.
9.1.3 Má se ověřit, že výsledky účastníků jsou v souladu s předpoklady použitými při návrhu programu zkoušení způsobilosti, aby umožňovaly vytvářet smysluplné statistiky výkonnosti. Například, že neexistuje doklad o degradaci položky zkoušení způsobilosti nebo o smíšení základních souborů účastníků či o hrubém porušení jakéhokoliv ze statistických předpokladů o měřených datech.
9.1.4 Obecně není vhodné používat metody hodnocení, které záměrně klasifikují pevný podíl výsledků způsobujících podnět k opatření.
9.2 Určení mezí pro nejistotu vztažné hodnoty
9.2.1 Pokud standardní nejistota vztažné hodnoty u(xpt) je v porovnání s kritériem hodnocení výkonnosti velká, existuje riziko, že někteří účastníci obdrží podnět k opatření nebo varovný podnět způsobený nepřesností vztažné hodnoty a nikoliv vyvolaný vinou účastníka. Z těchto důvodů se musí určit standardní nejistota vztažné hodnoty a účastníci o ní musí být informováni (viz ISO/EC 17043:2010, 4.4.5 a 4.8.2).
Pokud je splněno následující kritérium, je pak možno považovat nejistotu vztažné hodnoty za zanedbatelnou a nemusí se zahrnovat do interpretace výsledků daného kola programu zkoušení způsobilosti.
POZNÁMKA Když
9.2.2 Jestliže toto kritérium není splněno, má poskytovatel zkoušení způsobilosti zvážit následující možnosti, přičemž má zajistit, že jakékoliv přijaté opatření zachová konzistenci vůči přijatým obecným zásadám daného programu zkoušení způsobilosti.
a) Zvolí se taková metoda stanovení vztažné hodnoty, aby její nejistota splňovala kritérium vzorce (10).
b) Pro interpretaci výsledků daného programu zkoušení způsobilosti se použije nejistota vztažné hodnoty, viz oddíl 9.5 (z' skóre), 9.6 (ζ skóre) nebo 9.7 (En skóre).
c) Pokud se vztažná hodnota odvozuje z výsledků účastníků a vzniká velká nejistota z rozdílů mezi identifikovatelnými podmnožinami účastníků, uvádí se odděleně hodnoty a nejistoty jednotlivých podmnožin (například pro účastníky používající různé měřicí metody).
POZNÁMKA IUPAC Harmonized Protocol [32] popisuje specifický postup určení bimodality, založený na zkoumání grafu jádrové hustoty tzv. „kernel density plot“ se specifikovanou šířkou pásu.
d) Účastníci jsou informováni, že nejistota vztažné hodnoty není zanedbatelná a mohla by ovlivňovat vyhodnocení.
Jestliže se nedá uplatnit žádná z položek a) až d), pak musí být účastníci informováni, že nelze určit žádno spolehlivou vztažnou hodnotu a že nelze poskytnout žádné spolehlivé hodnoty výkonnostních skóre.
POZNÁMKA Techniky, o kterých pojednává tato kapitola, jsou předvedeny v přílohách E.3 a E.4.
9.3 Odhady odchylky (chyby měření)
9.3.1 Nechť xi představuje výsledek uváděný účastníkem i (nebo průměr opakovaných výsledků) při měření vlastnosti položky zkoušky způsobilosti v jednom cyklu programu zkoušení způsobilosti. Pak jednoduchá míra výkonnosti účastníka se může vypočítat jako rozdíl mezi výsledkem xi a vztažnou hodnotou xpt:
Di lze interpretovat jako chybu měření tohoto výsledku, do té míry, nakolik lze vztažnou hodnotu považovat za konvenční nebo referenční hodnotu veličiny.
Rozdíl Di může být vyjádřen ve stejných jednotkách jako vztažná hodnota nebo jako rozdíl v procentech, vypočtený jako:
POZNÁMKA Vzorec (12) nelze použít, je-li
9.3.2 Rozdíl D nebo D% se obvykle porovnává s kritériem
9.3.3
9.3.4 Výhodou D jako statistiky výkonnosti a
9.3.5 Nevýhody spočívají v tom, že není obvyklou mírou u zkoušení způsobilosti v mnoha zemích nebo oblastech měření a že D není standardizována tak, aby umožňovala jednoduché přehlédnutí zpráv na podněty k opatřením u programů zkoušení způsobilosti s mnoha analyty nebo kde kritéria vhodnosti pro daný účel se mění podle úrovně měřené veličiny.
POZNÁMKA Použití D a D% obecně předpokládá symetrické rozdělení výsledků účastníků, ve smyslu toho, že přijatelný rozsah je
9.3.6 Za účelem porovnávání v rámci úrovní měřené veličiny, kde se mohou kritéria vhodnosti pro daný účel měnit, nebo pro sdružování z různých cyklů nebo měřených veličin, D a D% v programu zkoušení způsobilosti se může převést na standardizované skóre výkonnosti, které vyjadřuje rozdíly relativně vůči výkonnostním kritériím pro měřené veličiny. Za tímto účelem se vypočte u každého výsledku „procento povolené odchylky“ (PA) následujícím způsobem:
Pak tedy
POZNÁMKA 1 Skóre PA, se mohou porovnávat v rámci různých úrovní a různých cyklů programu zkoušení způsobilosti nebo sledovat graficky. Tato skóre výkonnosti se v užití a interpretaci podobají z skóre, která mají obvyklé kritérium pro hodnocení rovnající se
POZNÁMKA 2 Varianty těchto statistik se běžně používají zvláště u aplikací v laboratorní medicíně, kde je obvykle vyšší četnost zkoušení způsobilosti a velké množství analytů.
POZNÁMKA 3 Použití absolutní hodnoty PA může být vhodné pro konzistentní zobrazení přijatelných (nebo nepřijatelných) výsledků vůči vztažné hodnotě.
9.4 z skóre
9.4.1 z skóre výsledku zkoušky způsobilosti xi se vypočítá jako:
kde je
vztažná hodnota a
směrodatná odchylka pro posuzování způsobilosti.
9.4.2 Konvenční interpretace z skóre je následující (viz ISO/EC 17043:2010, B.4.1.1):
Výsledek, který poskytuje
Výsledek, který poskytuje
Výsledek, který poskytuje
Účastníkům se má doporučovat, aby si po obdržení varovných podnětů zkontrolovali své postupy měření v případě, že signalizují nově vznikající nebo opakující se problém.
POZNÁMKA 1 U některých aplikací používají poskytovatelé zkoušení způsobilosti 2,0 u z skóre pro podnět k opatření.
POZNÁMKA 2 Výběr kritéria
POZNÁMKA 3 Odůvodnění použití mezí 2,0 a 3,0 pro z skóre je následující. Předpokládá se, že měření, která jsou prováděna správně, poskytují výsledky, které mohou být popsány (po transformaci, pokud je nezbytná) normálním rozdělením se střední hodnotou
POZNÁMKA 4 Předpoklad, ze kterého tato interpretace vychází, se vztahuje jen k hypotetickému rozdělení kompetentních laboratoří a nikoliv na jakýkoliv předpoklad o rozdělení pozorovaných výsledků. Pro samotné pozorované výsledky nejsou žádné předpoklady nutné.
POZNÁMKA 5 Jestliže pravá mezilaboratorní variabilita (směrodatná odchylka základního souboru) je menší než
POZNÁMKA 6 Když směrodatná odchylka pro posuzování způsobilosti je pevně stanovena kteroukoliv z metod popsaných v 8.2 nebo 8.4, může se podstatně odlišovat od (robustní) směrodatné odchylky výsledků a podíl výsledků spadajících mimo
9.4.3 Poskytovatel zkoušení způsobilosti musí určit vhodné zaokrouhlování udávaných z skóre, vycházející z počtu platných míst u výsledku, u vztažné hodnoty a u směrodatné odchylky pro zkoušení způsobilosti. Pravidla pro zaokrouhlování musí být součástí informací dostupných účastníkům.
POZNÁMKA Je zřídka potřebné uvádět z skóre na více než dvě desetinná místa.
9.4.4 Když se jako
9.5 z' skóre
9.5.1 Tam, kde je předmětem zájmu nejistota vztažné hodnoty
POZNÁMKA Když se
9.5.2 Skóre D a D% se též mohou upravit, aby zohlednila nejistotu vztažné hodnoty pomocí následujícího vzorce (16) rozšiřujícího
kde
9.5.3 Skóre z' se mohou interpretovat stejným způsobem jako z skóre (viz 9.4) za použití stejných kritických hodnot 2,0 a 3,0 v závislosti na návrhu daného programu zkoušení způsobilosti. Podobně D a D% skóre by se pak měla porovnávat s
9.5.4 Porovnání vzorců pro z skóre a z' skóre z 9.4 a 9.5 ukazuje, že z' skóre budou v cyklu zkoušení způsobilosti vždy menší než odpovídající z skóre s konstantním podílem daným výrazem (17)
Jestliže se splní pokyn pro omezení nejistoty vztažné hodnoty uvedený v 9.2.1, tento podíl bude nabývat hodnot v rozsahu vzorce (18):
V tomto případě budou tedy z' skóre téměř identická se z skóre a může se učinit závěr, že taková nejistota vztažné hodnoty je zanedbatelná při hodnocení výkonnosti.
Když pokyn z 9.2.1 pro nejistotu vztažné hodnoty není splněn, rozdíl ve velikostech z' skóre a z skóre může být tak velký, že některá z skóre překročí kritické hodnoty 2,0 anebo 3,0 a povedou k „varovným podnětům“ nebo „podnětům k opatření“, zatímco odpovídající skóre z' nedosáhnou těchto kritických hodnot a nebudou vyvolávat takové podněty.
Obecně v situacích, kdy vztažná hodnota a/nebo
9.6 Zeta skóre (ζ)
9.6.1 Zeta skóre mohou být užitečná tam, kde cílem daného programu zkoušení způsobilosti je vyhodnotit schopnost účastníků poskytovat výsledky blízko vztažné hodnoty v rámci jimi deklarované nejistoty.
S použitím symboliky jako v 9.4, se ζ skóre vypočítá jako:
kde je
účastníkův vlastní odhad standardní nejistoty jeho výsledku xi a
standardní nejistota vztažné hodnoty xpt
POZNÁMKA 1 Počítá-li se vztažná hodnota xpt jako konsenzuální hodnota z výsledků účastníků, je xpt korelována s jednotlivými výsledky účastníků. Korelace u jednotlivého účastníka závisí na váze použité pro daného účastníka při vztažné hodnotě a v menší míře při nejistotě vztažné hodnoty. Z těchto důvodů skóre výkonnosti zahrnující nejistotu vztažné hodnoty bez zohlednění korelace představují nižší odhady skóre, než by tomu bylo při jejím zohlednění. Podhodnocení není závažné, pokud je nejistota vztažné hodnoty malá; při použití robustní metody je nejméně závažné nejkrajnější účastníky, kteří obdrží s velkou pravděpodobností nepříznivá skóre výkonnosti. Vzorec (19) lze tedy použít při konsenzuální statistice bez opravy na korelaci.
POZNÁMKA 2 ζ skóre se liší od En skóre (viz 9.7) použitím standardních nejistot u(xi) a u(xpt) namísto rozšířených nejistot U(xi) a U(xpt). ζ může být zvláště užitečné, pokud používají účastníci rozdílné postupy měření, které vedou ke značně rozdílným nejistotám měření. ζ skóre přes 2 nebo pod –2 mohou mít příčinu v systematickém vychýlení metod nebo ve špatném odhadu nejistoty měření účastníkem. ζ skóre tak poskytují přísné posouzení kompletního výsledku dodaného účastníkem.
9.6.2 Použití ζ skóre dovoluje přímé posouzení, zda jsou laboratoře schopny dodávat správné výsledky, tj. výsledky, které souhlasí s xpt, v rámci jejich nejistot měření. ζ skóre se mohou interpretovat za použití stejných kritických hodnot 2,0 a 3,0 jako u z skóre, nebo pomocí násobků koeficientu rozšíření používaných účastníky při odhadu rozšířené nejistoty. Nepříznivé ζ skóre však může indikovat buď velkou odchylku xi od xpt, nebo podhodnocení nejistoty u účastníka, nebo kombinaci obou.
POZNÁMKA Pro poskytovatele zkoušení způsobilosti může být vhodné poskytovat dodatečné informace o platnosti uváděných nejistot. Užitečné pokyny pro takové posouzení poskytuje oddíl 9.8.
9.6.3 ζ skóre se mohou používat ve spojení se z skóre jako pomoc při zlepšování výkonnosti účastníků, a to následovně. Jestliže účastník získává z skóre, která opakovaně překračují kritickou hodnotu 3,0, může pro něj být užitečné prověřit krok po kroku svůj zkušební postup a vyhodnotit nejistotu tohoto postupu. Vyhodnocení nejistoty určí kroky postupu, kde vznikají největší nejistoty, a účastník tak zjistí, kam napřít úsilí, aby dosáhl zlepšení. Jestliže také ζ skóre účastníka překračují kritickou hodnotu 3,0, znamená to, že vyhodnocení nejistoty účastníka nezahrnuje všechny významné zdroje nejistoty (tj. vynechal něco důležitého). Naopak jestliže účastník opakovaně získává z skóre ≥ 3, ale ζ skóre < 2, znamená to, že vyhodnocuje nejistotu svých výsledků přesně, ale že jeho výsledky nevyhovují výkonnosti očekávané u daného programu zkoušení způsobilosti. Například účastník, který používá screeningovou metodu pro postup měření tam, kde jiní účastníci používají kvantitativní metody. Není třeba podnikat žádná opatření, pokud se účastník domnívá, že nejistota jeho výsledků je přiměřená.
POZNÁMKA Pokud se používá jen ζ skóre samo o sobě, může se interpretovat jen jako test, zda nejistota účastníka odpovídá konkrétní pozorované odchylce a nemůže být interpretováno jako indikace vhodnosti pro daný účel u konkrétních výsledků účastníků. Stanovení vhodnosti pro daný účel se může provádět odděleně (například účastníkem či akreditačním orgánem) na základě posouzení odchylky
9.7 En skóre
9.7.1 En skóre mohou být vhodná, pokud cílem programu zkoušení způsobilosti je vyhodnocení schopnosti účastníků produkovat výsledky těsně u vztažné hodnoty v rámci jimi deklarované rozšířené nejistoty. Tato statistika je obvyklá u zkoušení způsobilosti v kalibraci, ale může se používat i u jiných druhů zkoušení způsobilosti. Tato výkonnostní statistika se vypočítá podle vzorce (20) jako:
kde je
vztažná hodnota stanovená v referenční laboratoři;
rozšířená nejistota vztažné hodnoty xpt;
rozšířená nejistota výsledku účastníka xi.
POZNÁMKA Přímé slučování rozšířených nejistot neodpovídá požadavkům Pokynu ISO/IEC 98-3 a není ekvivalentem výpočtu kombinované rozšířené nejistoty, ledaže jak koeficienty rozšíření, tak i efektivní stupně volnosti jsou pro U(xi) a U(xpt) identické.
9.7.2 En skóre se mají interpretovat obezřetně, protože představují poměr dvou separátních (ale souvisejících) měr výkonnosti. Čitatel představuje odchylku výsledku od vztažné hodnoty a odpovídá mu interpretace uvedená v oddíle 9.3. Jmenovatel je kombinovaná rozšířená nejistota, která má být větší než odchylka v čitateli, pokud účastník stanovil U(xi) správně a jestliže i poskytovatel zkoušení způsobilosti stanovil správně U(xpt). Tedy skóre En ≥ 1,0 nebo En ≤ –1,0 by měla poukazovat na potřebu přezkoumání odhadů nejistot, nebo opravy v oblasti měření, podobně –1,0 < En < 1,0 se má považovat za ukazatel přijatelné výkonnosti pouze tehdy, jestliže dané nejistoty jsou platné a odchylka
POZNÁMKA I když interpretace En skóre může být obtížná, nemusí to bránit jejich použití. Zahrnutí informací o nejistotě do interpretace výsledků u výsledků zkoušení způsobilosti může sehrát významnou roli při zlepšování pochopení nejistoty měření u účastníků a jejím vyhodnocování.
9.8 Vyhodnocení nejistot účastníků při zkoušení
9.8.1 Rozšiřující se aplikace ISO/IEC 17025 vedla k lepšímu pochopení nejistoty měření. Použití nejistot vyhodnocovaných laboratořemi pro vyhodnocování výkonnosti, jako je tomu u En, je běžné u programů zkoušení způsobilosti v rozličných oblastech kalibrací, ale není obvyklé u zkoušení způsobilosti ve zkušebních laboratořích. ζ skóre popsané v oddíle 9.6 a En skóre popsané v oddíle 9.7 představují možnosti, jak vyhodnocovat výsledky vůči deklarované nejistotě.
9.8.2 Někteří poskytovatelé zkoušení způsobilosti rozpoznali, jak je užitečné vyžadovat od laboratoří uvádění nejistoty výsledků při zkoušení způsobilosti. To může být vhodné, i když se nejistoty nepoužijí při určování skóre. Existuje několik účelů, proč takové informace shromažďovat:
a) akreditační orgány mohou zaručit, že účastníci uvádějí nejistoty, které odpovídají předmětu akreditace;
b) účastníci mohou přezkoumávat jimi udávané nejistoty ve srovnání s těmi, které udávají jiní účastníci, aby posoudili jejich soulad (nebo nesoulad), a tak získali možnost určit, zda jejich vyhodnocení nejistoty počítá se všemi významnými složkami nebo zda některé složky nadhodnocuje;
c) zkoušení způsobilosti se může použít pro potvrzení deklarované nejistoty, a to je nejsnazší, pokud je nejistota uváděna spolu s výsledkem.
POZNÁMKA Příklad analýzy dat s udávanými nejistotami uvádí příloha E.4.
9.8.3 Jestliže se xpt stanovila postupy z oddílů 7.3 až 7.6 a u(xpt) vyhovuje kritériu 9.2.1, pak je nepravděpodobné, že výsledek účastníka bude mít menší standardní nejistotu než je tato, takže u(xpt) by se mohla použít jako dolní mez pro screening, nazývaná umin. Pokud se vztažná hodnota určuje z výsledků účastníků (oddíl 7.7), pak má poskytovatel zkoušení způsobilosti určit pro umin praktické meze pro screening.
POZNÁMKA Jestliže u(xpt) zahrnuje variabilitu náležející nehomogenitě nebo nestabilitě, u(xi) účastníka může být menší než umin.
9.8.4 Je též nepravděpodobné, aby některá standardní nejistota udávaná účastníkem byla větší než 1,5 násobek robustní směrodatné odchylky účastníků (1,5s*), proto se může používat jako praktická horní mez pro screening uváděných nejistot a nazývá se umax.
POZNÁMKA 1 Hodnota 1,5 je horní mezí variability směrodatných odchylek, kterou lze očekávat u konsenzuální směrodatné odchylky z 10 nebo více výsledků, vycházející z druhé odmocniny percentilů F rozdělení. Poskytovatel zkoušení způsobilosti používající tento postup může použít i jiná hodnota.
POZNÁMKA 2 Používá-li účastník širokou škálu různých metod, jsou možné i větší hodnoty než 1,5.
9.8.5 Jestliže se používají umin, umax nebo další kritéria k identifikaci vybočujících nejistot, má to poskytovatel zkoušení způsobilosti účastníkům vysvětlit a ujasnit, že uváděná nejistota u(xi), může být platná, i když je nižší než umin nebo větší umax. Když k tomu dojde, mají účastníci a další zainteresované strany zkontrolovat výsledek nebo daný odhad nejistoty. Podobně může být uváděná nejistota vyšší než umin a menší než umax, a přesto není platná. Tyto ukazatele jsou pouze informativní.
9.8.6 Poskytovatel zkoušení způsobilosti může též věnovat pozornost neobvykle vysokým nebo nízkým nejistotám a vycházet při tom například z:
specifikovaných kvantilů uváděných nejistot (například pod pátým percentilem a nad pětadevadesátým percentilem uváděných standardních nebo rozšířených nejistot);
mezí vycházejících z předpokládaného rozdělení se škálou na základě variability uváděných nejistot;
požadované nejistoty měření.
POZNÁMKA Jelikož je nepravděpodobné, aby nejistoty vykazovaly normální rozdělení, bude pravděpodobně potřebná transformace pro použití mezí, které se opírají o přibližnou nebo výchozí normalitu, například meze krabicových grafů (box and whisker plot) vycházející z kvartilového rozpětí mají pravděpodobnostní interpretaci pouze tehdy, je-li rozdělení přibližně normální.
9.9 Kombinovaná skóre výkonnosti
9.9.1 Je běžné, že v rámci jednoho cyklu programu zkoušení způsobilosti se získávají výsledky z více než jedné položky zkoušky způsobilosti a pro více než jednu měřenou veličinu. V takové situaci mají být výsledky pro každou položku zkoušky způsobilosti a pro každou měřenou veličinu interpretovány, jak je popsáno v 9.3 až 9.7, tj. výsledky pro každou položku zkoušky způsobilosti a každou měřenou veličinu se mají hodnotit odděleně.
9.9.2 Existují aplikace, u kterých jsou součástí programu zkoušení způsobilosti dvě nebo více položek zkoušky způsobilosti se speciálně navrženými úrovněmi, aby bylo možno měřit další hlediska výkonnosti jako zkoumat opakovatelnost, systematickou chybu nebo linearitu. Například v programu zkoušení způsobilosti mohou být použity dvě podobné položky zkoušky způsobilosti se záměrem vynášet je do Youdenova grafu, jak je popsáno v 10.5. V takových případech má poskytovatel zkoušení způsobilosti poskytnout účastníkům úplný popis návrhu statistického zpracování a postupů, které se použijí.
9.9.3 Grafické metody popsané v Kapitole 10 se mají použít, když se výsledky získávají pro více než jednu položku zkoušky způsobilosti nebo pro několik měřených veličin, za předpokladu, že mají úzký vztah a/nebo jsou získány stejnou metodou. Tyto postupy kombinují skóre výkonnosti způsobem, který nezakrývá vysoké hodnoty jednotlivých skóre a může odhalit dodatečné informace o výkonnosti účastníků – jako korelaci mezi výsledky různých měřených veličin – která není patrná z tabulek jednotlivých skóre.
9.9.4 U programů zkoušení způsobilosti pro velký počet měřených veličin se může k vyhodnocení výkonnosti použít počet nebo podíl podnětů k opatřením a varovných podnětů.
9.9.5 Kombinovaná skóre výkonnosti nebo skóre ocenění nebo sankcí se mají používat jen s opatrností, protože může být obtížné popsat statistické předpoklady, na kterých jsou taková skóre založena. Zatímco kombinovaná skóre výkonnosti pro výsledky z různých položek zkoušky způsobilosti mohou mít pro stejnou měřenou veličinu očekávaná rozdělení a přinášet užitek pro detekci trvalého vychýlení (bias), zprůměrovaná nebo sečtená skóre od různých měřených veličin u stejných nebo různých položek zkoušky způsobilosti mohou zamaskovat vychýlení výsledků jednotlivé měřené veličiny. Proto tedy metody výpočtu, interpretace a omezení každých použitých kombinovaných nebo sankčních skóre musí být účastníkům objasněny.
10 Grafické metody vyjadřování skóre výkonnosti
10.1 Použití grafických metod
Poskytovatel zkoušení způsobilosti má normálně používat pro přípravu grafů popsaných například v 10.2 a 10.3 výkonnostní skóre získaná v každém cyklu programu zkoušení způsobilosti. Výkonnostní skóre jako PA, z, z’, ζ, nebo En mají v grafech tu výhodu, že mohou být vynášena na normované osy a tím usnadní jejich prezentaci a interpretaci. Grafy mají být poskytnuty účastníkům, aby každý účastník viděl, kde leží jeho vlastní výsledky ve srovnání s výsledky ostatních. K označení účastníků mohou být v grafech použity písmenné nebo číselné kódy, tak aby účastník našel svůj výsledek, ale nebyl schopen identifikovat výsledky ostatních účastníků. Grafy mohou být použity také poskytovatelem zkoušení způsobilosti, nebo jakoukoliv akreditační organizací k posouzení celkové efektivity programu zkoušení způsobilosti a potřeby revize kritérií použitých k vyhodnocení způsobilosti.
POZNÁMKA Následující oddíly poskytují neúplný seznam vybraných grafických technik, které se osvědčily při úlohách zkoušení způsobilosti. Užitečné mohou být i další grafické metody, jako krabicový diagram (box-and-whiskers) a grafy výsledků účastníka proti uváděné nejistotě. Krabicové diagramy jsou popsány například v ISO 16269-4 [38]. Užitečný graf pro výsledky účastníků a nejistoty je popsán v odkazu [39].
10.2 Histogramy výsledků nebo výkonnostních skóre
10.2.1 Histogram patří mezi běžné statistické nástroje a je užitečný při analýze výsledků zkoušení způsobilosti ze dvou hledisek. Graf je užitečný v počátečním stádiu analýzy, ke kontrole, zda statistické předpoklady jsou rozumné, nebo zda se vyskytuje nějaká anomálie – jako je bimodální rozdělení, velký podíl odlehlých hodnot nebo neobvyklá šikmost, která nebyla očekávána. Histogramy mohou být též užitečné ve zprávách programu zkoušení způsobilosti k popisu výkonnostních skóre nebo například pro porovnání různých metod nebo různých položek zkoušky způsobilosti. Histogramy jsou zvláště přínosné v individuálních zprávách u programů zkoušení způsobilosti malé nebo střední velikosti (méně než 100 účastníků), a umožňují účastníkům posoudit, jak jejich výkonnost vychází ve srovnání s ostatními účastníky například zvýrazněním polohy výsledku účastníka uvnitř histogramu, nebo v případě malých programů zkoušení způsobilosti (méně než 50 účastníků) použitím identifikačních značek jednotlivých účastníků.
10.2.2 Histogramy se mohou vytvořit z vlastních výsledků účastníků nebo z výkonnostních skóre. Výsledky účastníků mají výhodu v tom, že mají přímý vztah k poskytovaným údajům a mohou se posuzovat bez dodatečných výpočtů nebo transformace z výkonnostního skóre na chybu měření. Histogramy založené na výkonnostních skóre mají výhodu v přímé vazbě na vyhodnocování výkonnosti a mohou se porovnávat v rámci měřených veličin a cyklů programu zkoušení způsobilosti.
Rozsah a šíře sloupců-tříd použité u histogramu se mají určit pro každý soubor dat, na základě variability a počtu výsledků. Obvykle je to možné dělat na základě zkušeností se zkoušením způsobilosti, ale u většiny případů seskupování vyžaduje po prvním zhlédnutí úpravu. Jestliže se použijí výkonnostní skóre v histogramu, je vhodné mít škálu vycházející ze směrodatné odchylky pro posuzování způsobilosti a vynést body odpovídající varovnému podnětu a podnětu k opatření.
10.2.3 Stupnice a šíře sloupců se mají zvolit tak, aby mohla být detekována bimodalita (pokud se vyskytuje), bez toho, aby docházelo k falešným podnětům v důsledku rozlišení výsledků měření nebo malého počtu výsledků.
POZNÁMKA 1 Vzhled histogramu je citlivý na zvolenou šířku sloupce-třídy a umístění hranic tříd (u konstantní šířky třídy to převážně závisí na počátečním bodu). Pokud je šířka třídy příliš malá, bude graf vykazovat mnoho „malých modů“; „široké mody“ blízko středu by pak nemusely být dost patrné. Výskyt „úzkých modů“ a relativní výšky přilehlých sloupců se mohou podstatně měnit se změnou počátečního bodu a šířky třídy, zvláště tam, kde datový soubor je malý a/nebo vykazuje určité shlukování.
POZNÁMKA 2 Příklad vynesení do histogramu je součástí Přílohy E.3.
10.3 Grafy jádrové hustoty
10.3.1 Grafy jádrové hustoty, často zkracované jen jako „grafy hustoty“ představují hladkou křivku popisující obecný tvar rozdělení datového souboru. Výchozí představa pro jádrový odhad spočívá v tom, že každý bod dat je nahrazen specifikovaným rozdělením (typicky normálním), vycentrovaným na poloze bodu a se směrodatnou odchylkou σk; σk je nazývána šířkou pásu nebo parametrem vyhlazení. Tato rozdělení jsou sečtena dohromady a výsledné rozdělení, normalizované na jednotkovou plochu, poskytuje „odhad hustoty“, který lze vynést jako hladkou křivku.
10.3.2 Při konstrukci grafu jádrové hustoty se může postupovat v následujících krocích. Předpokládá se, že pro vynesení do grafu se má použít datový soubor X sestávající z p hodnot x1, x2, ..., xp. Ty obvykle představují výsledky účastníků, ale mohou to být i výkonnostní skóre odvozená z výsledků.
i) Zvolí se patřičná šíře pásu σk. Zvláště vhodné jsou dvě varianty:
a) při obecném vyšetření se nastaví σk = 0,9s*/p0,2 kde s* je robustní směrodatná odchylka hodnot x1, …, xp vypočítaná postupy z Přílohy C.2 nebo C.3;
b) při vyšetřování datového souboru na hlavní mody (vrcholy), které jsou důležité jako kritérium pro posuzování výkonnosti, se nastaví σk = 0,75σpt při použití z nebo ζ skóre, nebo σk = 0,25δE, jestliže se používá D nebo D%.
POZNÁMKA 1 Varianta a) výše vychází z práce Silvermana [30], který doporučuje s* z normalizovaného kvartilového rozpětí (nIQR). Mezi další pravidla pro výběr šíře pásu patří Scottovo pravidlo [29], které nahrazuje koeficient 0,9 za 1,06. Odkaz [29] popisuje téměř optimální, ale mnohem komplikovanější metodu výběru šíře pásu. V praxi jsou rozdíly při vizuální inspekci malé a výběr závisí na tom, jaký software je k dispozici.
POZNÁMKA 2 Varianta b) vychází z pokynu IUPAC [32].
ii) Nastaví se rozsah grafu qmin až qmax tak, že qmin ≤ min(x1, …, xp) – 3σk a qmax ≥ max(x1, …, xp) + 3σk.
iii) Zvolí se počet bodů vynášené křivky nk; nk = 200 obvykle postačuje, jestliže v rámci rozsahu grafu nejsou extrémně odlehlé hodnoty.
iv) Vypočte se poloha pro vynášení
v) Vypočte se nk hustot
pro i = 1 až i = nk, kde
vi) Vynese se
POZNÁMKA 1 Křivka hustoty přesahuje oblast dat. Rozsah grafu
POZNÁMKA 2 Může být vhodné přidat polohy jednotlivých datových bodů do grafu. To se obvykle dělá vynesením poloh pod vynášenou křivku hustoty jako krátké vertikální značky (rug plot), ale může se též realizovat vynesením datových bodů v příslušných bodech vypočtené křivky.
POZNÁMKA 3 Grafy hustoty se nejlépe vytvářejí pomocí softwaru. U středních velikostí datových souborů lze výše uvedený postupný výpočet provést pomocí tabulkového procesoru. Komerční i volně dostupný statistický software obvykle obsahuje grafy hustoty s podobnými standardními volbami šířky pásu. Pokročilá provedení grafů hustoty mohou používat tento algoritmus nebo rychlejší způsob výpočtu pomocí konvolučních metod.
POZNÁMKA 4 Příklady grafů jádrové hustoty jsou uvedeny v Přílohách E.3, E.4 a E.6.
10.3.3 Tvar křivky je považován za indikaci rozdělení, ze kterého data pochází. Odlišné mody se projevují jako oddělená lokální maxima. Odlehlé hodnoty se projevují oddělenými vrcholy se zřetelným odstupem od hlavní části dat.
POZNÁMKA 1 Graf hustoty je citlivý na zvolenou šíři pásu σk. Pokud je šířka příliš malá, graf bude vykazovat mnoho „malých modů“; skutečné shluky blízko hlavní části souboru dat by pak nemusely být dostatečně zřetelné.
POZNÁMKA 2 Jako u histogramů, grafy hustoty mají nejlepší použití u středních až velkých datových souborů, protože malé datové soubory (deset či méně) mohou náhodně obsahovat mírně odlehlé hodnoty nebo zdánlivé mody, zvláště pokud se používá jako základ pro šířku pásu robustní směrodatná odchylka.
10.4 Sloupcové grafy standardizovaných výkonnostních skóre
10.4.1 Sloupcové grafy představují vhodnou metodu pro uvádění výkonnostních skóre pro několik podobných charakteristik v jediném grafu. Mohou ukázat, zda existují nějaké podobné rysy ve skóre účastníka; například jestliže účastník dosahuje několik vysokých z skóre poukazujících obecně na nedostatečnou výkonnost, může mít účastník pozitivní vychýlení (bias).
10.4.2 Pro zhotovení sloupcového grafu se shrnou standardizované výkonnostní skóre do grafu, jak ukazuje obrázek E.10, ve kterém jsou skóre každého účastníka sdružena dohromady. Další standardizovaná výkonnostní skóre, jako jsou D% nebo PA, se mohou vynášet za stejným účelem.
10.4.3 Když se v rámci cyklu programu zkoušení způsobilosti provádějí opakovaná stanovení, výsledky se mohou použít pro výpočet grafu měr preciznosti, například jako k statistiky popsané v ISO 5725-2, nebo podobná míra poměřovaná oproti robustní průměrné směrodatné odchylce takové, jakou definuje algoritmus S (viz C.4).
POZNÁMKA 1 Sloupcový nebo jiný graf výkonnostního skóre seřazený podle rostoucího skóre může pomoci účastníkům rychle porovnat svoji výkonnost s většinou ostatních účastníků.
POZNÁMKA 2 Příklad sloupcového grafu se z skóre je uveden v E.11.
10.5 Youdenův graf
10.5.1 Když se zkouší v daném cyklu programu zkoušení způsobilosti dvě podobné položky zkoušky způsobilosti, představuje Youdenův graf velmi informativní grafickou metodu pro studium výsledků. Může být užitečný pro odhalení možné korelace výsledků u dvou různých položek zkoušky způsobilosti a pomoci při vyšetření důvodů vzniku podnětů k opatřením.
10.5.2 Graf se konstruuje vynesením výsledků účastníků nebo z skóre získaných pro jednu z položek zkoušky způsobilosti oproti výsledkům účastníků nebo z skóre získaným pro druhou položku zkoušky způsobilosti. Pro usnadnění interpretace se vynášejí horizontální a vertikální přímky rozdělující hodnoty do čtyř kvadrantů. Přímky se vynášejí na vztažných hodnotách nebo mediánech pro tato dvě rozdělení výsledků nebo na nule, pokud se vynášejí z skóre.
POZNÁMKA Pro odpovídající interpretaci Youdenových grafů je důležité, aby dané dvě položky zkoušky způsobilosti měly podobné (nebo stejné) úrovně měřené veličiny; je tomu tak proto, aby povaha systematické chyby měření byla v této oblasti měření stejná. Youdenovy grafy mohou přinášet užitek pro případy velmi se odlišujících úrovní měřené veličiny za výskytu souhlasné systematické chyby, ale mohou být klamné, jestliže kalibrační chyba není souhlasně pozitivní nebo negativní v rozsahu úrovní měřené veličiny.
10.5.3 Když je Youdenův graf vytvořen, je jeho interpretace následující:
a) Prohlédne se graf se zřetelem na body, které jsou zřetelně odděleny od zbytku dat. Pokud se účastník nedrží zkušební metody správně, jsou její výsledky zatíženy systematickou chybou a bod bude daleko v dolním levém nebo horním pravém kvadrantu. Body vzdálené od ostatních v horním levém a dolním pravém kvadrantu odpovídají účastníkům, kteří vykazují opakovatelnost vyšší než většina ostatních účastníků, jejichž měřicí metody vykazují odlišnou citlivost ke složení položek zkoušky způsobilosti nebo někdy i účastníkům, kteří nechtěně zaměnili položky zkoušky způsobilosti.
b) Prohlédne se graf s ohledem na to, zda nevykazuje důkaz obecného vztahu mezi výsledky obou položek zkoušení způsobilosti (například jestliže leží přibližně podél skloněné přímky). Pokud je takový vztah očividný, svědčí to o existenci vychýlení u účastníka, které ovlivňuje různé položky zkoušky způsobilosti podobným způsobem. Pokud není patrný žádný znatelný vztah mezi výsledky (tj. body jsou rozděleny přibližně rovnoměrně v kruhovité oblasti, obvykle s vyšší hustotou v okolí středu), pak chyby měření u daných dvou položek zkoušky způsobilosti je možno pokládat do značné míry za nekorelované. To lze ověřit pomocí některé statistiky pořadové korelace (rank correlation), jestliže vizuální zkoumání není průkazné.
c) Prohlédne se graf se zřetelem na těsné skupiny účastníků ať již podél diagonál nebo jinde. Zřetelné skupiny svědčí pravděpodobně o rozdílech mezi různými metodami.
POZNÁMKA 1 Pokud se výsledky studií, v nichž všichni účastníci používají stejnou měřicí metodu nebo grafické znázornění zahrnuje jednu metodu měření, nacházejí podél jedné přímky, může to představovat důkaz, že metoda měření nebyla specifikována odpovídajícím způsobem. Přezkoumání zkušební metody může pak vést ke všeobecnému zlepšení reprodukovatelnosti používané metody.
POZNÁMKA 2 Příklad Youdenova grafu uvádí Příloha E.12.
POZNÁMKA 3 Odkaz [36] uvádí obecnou metodu konstrukce konfidenčních elips, které lze použít při interpretaci Youdenova grafu. Robustní odhady korelačního koeficientu a kovariance pro konfidenční elipsy v přítomnosti odlehlých hodnot jsou diskutovány a porovnány v odkazu [40].
10.6 Grafy směrodatných odchylek opakovatelnosti
10.6.1 Když účastníci provádějí během cyklu programu zkoušení způsobilosti opakovaná měření, mohou se výsledky použít ke konstrukci grafu k identifikaci účastníků, jejichž průměr a směrodatná odchylka jsou neobvyklé.
10.6.2 Graf se konstruuje vynesením směrodatné odchylky si každého účastníka oproti odpovídajícímu průměru xi udávaného účastníkem. Jako alternativu lze použít rozsah opakovaných výsledků namísto směrodatné odchylky. Nechť jsou
x* = robustní průměr hodnot x1, x2, ..., xp, vypočtený algoritmem A;
w* = robustní celkový průměr hodnot s1, s2, ..., sp, vypočítaných algoritmem S;
předpokládá se normální rozdělení dat. Za nulové hypotézy, že neexistuje rozdíl mezi účastníky v charakteristikách základního souboru, ať už rozdíl středních hodnot účastníků nebo směrodatných odchylek účastníků. Statistika
má přibližně χ2 rozdělení se dvěma stupni volnosti. Proto je možno nakreslit v grafu kritickou oblast na hladině významnosti přibližně 1 % vynesením
na ose směrodatné odchylky proti x na ose průměrů pro
POZNÁMKA Tento postup vychází z Circle Technique zavedené van Nulandem [36]. Popsaná metoda používá jednoduchou normální aproximaci pro rozdělení směrodatné odchylky a může poskytovat kritickou oblast obsahující záporné směrodatné odchylky. Metoda, která je zde uvedena, používá aproximaci rozdělení směrodatné odchylky, která vylučuje tento problém, ale kritická oblast není kruhová jako v originále. Dále používá robustní hodnoty pro centrální bod na rozdíl od jednoduchých průměrů v originální metodě.
10.6.3 Graf může ukazovat na účastníky s vychýlením (bias), které je neobvykle velké vzhledem k jejich opakovatelnosti. Jestliže je počet opakování vysoký, může tato metoda také identifikovat účastníky s výrazně malou opakovatelností. Jelikož však obvykle počet opakování je malý, jsou takové interpretace obtížné.
POZNÁMKA Příklad grafu směrodatných odchylek opakovatelnosti uvádí Příloha E.13.
10.7 Rozdělené vzorky
10.7.1 Rozdělené vzorky se používají, když je nutné provést detailní porovnání dvou účastníků, nebo když není k dispozici zkoušení způsobilosti a je potřeba nějaké externí ověření. Získají se vzorky několika materiálů, reprezentující široký rozsah úrovní předmětné vlastnosti, každý vzorek je rozdělen na dvě části a každá laboratoř provede určitý počet (nejméně dvě) opakovaných stanovení na části jednotlivého vzorku.
Příležitostně se mohou zapojit více než dva účastníci, v takovém případě jeden má být považován za referenci a ostatní s ním mají být porovnávání zde popsanými způsoby.
POZNÁMKA 1 Tento typ studie je běžný, ale často se nazývá jinak, jako například „párový vzorek“ nebo „bilaterární porovnání“.
POZNÁMKA 2 Tento návrh se nesmí zaměňovat s návrhem „rozdělených úrovní“ používaným v ISO 5725, který představuje poskytování dvou zkušebních položek s mírně odlišnými úrovněmi, zasílaných všem účastníkům.
10.7.2 Data z experimentálního návrhu s rozdělenými vzorky se mohou použít pro sestrojení grafu, který znázorní kolísání mezi opakovanými měřeními u těchto dvou účastníků a rozdíly mezi jejich průměry výsledků u každé položky zkoušky způsobilosti. Dvojrozměrné grafy s plným rozsahem koncentrací mohou mít stupnici, která způsobuje, že je těžké identifikovat důležité rozdíly mezi účastníky, a tak grafy rozdílů nebo rozdílů v procentech mezi výsledky daných dvou účastníků mohou přinést větší užitek. Další analýza bude záležet na závěrech, které bude možno učinit z těchto grafů.
10.8 Grafické metody kombinace výkonnostních skóre z několika cyklů programu zkoušení způsobilosti
10.8.1 Když se mají standardní výkonnostní skóre z několika cyklů programu zkoušení způsobilosti spojovat, může poskytovatel zkoušení způsobilosti zvážit konstrukci grafů, jak je to popsáno v 10.8.2 nebo 10.8.3. Použití těchto grafů, v nichž se spojují výkonnostní skóre z několika cyklů programu zkoušení způsobilosti, může umožnit odhalit trendy a další rysy výsledků, které nejsou patrné, když se výkonnostní skóre jednotlivých cyklů zkoumají odděleně.
POZNÁMKA Při použití „průběžných skóre“ nebo kumulativních skóre“, kde výkonnostní skóre obdržená od účastníka jsou slučována z několika cyklů programu zkoušení způsobilosti, může při interpretaci pomoci grafické zobrazení výkonnostních skóre. Účastník může mít závadu, která se projeví u položky zkoušení způsobilosti použité v jednom cyklu, ale nikoliv v ostatních cyklech; průběžné skóre by mohlo takovou závadu skrýt. Avšak za určitých podmínek (například při častých cyklech) může být „vyhlazení“ nahodilých odlehlých skóre užitečné při prokazování základní výkonnosti.
10.8.2 Shewhartovy regulační diagramy jsou efektivní metodou, jak identifikovat problémy, které jsou příčinou velmi kolísavých hodnot z skóre. Viz ISO 7870-2 [6], obsahující návod pro Shewhartovy diagramy a pravidla pro akční meze.
10.8.2.1 Při přípravě tohoto grafu se vynesou jako jednotlivé body standardizovaná skóre účastníka jako jsou z skóre nebo PA skóre, spolu s akčními a výstražnými mezemi nastavenými v souladu s návrhem programu zkoušení způsobilosti. Když se měří v jednom kole programu zkoušení způsobilosti několik znaků, lze výkonnostní skóre pro různé znaky vynášet do stejného grafu, ale body odpovídající různým znakům se mají vynášet různými symboly a/nebo odlišovat barevně. Jestliže se zahrnuje do stejného cyklu programu zkoušení způsobilosti několik položek zkoušky způsobilosti, mohou se odpovídající výkonnostní skóre vynášet dohromady pomocí několika bodů v každém časovém úseku. Do grafu se mohou přidat též spojnice středních hodnot skóre pro každý časový bod.
10.8.2.2 Tradiční pravidla pro interpretaci Shewhartových regulačních diagramů poskytují signál, že systém je mimo kontrolu, když
a) jeden bod vyjde mimo akční meze (±3,0 pro z skóre, nebo 100 % pro PA);
b) dva ze tří po sobě jdoucích bodů jsou mimo jednu či druhou výstražnou mez (±2,0 pro z skóre nebo 70 % pro PA);
c) šest za sebou jdoucích výsledků je buď kladných, nebo záporných.
10.8.2.3 Když Shewhartův regulační diagram poskytuje signál, že proces není statisticky zvládnutý, má účastník zkoumat, co je toho příčinou.
POZNÁMKA Směrodatná odchylka pro posuzování způsobilosti σpt není obvykle směrodatnou odchylkou rozdílů (xi – xpt), a tak pravděpodobnosti, které náleží obvykle akčním a varovným mezím Shewhartova regulačního diagramu někdy neplatí.
10.8.3 Když se úroveň vlastnosti mění od jednoho cyklu programu zkoušení způsobilosti k dalšímu, grafy standardizovaných výkonnostních skóre, jako jsou z a PA, vynesených proti vztažné hodnotě, budou ukazovat, jestli se vychýlení (bias) účastníka mění s úrovní vlastnosti. Když je zahrnuta do stejného cyklu programu zkoušení způsobilosti více než jedna položka zkoušky způsobilosti, mohou se všechna výkonnostní skóre vynést nezávisle.
POZNÁMKA 1 Může být vhodné používat odlišnou značku nebo odlišnou barvu pro výsledky aktuálního cyklu programu zkoušení způsobilosti, aby se odlišily od bodů odpovídajících předešlým cyklům.
POZNÁMKA 2 Příklad takového grafu za použití PA skóre je uveden v Příloze E.14. Tento graf by mohl snadno používat i z skóre, pouze se změnou vertikální stupnice.
11 Návrh a analýza kvalitativních programů zkoušení způsobilosti (včetně nominálních a pořadových vlastností)
11.1 Druhy kvalitativních údajů
Velký počet zkoušení způsobilosti se zabývá vlastnostmi, které jsou měřeny nebo identifikovány pomocí kvalitativních stupnic. Mezi takové patří:
Programy zkoušení způsobilosti, které vyžadují uvádět stupnice kategorií (někdy nazývané „nominální“), kde hodnota vlastnosti nemá žádnou velikost (jako je druh látky nebo organismu);
Programy zkoušení způsobilosti na přítomnost či nepřítomnost vlastnosti ať již stanovené subjektivními kritérii nebo velikostí signálu měřicího postupu. Ty se mohou považovat za speciální případ kategoriálních nebo pořadových stupnic s pouze dvěma hodnotami (též nazývané „dichotomické“ nebo binární);
Programy zkoušení způsobilosti požadující uvádění výsledků v pořadové stupnici, která může být uspořádána podle velikosti, ale u které neexistují žádné aritmetické vztahy mezi různými výsledky. Například pořadovou stupnici tvoří vysoký, střední a nízký'.
Takové programy zkoušení způsobilosti vyžadují speciální zvážení návrhu, stanovení hodnot a vyhodnocování výkonnosti (vyhodnocování skóre), protože
vztažné hodnoty často vycházejí z posouzení odborníky; a
statistické zpracování navrhované pro spojitá a spočetná data se nedá použít pro kvalitativní údaje. Například není smysluplné vytvářet průměry a směrodatné odchylky výsledků v pořadových stupních, i když se mohou seřazovat.
Následující odstavce proto poskytují pokyny pro návrh, stanovení hodnoty a vyhodnocení výkonnosti pro kvalitativní programy zkoušení způsobilosti.
POZNÁMKA Pokyny pro pořadové údaje nelze použít pro výsledky měření, které používají kvantitativní stupnici s diskontinuální indikací (jako jsou ředění nebo titry), viz oddíl 5.2.2.
11.2 Návrh statistického zpracování
11.2.1 U programů zkoušení způsobilosti, u nichž je stanovisko odborníků podstatné jak pro přidělení hodnoty, tak pro posuzování zpráv účastníků, je obvykle nutné vytvořit panel příslušně kvalifikovaných odborníků a věnovat čas diskusi pro dosažení konsenzu o přijatém postupu. Je-li potřebné spolehnout se na jednotlivé odborníky při hodnocení skóre nebo přidělení hodnoty, má se poskytovatel zkoušení způsobilosti dodatečně postarat o posouzení a kontrolu konzistence názorů mezi jednotlivými odborníky.
PŘÍKLAD U klinického programu zkoušení způsobilosti, který se opírá o mikroskopii pro diagnózu, se používá stanovisko odborníků pro posouzení mikroskopických sklíček poskytovaných účastníkům a stanovení příslušné klinické diagnózy položek zkoušky způsobilosti. Poskytovatel zkoušení způsobilosti může zvolit, aby jednotlivé položky zkoušky způsobilosti cirkulovaly „naslepo“ k jednotlivým členům panelu odborníků, aby se zajistila konsistence diagnózy nebo uskutečňovat periodická cvičení, která by vyhodnocovala souhlas v panelu.
11.2.2 U programů zkoušení způsobilosti, u kterých se uvádějí jednoduché, kategoriální nebo pořadové výsledky s jednou hodnotou, má poskytovatel zkoušení způsobilosti zvažovat
poskytování dvou či více zkušebních položek v jednom cyklu; nebo
vyžadovat výsledky několika opakovaných pozorování u každé položky zkoušky způsobilosti, s počtem opakování specifikovaných předem.
Každá z těchto strategií umožňuje započítávat výsledky u každého účastníka, které pak mohou být použity jak pro přezkoumávání údajů, tak pro vyhodnocování skóre. Poskytnutí dvou či více položek zkoušky způsobilosti může poskytovat dodatečné informace o podstatě chyb a též může umožnit dokonalejší vyhodnocování skóre výkonnosti ve zkoušení způsobilosti.
PŘÍKLAD 1 U programu zkoušení způsobilosti zaměřeného na uvádění přítomnosti nebo nepřítomnosti kontaminantu, umožní poskytnutí položek zkoušky s různými úrovněmi kontaminantu poskytovateli zkoušení způsobilosti prověřit počet zdařilých detekcí na každé úrovni jako funkci úrovně přítomného kontaminantu. To se může použít například pro informace účastníkům o detekčních schopnostech jimi zvolených zkušebních metod, nebo to umožní získat průměrnou pravděpodobnost detekce, která může dovolit postupně přidělit účastníkům výkonnostní skóre na základě odhadovaných pravděpodobností konkrétní formy odezvy.
PŘÍKLAD 2 Zkoušení způsobilosti u soudních porovnávání často vyžaduje porovnání, zda položky zkoušky způsobilosti pochází ze stejného zdroje či z různých zdrojů (například otisky prstů, DNA, nábojnic střel, stop atd.). V mnoha případech „neurčitý“ patří mezi dovolená vyjádření. Program zkoušení způsobilosti může obsahovat vícečetné položky zkoušky způsobilosti z různých zdrojů a na účastnících je požadováno, aby prohlásili, které pocházejí ze „stejného zdroje“ nebo jsou „neurčité“ pro každý pár. To umožní stanovit objektivní skóre počtu (nebo %) správných nebo chybných určení, nebo počet (%) správných přiřazení, nebo správných odmítnutí. Výkonnostní kritéria se pak mohou vztahovat na vhodnost pro dané použití nebo na stupeň obtížnosti úkolu.
11.2.3 Homogenita se má prokázat přezkoumáním příslušných vzorků položek zkoušení způsobilosti, všechny z nich mají prokázat očekávanou hodnotu vlastnosti. U některých kvalitativních vlastností, například přítomnosti či nepřítomnosti, je možné ověřit homogenitu pomocí kvantitativního měření, například mikrobiologických počtů nebo spektrální absorbance překračující prahovou hodnotu. V těchto situacích je vhodný konvenční test homogenity, nebo prokázání, že všechny výsledky jsou nad nebo pod hraniční hodnotou.
11.3 Vztažné hodnoty pro kvalitativní programy zkoušení způsobilosti
11.3.1 Hodnoty je možno přiřadit položkám zkoušky způsobilosti:
a) na základě posouzení odborníkem;
b) použitím referenčních materiálů jako položek zkoušky způsobilosti;
c) na základě znalosti původu nebo přípravy dané položky (položek) zkoušky způsobilosti;
d) použitím modu nebo mediánu výsledků účastníků (medián je použitelný pouze u pořadových hodnot).
Může se použít i jakákoli další metoda přiřazení hodnoty, která může prokázat, že poskytuje spolehlivé výsledky. V následujících odstavcích se pojednává o jednotlivých výše uvedených strategiích.
POZNÁMKA Obvykle není vhodné u kvalitativních programů zkoušení způsobilosti poskytovat kvantitativní údaj o nejistotě vztažné hodnoty. Každý z odstavců 11.3.2 až 11.3.5 však nicméně vyžaduje poskytnutí základních informací, vztahujících se ke spolehlivosti vztažné hodnoty, aby účastníci mohli posoudit, zda by mohl být nevyhovující výsledek odůvodněně přisouzen chybě v přiřazení hodnoty.
11.3.2 Hodnoty přiřazené na základě posouzení odborníky by měly normálně vycházet z konsenzu panelu odborníků s odpovídající kvalifikací. Jakýkoli významný nesouhlas v panelu se má zaznamenat do zprávy z programu zkoušení způsobilosti pro daný cyklus. Pokud panel nedokáže dospět ke konsenzu ohledně konkrétní položky zkoušky způsobilosti, měl by poskytovatel zkoušení způsobilosti zvážit alternativní metodu přiřazení hodnoty z těch, které uvádí oddíl 11.3.1. Jestliže to není možné, nemá se tato položka zkoušky způsobilosti vůbec použít pro hodnocení výkonnosti účastníků.
POZNÁMKA V některých případech je možné, aby vztažnou hodnotu určil jediný odborník.
11.3.3 Když se poskytuje účastníkům referenční materiál jako položka zkoušky způsobilosti, přidružená referenční, nebo certifikovaná hodnota se má normálně použít jako vztažná hodnota pro daný cyklus programu zkoušení způsobilosti. Po cyklu se mají dát k dispozici účastníkům všechny souhrnné informace, mající vztah ke spolehlivosti vztažné hodnoty.
POZNÁMKA Omezení pro tento přístup jsou uvedena v oddíle 7.4.1.
11.3.4 Tam, kde se položky zkoušky způsobilosti připravují ze známého zdroje, může vztažná hodnota vycházet z původu materiálu. Poskytovatel zkoušení způsobilosti má uchovávat záznamy o původu, přepravě a zacházení s použitým materiálem (materiály). Patřičná péče se musí věnovat zabránění kontaminace, která by mohla mít za následek nesprávné výsledky u účastníků. Doklad o původu a/nebo podrobnosti přípravy mají být po cyklu programu zkoušení způsobilosti dostupné účastníkům ať už na vyžádání, nebo jako součást zprávy o daném cyklu.
PŘÍKLAD Zkušební vzorky vína, které jsou uváděny do oběhu v rámci systému zkoušení pravosti, mohou být získávány přímo od vhodného výrobce v určené oblasti původu nebo prostřednictvím komerčního dodavatele, který je schopen poskytnout záruku pravosti.
11.3.4.1 Konfirmační zkoušky nebo měření se doporučují tam, kde je to možné, zvláště kde by kontaminace mohla ohrožovat vlastní použití položky pro zkoušky způsobilosti. Například položka zkoušky způsobilosti určená jako exemplář jednoho mikrobiálního, rostlinného nebo živočišného druhu se normálně má testovat na odezvu testů na jiné odpovídající druhy. Takové testy by měly být tak citlivé jak je jen možné, aby buď potvrdily, že kontaminující druhy jsou nepřítomny, nebo aby úroveň kontaminace kvantifikovaly.
11.3.4.2 Poskytovatel zkoušení způsobilosti má zpřístupňovat informace o jakékoliv detekované kontaminaci nebo pochybách o původu, které by mohly ohrožovat použití položky zkoušky způsobilosti.
POZNÁMKA Další podrobnosti o charakterizaci takových položek zkoušky způsobilosti je mimo rámec tohoto dokumentu.
11.3.5 Modus (nejčastěji zastoupené pozorování) se může použít jako vztažná hodnota u výsledků kategoriální a pořadové stupnice, zatímco medián se může používat pouze u výsledků pořadové stupnice. Tam, kde jsou používány tyto statistiky, má zpráva o cyklu programu zkoušení způsobilosti obsahovat údaj o podílu výsledků použitých při přidělení hodnoty, které odpovídaly vztažné hodnotě. Není nikdy vhodné vypočítávat střední hodnoty nebo směrodatné odchylky u výsledků zkoušení způsobilosti kvalitativních vlastností, včetně pořadových hodnot. Je tomu tak proto, že neexistuje aritmetický vztah mezi jednotlivými hodnotami takových stupnic.
11.3.6 Když jsou vztažné hodnoty založeny na měření (například přítomnost či nepřítomnost), je obvykle možno určit vztažnou hodnotu s konečnou platností, tj. s nízkou nejistotou. Statistické výpočty nejistoty mohou být vhodné u úrovní měřené veličiny označovaných jako „nestanovitelný“ nebo „neprůkazný“.
11.4 Vyhodnocení výkonnosti a skóre u kvalitativních programů zkoušení způsobilosti
11.4.1 Vyhodnocení výkonnosti účastníka u kvalitativních programů zkoušení způsobilosti závisí částečně na charakteru požadované zprávy. U některých programů zkoušení způsobilosti, kde je od účastníků vyžadováno, aby prováděli značný objem vyhodnocení, a závěry vyžadují pečlivou úvahu a formulaci, mohou se zprávy účastníků předávat odborníkům pro posouzení a mohou dostávat celkovou známku. V jiném extrému, účastníci mohou být posuzování výhradně podle toho, zda se jejich výsledek přesně shoduje se vztažnou hodnotou pro příslušnou položku zkoušky způsobilosti. Následující odstavce budou tudíž poskytovat pokyny pro hodnocení výkonnosti a skóre pro řadu situací.
11.4.2 Odborné posouzení zpráv účastníků vyžaduje, aby jeden nebo více odborníků přezkoumali každou zprávu účastníka pro každou položku zkoušky způsobilosti a přidělili jí výkonnostní známku nebo skóre. U takových programů zkoušení způsobilosti by poskytovatel zkoušení způsobilosti měl zajistit, že:
konkrétní účastník není odborníkovi znám. Zvláště zpráva předávaná odborníkovi (odborníkům) nemá obsahovat jakékoli informace, které by mohly identifikovat daného účastníka;
přezkoumání, oznámkování a posouzení výkonnosti bude probíhat podle předem stanovených kritérií, která jsou tak objektivní, jak je jen možné;
ve shodě s ustanoveními odstavce 11.3.2 bude řešena otázka shody mezi odborníky;
tam, kde je to možné, vytvoří podmínky, aby se účastník mohl odvolat proti konkrétnímu posudku odborníka a/nebo aby bylo možno provést sekundární přezkoumání posudků v situacích těsně u důležitých výkonnostních prahových hodnot.
11.4.3 Pro tvorbu skóre u uváděných jednotlivých kvalitativních výsledků se mohou použít dva systémy založené na vztažné hodnotě:
a) Každý z výsledků je označen jako přijatelný (nebo označen skórem jako úspěch), jestliže přesně odpovídá vztažné hodnotě a v opačném případě je označen jako nepřijatelný nebo dostane nepříznivé výkonnostní skóre.
PŘÍKLAD V programu zkoušení způsobilosti pro stanovení přítomnosti nebo nepřítomnosti kontaminantu jsou správné výsledky označené jako 1 a nesprávné jako 0.
b) Výsledky, které přesně odpovídají vztažné hodnotě, jsou označeny jako přijatelné a dostanou odpovídající skóre; výsledky, které neodpovídají přesně vztažné hodnotě, obdrží skóre, které bude záviset na charakteru nesouladu. Takové návrhy skóre mají přiřazovat nižší skóre pro lepší výkonnost, aby to bylo v souladu s jinými typy výkonnostních skóre (například z skóre, PA, skóre, ζ a En).
PŘÍKLAD 1 U programu zkoušení způsobilosti z klinické patologie přiřazuje poskytovatel zkoušení způsobilosti skóre „0“ naprosto správné identifikaci mikrobiologických druhů, „1“ bod za výsledek, který je nesprávný, ale neznamenal by změnu klinické léčby (například identifikace jako odlišný, ale příbuzný mikrobiologický druh, vyžadující podobnou léčbu), a 3 body za identifikaci, která je nesprávná a vedla by k nesprávné léčbě pacienta. Schéma tvorby skóre obvykle vyžaduje, aby odborník posoudil charakter nesouladu, eventuálně před tím, než bude provedeno přidělení skóre.
PŘÍKLAD 2 U programu zkoušení způsobilosti, v němž je možnost šesti možných odpovědí seřazených na pořadové stupnici, výsledek odpovídající vztažné hodnotě obdrží skóre 0 a skóre se zvyšuje o 2 pro každý rozdíl v pořadí, dokud se skóre nezvýší na maximum 6 (tak výsledek sousedící se vztažnou hodnotou by obdržel skóre 2).
Jednotlivá skóre výkonnosti pro každou položku zkoušky způsobilosti se mají poskytnout účastníkům. Tam, kde se provádějí opakovaná pozorování, může se pro každý výsledek poskytovat souhrnné výkonnostní skóre.
11.4.4 Jestliže se uvádějí pro každou položku zkoušky způsobilosti opakované výsledky nebo tam, kde je poskytováno každému účastníku několik položek zkoušky způsobilosti, může poskytovatel zkoušení způsobilosti vypočítávat a používat při hodnocení výkonnosti kombinovaná skóre výkonnosti nebo přiřazovat skóre souhrnům. Kombinovaná výkonnostní skóre nebo souhrny se mohou vypočítávat jako například:
jednoduchý součet výkonnostních skóre ze všech položek zkoušky způsobilosti;
počet přiřčených úrovní výkonnosti;
podíl správných výsledků a
míra (metrika) vzdálenosti vycházející z rozdílů mezi výsledky a vztažnými hodnotami.
PŘÍKLAD Velmi obecnou mírou rozdílu někdy používanou pro kvalitativní data je Gowerův koeficient [20]. Ten může kombinovat kvalitativní a kvantitativní proměnné na základě kombinace skóre podobnosti. Pro kategoriální nebo binární údaje index přiřazuje skóre 1 přesně si odpovídajícím kategoriím a 0 v ostatních případech; u pořadových stupnic přiřazuje skóre rovné 1 minus rozdíl v pořadí děleno počtem přípustných pořadí a pro údaje intervalové nebo poměrné stupnice přiřazuje skóre rovné 1 minus absolutní rozdíl dělený pozorovaným rozpětím všech hodnot. Tato skóre, která jsou všechna nutně od 0 do 1, jsou sečtena a součet vydělen počtem použitých proměnných. Může se použít též vážená varianta.
Kombinovaná výkonnostní skóre se mohou spojovat se souhrnným posouzením výkonnosti. Například, konkrétní (obvykle vysoký) podíl úspěšných skóre se může považovat za „přijatelnou“ výkonnost, pokud to odpovídá cílům daného programu zkoušení způsobilosti.
11.4.5 Grafické metody se mohou používat k poskytování informací o výkonnosti účastníkům nebo mohou sloužit jako souhrnné informace ve zprávě z cyklu programu zkoušení způsobilosti.
POZNÁMKA Příklad analýzy pořadových údajů poskytuje Příloha E.15.
Příloha A (normativní)
Značky
Rozdíl mezi naměřenou hodnotou u položky zkoušky způsobilosti a vztažnou hodnotou CRM
Průměr rozdílů naměřených hodnot vůči vztažné hodnotě CRM
Rozdíl účastníka vůči vztažné hodnotě (
)
Rozdíl účastníka vůči vztažné hodnotě vyjádřený jako procento
Kritérium maximální dovolené chyby pro rozdíly
Chyba v důsledku rozdílů mezi položkami zkoušky způsobilosti
Chyba v důsledku nestability v průběhu doby zkoušení způsobilosti
Chyba v důsledku nestability za podmínek přepravy
Skóre „normalizované chyby“, které zahrnuje nejistoty výsledku účastníka a vztažné hodnoty
Počet položek zkoušky způsobilosti testovaných při kontrole homogenity
Počet opakovaných měření u položky zkoušky způsobilosti
Počet účastníků zapojených do daného cyklu programu zkoušení způsobilosti
Podíl dovolené chyby (
), může být vyjádřen jako procento
Odhad směrodatné odchylky opakovatelnosti
Odhad směrodatné odchylky reprodukovatelnosti
Odhad směrodatné odchylky mezi vzorky
Robustní odhad směrodatné odchylky účastníka
Směrodatná odchylka průměrů vzorků
Směrodatná odchylka v rámci vzorku nebo laboratoře
Směrodatná odchylka šíře pásu používaná u grafů jádrové hustoty
Směrodatná odchylka mezi laboratořemi (mezi účastníky)
Směrodatná odchylka pro posuzování způsobilosti
Směrodatná odchylka opakovatelnosti
Směrodatná odchylka reprodukovatelnosti
Standardní nejistota rozdílu mezi nezávislou referenční hodnotou nebo robustním průměrem a vztažnou hodnotou
Rozšířená nejistota rozdílu mezi nezávislou referenční hodnotou nebo robustním průměrem a vztažnou hodnotou
Standardní nejistota v důsledku rozdílů mezi položkami zkoušky způsobilosti („nehomogenita”)
Horní mez pro standardní nejistotu při screeningu nejistoty měření hlášené účastníky
Dolní mez pro standardní nejistotu při screeningu nejistoty měření hlášené účastníky
Standardní nejistota v důsledku nestability v průběhu doby zkoušení způsobilosti
Standardní nejistota v důsledku nestability za podmínek přepravy
Standardní nejistota výsledku i-tého účastníka
Standardní nejistota vztažné hodnoty
Standardní nejistota referenční hodnoty
Rozšířená nejistota výsledku i-tého účastníka
Rozšířená nejistota vztažné hodnoty
Rozšířená nejistota referenční hodnoty
Rozpětí mezi zkoušenými vzorky
Robustní odhad opakovatelnosti účastníka
Výsledek měření (generický)
Hodnota vlastnosti získaná při stanovení vztažné hodnoty
Certifikovaná hodnota vlastnosti u certifikovaného referenčního materiálu
Rozdíl mezi nezávislou referenční hodnotou nebo robustním průměrem a vztažnou hodnotou
Výsledek měření i-tého účastníka
Vztažná hodnota
Referenční hodnota pro daný účel
Robustní odhad střední hodnoty účastníků
Aritmetický průměr souboru výsledků
Skóre používané při posuzování způsobilosti
Modifikované z skóre zahrnující nejistotu vztažné hodnoty
Zeta skóre – modifikované z skóre zahrnující nejistotu výsledku účastníka i vztažné hodnoty
POZNÁMKA Odkazy na výpočet parametrů jako střední hodnota, směrodatná odchylka, atd. se v tomto dokumentu chápou jako výběrové odhady příslušných populačních parametrů. Pro zachování stručnosti jsou slova jako „odhad“ nebo „odhadnutý“ vynechána.
Příloha B (informativní)
Homogenita a stabilita položek zkoušky způsobilosti
B.1 Obecný postup při kontrole homogenity
B.1.1 Při posuzování homogenity výchozí přípravy položek zkoušky způsobilosti se dodržuje následující postup:
Zvolí se vlastnost (vlastnosti) nebo měřená veličina (veličiny), které budou předmětem kontroly homogenity.
Vybere se laboratoř, která provede kontrolu homogenity a metoda měření, která se bude používat. Metoda má vykazovat dostatečně malou směrodatnou odchylku opakovatelnosti (sr), aby bylo možno detekovat jakoukoli významnou nehomogenitu. Poměr směrodatné odchylky opakovatelnosti metody a směrodatné odchylky pro posuzování způsobilosti má být méně než 0,5, jak doporučuje IUPAC Harmonized Protocol (nebo 1/6 z δE). Je zřejmé, že toto není vždy možné, a v takovém případě poskytovatel zkoušení způsobilosti má používat vyšší počet opakovaných měření.
Připraví a zabalí se položky zkoušky způsobilosti pro cyklus programu zkoušení způsobilosti. Při tom se zajistí, aby bylo dostatek položek zkoušky způsobilosti pro všechny účastníky programu zkoušení způsobilosti a pro kontrolu homogenity.
Vybere se určitý počet položek zkoušky způsobilosti g ve formě jejich finálního balení za použití procesu náhodného výběru, kde g ≥ 10. Počet položek zkoušky způsobilosti zahrnutých do kontroly homogenity se může snížit, pokud jsou k dispozici vhodné údaje z příslušných kontrol homogenity u podobných položek zkoušky způsobilosti, připravovaných stejnými postupy.
Připraví se m ≥ 2 zkoušených vzorků z každé položky zkoušky způsobilosti za použití takových technik, které jsou vhodné pro danou položku a minimalizují rozdíly mezi připravovanými zkoušenými vzorky.
V náhodném pořadí se vezme g x m zkoušených vzorků, pro každý se získá výsledek měření v takové sérii měření, která bude celá uskutečněna za podmínek opakovatelnosti.
Vypočítá se celkový průměr
B.1.2 Když není možné provádět opakovaná měření, například u destruktivních zkoušek, může se místo ss použít směrodatná odchylka výsledků. Za této situace je důležité mít metodu s dostatečně nízkou směrodatnou odchylkou opakovatelnosti sr.
B.2 Kritéria pro posuzování kontrol homogenity
B.2.1 Pro zajištění toho, že údaje ze zkoušek homogenity jsou pro další analýzu platné, se mají použít následující tři prověření:
a) Prozkoumají se výsledky každého zkoušeného podílu, aby se ověřilo, zda výsledky měření nevykazují trend (nebo drift) při analýze; pokud se projeví trend, přijmou se u měřicí metody příslušná opravná opatření, nebo se postupuje při intepretaci takových výsledků s opatrností.
b) Prozkoumají se průměry výsledků položky zkoušky způsobilosti v pořadí, v jakém byly připravovány; pokud je zde podstatný trend, který způsobuje, že položka zkoušky způsobilosti překračuje kritérium z B.2.2 nebo jinak to zabraňuje použití této položky, pak
1) buď se přiřadí individuální hodnoty každé z položek zkoušky způsobilosti, nebo
2) se vyřadí podskupina položek zkoušky způsobilosti, které jsou závažně zasaženy a znovu se otestuje zbytek na přiměřenou homogenitu, nebo
3) jestliže se trend projevil u všech položek zkoušky způsobilosti, použije se ustanovení z B.2.4.
c) Porovnají se rozdíly mezi replikáty (nebo rozpětí, pokud se jedná o více než 2 replikáty) a pokud je to nutné, použije se Cochranův test (viz ISO 5725-2) na otestování statisticky významného rozdílu mezi replikáty. Jestliže je rozdíl pro každý pár velký, přezkoumají se technické důvody pro takový rozdíl a jestliže je to vhodné, odstraní se odlehlá skupina z analýzy nebo je-li m > 2 a velká variabilita je způsobena jediným odlehlým výsledkem, odstraní se tento odlehlý bod.
Je-li m > 2 a odstraní-li se jedno pozorování, následný výpočet sw a ss musí brát vzniklou nevyváženost na zřetel.
B.2.2 Porovná se směrodatná odchylka mezi vzorky ss, se směrodatnou odchylkou pro posuzování způsobilosti σpt. Dané položky zkoušky způsobilosti lze považovat za dostatečně homogenní pokud:
POZNÁMKA 1 Odůvodnění faktoru 0,3 spočívá v tom, že pokud je toto kritérium splněno, přispívá směrodatná odchylka mezi vzorky méně než 10 % k variabilitě při vyhodnocování výkonnosti, takže je nepravděpodobné, že bude mít na vyhodnocení výkonnosti vliv.
POZNÁMKA 2 Stejným způsobem je možno porovnat ss s δE:
B.2.3 Může být výhodné kritérium rozšířit, aby bralo v úvahu reálnou chybu vzorkování a opakovatelnost při kontrole homogenity. V těchto případech se postupuje v následujících krocích:
a) Vypočte se
b) Vypočte se
sw
je směrodatná odchylka v rámci vzorku vypočtená podle B.3;
F1 a F2
jsou hodnoty ze standardních statistických tabulek převzaté do tabulky B.1 pro zvolený počet položek zkoušky způsobilosti a duplikátní testování každé položky [32].
Tabulka B.1 – Faktory F1 a F2 používané pro testování postačující homogenity
g
20
19
18
17
16
15
14
13
12
11
10
9
8
7
F1
1,59
1,60
1,62
1,64
1,67
1,69
1,72
1,75
1,79
1,83
1,88
1,94
2,01
2,10
F2
0,57
0,59
0,62
0,64
0,68
0,71
0,75
0,80
0,86
0,93
1,01
1,11
1,25
1,43
Je-li m > 2, je nutno místo hodnoty F2 ve vztahu v b) v B.2.3 a v tabulce B.1 použít hodnotu
POZNÁMKA Dvě konstanty uvedené v tabulce B.1 jsou odvozeny ze standardních statistických tabulek následujícím způsobem:
c) Je-li
B.2.4 Jestliže σpt není známo předem, například když se σpt odhaduje z výsledků účastníků robustním odhadem, má poskytovatel zkoušení způsobilosti zvolit jiná kritéria pro stanovení postačující homogenity. Takové postupy mohou zahrnovat:
a) kontrolu statisticky významných rozdílů mezi položkami zkoušky způsobilosti například použitím F-testu v analýze rozptylu pro α = 0,05;
b) využití informací z předchozích cyklů programů zkoušení způsobilosti pro odhad σpt;
c) využití údajů z experimentů preciznosti (jako je směrodatná odchylka reprodukovatelnosti, jak je popsáno v ISO 5725-2);
d) přijetí rizika rozesílání položek zkoušky způsobilosti, které nebudou dostatečně homogenní a kontrolu splnění kritéria po tom, co se vypočte konsenzuální σpt.
B.2.5 Jestliže nejsou splněna kritéria pro postačující homogenitu, musí poskytovatel zkoušení způsobilosti přijmout jedno z následujících opatření.
a) Zahrnout směrodatnou odchylku mezi vzorky do směrodatné odchylky pro posuzování způsobilosti, výpočtem σ’pt podle vzorce (B.3). Poznamenejme, že toto musí být popsáno v plné míře účastníkům.
b) Zahrnout ss do nejistoty vztažné hodnoty a používat z' nebo δE’ pro posuzované výkonnosti (viz 9.5).
c) Když σpt představuje robustní směrodatnou odchylku z výsledků účastníků, pak nehomogenita mezi jednotlivými položkami zkoušky způsobilosti je již zahrnuta v σpt, a tak kritérium pro přijatelnost homogenity může být s opatrností zmírněno.
Pokud nelze použít žádné z a) až c), vyřadí se daná položka zkoušky způsobilosti a zopakuje se příprava po odstranění příčin nehomogenity.
B.3 Vzorce pro kontrolu homogenity
Odhad směrodatné odchylky v rámci vzorku sw a směrodatné odchylky mezi vzorky ss lze vypočítat pomocí analýzy rozptylu, jak je ukázáno níže. Metoda je uvedena pro zvolený počet položek zkoušky způsobilosti g, měřených opakovaně m-krát.
Údaje z kontroly homogenity jsou označovány xt,k
kde
t
představuje položku zkoušky způsobilosti (t = 1, 2, ......, g)
k
představuje zkoušený vzorek (k = 1, 2, ......, m)
Definuje se průměr pro položku zkoušky způsobilosti jako:
a odhad rozptylu mezi zkoušenými vzorky jako:
Vypočte se souhrnný průměr:
odhad rozptylu průměrů vzorků:
a rozptyl v rámci vzorků:
Z hodnot ss a sw se odhadne se kombinovaný rozptyl
Nakonec se odhadne rozptyl mezi vzorky jako
POZNÁMKA V případě, že vyjde
U obvyklého návrhu experimentů, kde m je 2, se mohou použít následující vzorce.
Definuje se průměr vzorků jako:
a rozpětí mezi zkoušenými vzorky jako:
Vypočte se souhrnný průměr:
Odhadne se směrodatná odchylka průměrů vzorků:
a směrodatná odchylka v rámci vzorků
kde sumace ve vzorcích B.13, B.14 a B.15 jsou přes vzorky (t = 1, 2, ....., g).
Nakonec se odhadne směrodatná odchylka mezi vzorky jako:
POZNÁMKA 1 Odhad rozptylu mezi vzorky ss2 často vychází záporný, když
POZNÁMKA 2 Namísto použití rozpětí se mohou použít směrodatné odchylky jako
POZNÁMKA 3 Příklad je uveden v Příloze E.2.
B.4 Postupy pro ověřování stability
B.4.1 Obecné úvahy pro ověřování stability
B.4.1.1 Tyto odstavce poskytují pokyny ke splnění požadavků na stabilitu uvedených v oddíle 6.1. Na jakékoliv ověření stability ve vztahu ke studovaným vlastnostem se během trvání cyklu programu zkoušení způsobilosti a během přepravy vztahují ustanovení oddílu 6.1.3.
B.4.1.2 Tam, kde existuje důvěryhodná záruka z předchozích experimentálních studií, zkušeností nebo předchozích poznatků, že nestabilita není pravděpodobná, může se experimentální ověřování stability omezit na kontrolu významných změn v průběhu cyklu programu zkoušení způsobilosti prováděných během a po skončení daného cyklu. Za jiných okolností mohou studie vlivu přepravy a stability po typickou dobu trvání cyklu zkoušení způsobilosti představovat formu plánované studie před distribucí položek zkoušky způsobilosti, buď pro každý cyklus, nebo během prvotních plánovacích studií a studií proveditelnosti pro stanovení odpovídajících podmínek přepravy a skladování. Poskytovatelé zkoušení způsobilosti mohou též hledat příznaky nestability pomocí kontroly uváděných výsledků na trendy v závislosti na datu měření.
B.4.1.3 Na ověřování stability se vztahují následující pokyny:
Mají se kontrolovat nebo jinak ověřit na stabilitu všechny vlastnosti, které se používají v daném programu zkoušení způsobilosti. Toho lze dosáhnout s využitím předchozích zkušeností a odborných důvodů vycházejících ze znalostí matrice (nebo artefaktu) a měřené veličiny.
Je-li variabilita mezi položkami zkoušky způsobilosti vysoká, mají se zkoušet více než dvě položky zkoušky způsobilosti, v případě že opakovatelnost je pochybná (například jestliže sw nebo sr > 0,5 σpt) má se použít více položek zkoušení způsobilosti a více replikátů.
POZNÁMKA Pokyn ISO 35 uvádí strategie pro minimalizaci vlivu dlouhodobé variability měřicího procesu na studie stability, jako jsou isochronní studie nebo použití stabilních referenčních materiálů.
B.4.2 Postupy při ověřování stability v průběhu cyklu programu zkoušení způsobilosti
B.4.2.1 Vhodný model pro testování stability při zkoušení způsobilosti představuje testování malého vzorku položek zkoušky způsobilosti na závěr cyklu zkoušení způsobilosti a jejich porovnání s položkami zkoušky způsobilosti testovanými před zahájením cyklu s cílem se ujistit, zda nedošlo k nějakým změnám za dobu trvání cyklu. Taková kontrola může zahrnovat kontrolu jakéhokoli vlivu podmínek přepravy tím, že položky zkoušení způsobilosti uchovávané po dobu trvání studie budou dodatečně vystaveny podmínkám představujícím podmínky přepravy. U studií zaměřených výlučně na kontrolu vlivu přepravy jsou porovnávány položky, které jsou zasílané s těmi, které jsou uchovávány za kontrolovaných podmínek.
POZNÁMKA 1 Poskytovatelé zkoušení způsobilosti mohou používat výsledky testování homogenity prováděné před daným cyklem programu zkoušení způsobilosti namísto výběru a měření separátního souboru položek zkoušky způsobilosti.
POZNÁMKA 2 Tento model se vztahuje jak na programy zkoušení způsobilosti pro zkoušení, tak i pro kalibraci.
B.4.2.2 Jestliže poskytovatel zkoušení způsobilosti zařadí zaslané položky do hodnocení stability podle B.4.2.1, jsou vlivy přepravy zahrnuty do posuzování stability. Pokud jsou vlivy přepravy kontrolovány separátně, má se použít postup popsaný v oddíle B.6.
B.4.2.3 Postup pro základní ověřování stability na základě měření před cyklem a po cyklu programu zkoušení způsobilosti je následující:
a) Vyberou se náhodně položky zkoušky způsobilosti v počtu 2g, kde g ≥ 2.
b) Zvolí se jedna laboratoř používající jedinou měřicí metodu s dostatečně malou mezilehlou precizností.
c) Změří se g položek zkoušky způsobilosti před plánovaným datem distribuce položek zkoušky způsobilosti účastníkům. Opakovaná měření se mají provést ve zcela náhodném pořadí.
d) Ponechá se zbylých g položek zkoušky způsobilosti v podmínkách, které se podobají očekávaným podmínkám skladování v zařízeních zákazníka.
e) Co nejdříve po závěrečném termínu pro zaslání výsledků od účastníků, změří se zbylých g položek zkoušky způsobilosti, s využitím stejné laboratoře, metody měření a počtu replikátů jako v a) výše, se všemi replikáty zařazovanými v náhodném pořadí.
f) Vypočítají se průměry
B.4.2.4 Mohou se použít následující varianty postupu podle B.4.2.3:
a) První skupinu položek zkoušky způsobilosti v počtu g lze vynechat, jsou-li k dispozici jiná měření souboru položek zkoušky způsobilosti ze stejné laboratoře a stejnou metodou. Například lze použít data z předchozí kontroly homogenity.
b) Mohou se použít podmínky, které povedou k uspíšení změn, aby se získala větší jistota o stabilitě.
c) Druhá skupina položek zkoušky způsobilosti se může dodatečně vystavit podmínkám očekávaným při zasílání, aby se i tyto vlivy začlenily do testování.
d) Může se použít jakýkoli další návrh experimentů a podmínky, které spolu se zvoleným kritériem kontroly stability, přinesou rovnocennou nebo vyšší záruku stability.
POZNÁMKA Mohou být použity také postupy s pozorováními v pravidelných intervalech od začátku do konce cyklu programu zkoušení způsobilosti. Tyto postupy mohou být výhodné, pokud kolísání měřicího systému v čase je tak velké, že znemožní posouzení popsané v B.5.
B.5 Kritérium posuzování při ověřování stability
B.5.1 Porovná se celkový průměr měření získaný při kontrole před distribucí s celkovým průměrem výsledků získaných při ověřování stability. Položky zkoušky způsobilosti mohou být považovány za přiměřeně stabilní, pokud:
B.5.2 Pokud je pravděpodobné, že mezilehlá preciznost měřicí metody (nebo nejistota měření dané položky)
přispěla k neschopnosti vyhovět tomuto kritériu, má se přijmout jedno z následujících opatření:
a) použít isochronní studii stability (viz Pokyn ISO 35);
b) zvýšit nejistotu vztažné hodnoty, aby započítala případnou nestabilitu;
c) rozšířit kritérium pro přijatelnost přidáním nejistoty rozdílu k σpt použitím následujícího vzorce:
POZNÁMKA 1 Koeficient 2 v rovnici (B.18) představuje koeficient rozšíření pro rozšířenou nejistotu rozdílu, poskytující zhruba 95 % spolehlivost. Výpočet kombinované nejistoty záměrně předpokládá, že
POZNÁMKA 2 Nejistoty
B.5.3 Jestliže není možné vyhovět kritériu ze vzorce (B.17) nebo (B.18), mají se zvážit následující možnosti:
– kvantifikovat vliv nestability a brát jej v úvahu při hodnocení (například pomocí z' skóre); nebo
– přezkoumat přípravu položky zkoušky způsobilosti a skladovací postupy s cílem možného vylepšení; nebo
– nevyhodnocovat vůbec výkonnost účastníků.
B.5.4 Kritérium z rovnic (B.17) nebo (B.18) je možno nahradit vhodným statistickým testem pro odlišnost mezi dvěma soubory dat za podmínky, že takový test bude brát v úvahu opakovaná stanovení a zabezpečí identifikaci stability přinejmenším na stejné úrovni, jako to zajišťuje vzorec (B.18).
POZNÁMKA t-test na významný rozdíl na 95% konfidenční úrovni, používající průměry pro každou z položek zkoušky způsobilosti, bude obvykle poskytovat podobnou nebo lepší záruku detekce nestability než vzorec (B.18), za předpokladu, že počet testovaných jednotek bude 3 nebo více.
B.6 Stabilita za podmínek přepravy
B.6.1 Poskytovatel zkoušení způsobilosti má kontrolovat vlivy přepravy na položky zkoušení způsobilosti alespoň v raných fázích programu zkoušení způsobilosti. Taková kontrola má, tam kde je to možné, porovnávat položky zkoušky způsobilosti uchovávané v prostorách poskytovatele zkoušení způsobilosti s položkami, které byly vystaveny odeslání a návratu. Mohou se též používat studie vycházející například z vystavení položek přiměřeně předvídatelným podmínkám při přepravě.
B.6.2 Při vyhodnocování výkonnosti se mají zvažovat všechny známé vlivy spojené s přepravou. Jakékoli významné zvýšení nejistoty vlivem přepravy se má začlenit do nejistoty vztažné hodnoty.
B.6.3 Tam, kde kontrola při přepravě zahrnuje porovnání výsledků dvou skupin položek zkoušky způsobilosti, jedné skupiny vystavené podmínkám při přepravě a druhé nikoliv, kritérium pro postačující stabilitu při přepravě je stejné jako v oddílech B.5.1 nebo B.5.2.
POZNÁMKA 1 Pokud se vztažná hodnota a směrodatná odchylka pro posuzování způsobilosti určují z výsledků účastníků (např. robustními metodami), pak průměr a směrodatná odchylka pro posuzování způsobilosti budou odrážet jakékoliv vychýlení a zvýšenou variabilitu zapříčiněné podmínkami při přepravě.
POZNÁMKA 2 Příklad kontroly stability je uveden v Příloze E.2.
Příloha C (informativní)
Robustní analýza
C.1 Obecně
Mezilaboratorní porovnávání představují unikátní výzvy pro analýzu dat. Zatímco většina mezilaboratorních porovnávání poskytuje jednovrcholová (unimodální) a přibližně symetrická data, většina souborů dat ze zkoušení způsobilosti obsahuje určitý podíl výsledků, které jsou neočekávaně vzdáleny od většiny z nich. K tomu dochází z mnoha důvodů; například od účastníků s menší zkušeností, od méně precizních nebo nových měřicích metod, nebo od účastníků, kteří nepochopili instrukce nebo kteří nezpracovali položky zkoušky způsobilosti správně. Takové odlehlé výsledky mohou být velmi proměnné a činí konvenční statistické techniky, včetně průměru a směrodatné odchylky, nespolehlivé.
Doporučuje se (viz 6.5.1), aby poskytovatelé zkoušení způsobilosti používali statistické techniky, které jsou robustní vůči odlehlým výsledkům. Statistická literatura obsahuje mnoho návrhů takových technik a mnohé z nich byly použity úspěšně pro zkoušení způsobilosti. Většina robustních technik navíc prokazuje odolnost vůči asymetrickému rozdělení odlehlých hodnot.
Tato příloha popisuje několik technik, které nacházejí použití u zkoušení způsobilosti a mají odlišné schopnosti, co se týká robustnosti vůči kontaminovanému základnímu souboru (vydatnost a bod selhání) a odlišují se v jednoduchosti aplikace. Jsou zde uvedeny podle složitosti (nejdříve nejjednodušší, nakonec nejsložitější), což je přibližně v opačném vztahu k vydatnosti, protože složitější odhady se vyvíjely kvůli zlepšení vydatnosti.
POZNÁMKA 1 Příloha D poskytuje další informace o vydatnosti, bodu selhání a citlivosti k vedlejším modům (vrcholům) – třem důležitým indikátorům výkonnosti různých robustních odhadů.
POZNÁMKA 2 Robustnost je vlastnost algoritmu odhadu, nikoliv odhadů, které poskytuje, a tak není striktně správné nazývat průměry a směrodatné odchylky vypočítané pomocí takového algoritmu jako „robustní“. Abychom se však vyhnuli použití příliš těžkopádné terminologie, chápe se v této mezinárodní normě „robustní průměr“ a „robustní směrodatná odchylka“ ve významu odhadů střední hodnoty základního souboru nebo směrodatné odchylky základního souboru, které byly vypočítány za použití robustního algoritmu.
C.2 Jednoduché robustní odhady střední hodnoty a směrodatné odchylky základního souboru
C.2.1 Medián
Medián je jednoduchý a vůči odlehlým hodnotám vysoce odolný odhad střední hodnoty základního souboru u symetrického rozdělení, označovaný med(x):
Označí se p položek dat, uspořádaných v rostoucím pořadí jako:
Vypočte se
C.2.2 Škálová mediánová absolutní odchylka MADe
Škálová mediánová absolutní odchylka MADe(x) poskytuje odhad směrodatné odchylky základního souboru pro data s normálním rozdělením a je vysoce odolná vůči odlehlým hodnotám. Pro výpočet MADe(x):
Vypočítají se absolutní rozdíly di (pro i = 1 až p) pomocí:
Vypočte se MADe(x) pomocí
Pokud bude více než 50 % výsledků účastníků stejných, pak se bude MADe(x) rovnat nule, a bude nutné použít nIQR v oddíle C.2.3, vhodně stanovenou výběrovou směrodatnou odchylku (po vyloučení odlehlých hodnot) nebo postup popsaný v oddíle C.5.2.
C.2.3 Standardizované kvartilové rozpětí nIQR
Robustní odhad směrodatné odchylky podobný jako MADe(x), poněkud jednodušší při výpočtu, prokázal svou užitečnost u mnoha programů zkoušení způsobilosti a lze jej získat z rozdílu mezi mezi 75. a 25. percentilem (tedy mezi třetím a prvním kvartilem) výsledků účastníků.
kde
značí 25. percentil hodnot xi (i = 1, 2,…, p)
značí 75. percentil hodnot xi (i = 1, 2,…, p)
Pokud jsou 75. a 25. percentil stejné, bude nIQR roven nule (MADe(x) se bude rovněž rovnat nule) a pro výpočet robustní směrodatné odchylky se má použít alternativní postup jako aritmetická směrodatná odchylka (po vyloučení odlehlých hodnot) nebo postup popsaný v oddíle C.5.2.
POZNÁMKA 1 nIQR vyžaduje ve srovnání s MADe(x) pouze jediné seřazení dat, ale má bod selhání 25 % (viz příloha D), zatímco MADe(x) má bod selhání 50 %. MADe(x) může tedy tolerovat značně vyšší podíl odlehlých hodnot než nIQR.
POZNÁMKA 2 Oba odhady jak nIQR tak MADe(x) vykazují znatelné negativní vychýlení (bias) při p < 30 což může mít nepříznivý vliv na skóre, pokud se tyto odhady použijí při stanovení skóre účastníků.
POZNÁMKA 3 Různé softwarové nástroje mohou používat odlišné algoritmy pro výpočet kvartilů, a tudíž mohou poskytovat mírně se odlišující hodnoty nIQR.
POZNÁMKA 4 Příklad použití jednoduchých robustních odhadů je obsažen v Příloze E.3.
C.3 Robustní analýza – algoritmus A
C.3.1 Algoritmus A s iterovanou škálou
Tento algoritmus poskytuje robustní odhady střední hodnoty a směrodatné odchylky z dat, na které se použije.
Označí se p položek z údajů seřazených v rostoucím pořadí jako:
Označí se robustní průměr a robustní směrodatná odchylka těchto dat jako x* a s*.
Vypočtou se počáteční hodnoty pro x* a s* jako:
x* = med xi (i = 1, 2, .., p) (C.5)
s* = 1,483 med |xi – x* | pro (i = 1, 2, ..., p) (C.6)
POZNÁMKA 1 Algoritmy A a S, o nichž pojednává tato příloha, jsou převzaty z ISO 5725-5 s malým dodatkem k algoritmu A specifikujícím kritérium pro ukončení: žádná změna ve třetí platné číslici u robustního průměru a směrodatné odchylky.
POZNÁMKA 2 V některých případech bude více než polovina výsledků identická (například počet nití na jednotku délky tkaniny, nebo elektrolytů v séru). V takových případech bude počáteční hodnota s* nula a robustní procedura nebude probíhat správně. V případě, že počáteční s* = 0, je přijatelné provést náhradu výběrovou směrodatnou odchylkou, po zkontrolování, zda nejsou přítomny očividné odlehlé hodnoty, které by mohly způsobovat, že výběrová směrodatná odchylka by byla nepřiměřeně veliká. Toto nahrazení se provádí pouze u počáteční s*, aby iterativní algoritmus mohl pokračovat tak, jak je popsáno.
Hodnoty x* a s* se aktualizují následujícím způsobem. Vypočte se:
pro každou xi = (i = 1, 2, ..., p) se vypočte
Vypočtou se nové hodnoty x* a s* pomocí:
kde sumace je přes i.
Robustní odhady x* a s* se získají iterativně, tj. přepočítáním hodnot x* a s* několikrát, za použití vzorců C.7 až C.10, dokud proces nekonverguje. Konvergence znamená, že nejsou žádné změny mezi iteracemi ve třetí platné číslici u robustního průměru ani robustní směrodatné odchylky (x* a s*). Mohou se určit alternativní kritéria konvergence podle experimentálního návrhu a požadavků na uvádění výsledků zkoušky způsobilosti.
POZNÁMKA 3 Příklady použití algoritmu A s iterovanou směrodatnou odchylkou jsou uvedeny v Příloze E.1 a E.3.
C.3.2 Varianty algoritmu A
Algoritmus A s iterovanou škálou uvedený v oddíle C.3.1 vykazuje určitý bod selhání (přibližně 25 % pro velké soubory dat [25]) a výchozí bod pro s* navržený v C.3.1 pro datové soubory s MADe(x) rovnající se nule může výrazně snižovat odolnost vůči odlehlým hodnotám tam, kde je v datovém souboru významný výskyt odlehlých hodnot. Následující varianty se mají zvážit tam, kde podíl odlehlých hodnot v datovém souboru překračuje 20 % a kde počáteční hodnota s* je odlehlými hodnotami nepříznivě ovlivňována:
Je-li MADe = 0, nahradí se tento odhad odhadem
V případě, kdy se při vytváření skóre nepoužila robustní směrodatná odchylka, použije se MADe (pozměněné jako v předchozím bodě a)) a v průběhu iterací se s* již neaktualizuje. V případě, kdy se při vytváření skóre použila robustní směrodatná odchylka, se odhad s* nahradí odhadem Q popsaným v C.5 a v průběhu iterací se již neaktualizuje.
POZNÁMKA Varianta b) zlepšuje bod selhání algoritmu A na 50 % [25] a umožňuje, aby se algoritmus uměl vypořádat s vyšším podílem odlehlých hodnot.
C.4 Robustní analýza – algoritmus S
Tento algoritmus se používá pro směrodatné odchylky (nebo rozpětí), které se odhadují, když účastníci dodají m replikovaných výsledků měřené veličiny pro každou položku zkoušky způsobilosti, nebo ve studii s m identickými položkami zkoušky způsobilosti. Poskytuje robustní souhrnné odhady směrodatných odchylek nebo rozpětí, na které se použil.
Označí se p směrodatných odchylek nebo rozpětí uspořádaných v rostoucím pořadí jako:
Označí se robustní souhrnný odhad jako w*, a stupně volnosti spojené s každou wi jako ν. (Je-li wi rozpětím, pak ν = 1. Je-li w* směrodatnou odchylkou m zkušebních výsledků, je ν = m – 1.) Hodnoty ξ a η vyžadované algoritmem se získají z tabulky C.1
Vypočte se počáteční hodnota w* pomocí vztahu:
w* = med (wi)i; (i = 1, 2, ..., p) (C.11)
POZNÁMKA Pokud je více než polovina wi nulových, pak počáteční w* bude nula a robustní procedura nebude probíhat správně. Je-li počáteční w* rovno nule, nahradí se aritmetickou souhrnnou výběrovou směrodatnou odchylkou průměrů (nebo průměrným rozpětím) po vyloučení extrémních odlehlých hodnot, které mohou ovlivnit průměr. Tato náhrada platí pouze pro počáteční w*, pak se pokračuje v proceduře tak, jak je popsáno.
Hodnota w* se aktualizuje následovně. Vypočítá se:
ψ = η × w* (C.12)
pro každou wi (i = 1, 2, ..., p) se vypočítá:
Vypočte se nová hodnota w* pomocí vztahu:
Robustní odhad w* se vypočítá iterací, změnami hodnot w* několikrát, dokud proces nekonverguje. Konvergence znamená, že není žádná změna od jedné iterace k další na třetí platné číslici robustního odhadu.
POZNÁMKA Algoritmus S poskytuje odhad směrodatné odchylky základního souboru na základě směrodatných odchylek jediného normálního rozdělení (a tudíž poskytuje odhad směrodatné odchylky opakovatelnosti, když platí předpoklady ISO 5725-2).
Tabulka C.1 – Faktory vyžadované robustní analýzou: algoritmus S
Stupně volnosti
ν
Mezní faktor
η
Faktor přizpůsobení
ξ
1
1,645
1,097
2
1,517
1,054
3
1,444
1,039
4
1,395
1,032
5
1,359
1,027
6
1,332
1,024
7
1,310
1,021
8
1,292
1,019
9
1,277
1,018
10
1,264
1,017
POZNÁMKA Odvození hodnot ξ a η je v příloze B ISO 5725-5:1998.
C.5 Výpočetně intenzivní robustní odhady – metoda Q a Hampelův odhad
C.5.1 Důvody pro výpočetně intenzivní odhady
Robustní odhady střední hodnoty základního souboru a směrodatné odchylky popsané v oddíle C.2 jsou výhodné tam, kde jsou omezené prostředky pro výpočty, nebo když je potřeba poskytnout stručný a výstižný výklad statistických postupů. Takové postupy prokázaly svou užitečnost v řadě situací, včetně programů zkoušení způsobilosti v nových oblastech zkoušení a kalibrace a v odvětvích, kde se zkoušení způsobilosti dosud nepoužívalo. Tyto techniky se však mohou stát nespolehlivými, pokud více než 20 % výsledků jsou odlehlé hodnoty nebo pokud je rozdělení bimodální (vícemodální, vícevrcholové) a některé mají při menším počtu účastníků nepřijatelnou variabilitu. Dále žádná z nich nedokáže pracovat s opakovanými údaji účastníků. ISO/IEC 17043 vyžaduje, aby tyto situace byly předvídány v návrhu, nebo byly detekovány kvalifikovanou revizí prováděnou před hodnocením výkonnosti, ale existují situace, kde toto nemusí být možné.
Kromě toho, některé z robustních technik, popsaných v oddílech C.2 a C.3, postrádají statistickou vydatnost – pokud je počet účastníků menší než 50 a pro tvorbu skóre se používá robustní střední hodnota a/nebo směrodatná odchylka, existuje významné riziko, že účastníci budou chybně klasifikováni v důsledku použití neefektivních statistických metod.
Robustní techniky, které slučují dobrou vydatnost (tj. poměrně nízkou variabilitu) s tolerancí vůči vysokému podílu odlehlých hodnot bývají složitější a vyžadují více výpočetních prostředků, ale dostupná literatura a mezinárodní normy se na ně odvolávají. Některé z nich kromě toho dávají přesnější výsledky u dat pocházejících ze sešikmeného rozdělení, nebo když jsou výsledky uvedeny jako pod mezí detekce nebo pod mezí pro uvádění.
Následující odstavce popisují některé z metod s velkou vydatností a vysokým bodem selhání pro odhad směrodatné odchylky a polohy (střední hodnoty), které jsou vhodné pro data s velkým podílem odlehlých hodnot a které vykazují nižší variabilitu než jednoduché odhady. Jeden z popsaných odhadů se může též použít pro odhad směrodatné odchylky reprodukovatelnosti, když účastníci uvádějí vícenásobná pozorování.
C.5.2 Stanovení robustní směrodatné odchylky pomocí metod Q a Qn
C.5.2.1 Qn [34] je odhad s vysokým bodem selhání a vysokou vydatností pro směrodatnou odchylku základního souboru, který je nevychýlený pro data s normálním rozdělením (tj. za předpokladu neexistence odlehlých hodnot). Qn využívá jediný uváděný výsledek (včetně průměru nebo mediánu replikátů) u každého z účastníků. Výpočet vychází z použití párových diferencí v datovém souboru, a tudíž nezávisí na odhadu střední hodnoty nebo mediánu z dat. Zde popisované provedení zahrnuje korekce zajišťující, že odhad bude nevychýlený pro všechny velikosti souborů dat, které se v praktických situacích vyskytnou.
Pro výpočet Qn u datového souboru (x1, x2, …, xp) s p uváděnými výsledky:
a) Vypočte se p(p – 1)/2 absolutních rozdílů
b) Označí se seřazené rozdíly dij jako
c) Vypočte se
kde k je počet odlišných párů vybraných z h objektů, kde
d) Vypočte se Qn jako
kde bp se zvolí podle tabulky C.2 pro konkrétní počet p datových bodů nebo pro p > 12 se vypočítá pomocí vztahu
kde
POZNÁMKA 1 Faktor 2,2219 je korekční faktor poskytující nevychýlený odhad směrodatné odchylky pro velké p. Korekční faktory bp pro malé p udává tabulka C.2 a výpočet rp pro p > 12 se provádí podle odkazu [34] z rozsáhlých simulací a následné regresní analýzy.
POZNÁMKA 2 Jednoduchý algoritmus popsaný výše vyžaduje značné prostředky pro výpočet u větších datových souborů, například pro p > 1 000. Rychlé a paměťově efektivní provedení schopné zpracovávat mnohem větší datové soubory bylo publikováno včetně úplného počítačového kódu [42] pro použití u velkých datových souborů; odkaz [42] uvádí přijatelnou výkonnost metody i pro p přesahující 8 000 v době uveřejnění práce.
Tabulka C.2 – Korekční faktor bp pro 2 ≤ p ≤ 12
p
2
3
4
5
6
7
8
9
10
11
12
bp
0,399 4
0,993 7
0,513 2
0,844 0
0,612 2
0,858 8
0,669 9
0,873 4
0,720 1
0,889 1
0,757 4
C.5.2.2 Metoda Q poskytuje vysoký bod selhání a velmi vydatný odhad směrodatné odchylky u výsledků zkoušení způsobilosti uváděných různými laboratořemi. Metoda Q není robustní pouze vůči odlehlým výsledkům, ale též vůči situacím, kdy mnoho zkušebních výsledků je shodných, např. v důsledku kvantitativních údajů na diskontinuální škále nebo v důsledku úprav při zaokrouhlování. V takové situaci jiné metody podobné Q metodě mohou selhávat, protože mnohé párové rozdíly jsou nulové.
Metodu Q lze použít u zkoušení způsobilosti jak s jediným výsledkem u každého účastníka (včetně průměru nebo mediánu replikací) tak i pro replikáty. Přímé použití replikátů při výpočtu zlepšuje efektivnost metody.
Výpočet vychází z použití párové diference v datových souborech a není tedy závislý na odhadu průměru nebo mediánu z dat. Metoda se nazývá Q/Hampelova, je-li použit algoritmus pro Hampelův odhad s konečným krokem popsaný v C.5.3.3.
Uváděné výsledky měření, seskupené podle laboratoří, se označí jako:
Vypočte se kumulativní distribuční funkce všech absolutních diferencí mezi laboratořemi
kde
Body diskontinuity funkce H1(x) se označí jako:
Pro všechny kladné body diskontinuity
a položí se
G1(0) = 0
Vypočte se funkce G1(x) pro všechna x mimo interval [0, xr] lineární interpolací mezi body diskontinuity
Vypočte se robustní směrodatná odchylka s* zkušebních výsledků z různých laboratoří
kde H1(0) se vypočítá podle vzorce (C.23) a je rovno nule, pokud neexistují jasné vazby v datovém souboru, a kde Φ –1(q) je q-kvantil normovaného normálního rozdělení.
POZNÁMKA 1 Tento algoritmus nezávisí na střední hodnotě; může se používat jak s hodnotou ze sloučených výsledků účastníků nebo se specifikovanou referenční hodnotou.
POZNÁMKA 2 Další varianty Q metody poskytují robustní odhady jak směrodatné odchylky opakovatelnosti, tak směrodatné odchylky reprodukovatelnosti [25], [34].
POZNÁMKA 3 Teoretický základ Q metody, včetně asymptotické výkonnosti a konečného bodu selhání, popisují odkazy [26] a [34].
POZNÁMKA 4 Jestliže výchozí data účastníků představují jednotlivé výsledky měření získané pomocí jedné metody měření, je tato robustní směrodatná odchylka odhadem směrodatné odchylky reprodukovatelnosti podle vzorce (C.21).
POZNÁMKA 5 Směrodatná odchylka reprodukovatelnosti není nutně nejvhodnější směrodatnou odchylkou pro použití ve zkoušení způsobilosti, protože je obvykle odhadem variability jednotlivých výsledků, a ne odhadem variability průměrů nebo mediánů opakovaných výsledků jednotlivých účastníků. Avšak variabilita průměrů nebo mediánů opakovaných výsledků je pouze mírně nižší než variabilita jednotlivých výsledků z jednotlivých laboratoří, je-li poměr směrodatné odchylky reprodukovatelnosti k směrodatné odchylce opakovatelnosti vyšší než 2. Pokud je tento poměr nižší než 2, může být užitečné pro tvorbu skóre zkoušení způsobilosti nahradit směrodatnou odchylku reprodukovatelnosti sR korigovanou hodnotou
POZNÁMKA 6 Poznámka 5 se používá pouze v případě, kdy se tvorba skóre provádí na základě průměrů nebo mediánů opakovaných výsledků. Jestliže replikáty představují „slepé“ opakované položky zkoušky způsobilosti, předpokládá se, že skóre se uvedou pro každý replikát. V tomto případě je nejvhodnější směrodatnou odchylkou směrodatná odchylka reprodukovatelnosti.
POZNÁMKA 7 Příklad, ve kterém byla použita Q metoda, je uveden v Příloze E.3.
C.5.3 Stanovení robustní střední hodnoty Hampelovým odhadem
C.5.3.1 Hampelův odhad je vysoce robustní vydatný odhad celkové střední hodnoty výsledků uváděných jednotlivými laboratořemi. Jelikož neexistuje jednoznačný vzorec pro získání Hampelova odhadu, budou v tomto odstavci uvedeny dva algoritmy. První lze snadněji implementovat, ale může vést k odchylným výsledkům při různých implementacích. Druhý poskytuje jednoznačné výsledky závisející pouze na výchozí směrodatné odchylce.
C.5.3.2 Následující výpočet poskytuje iterativní váženou metodu pro získání Hampelova odhadu polohy.
a) Data se označí jako
b) Nastaví se x* na med(x) (viz C.2.1).
c) Nastaví se s* na vhodný robustní odhad směrodatné odchylky, například MADe, Qn, nebo s* z Q metody.
d) Pro každý datový bod xi, se vypočte qi podle vzorce (C.26):
e) Vypočítají se váhy wi pomocí vzorce (C.27)
f) Vypočítá se x* podle vzorce (C.28)
g) Kroky d) až f) se opakují, dokud x* nedosáhne konvergence. Konvergence znamená, že změna v x* od jedné iterace k další bude menší než
Tato implementace Hampelova odhadu nezaručuje, že se získá jednoznačný výsledek, ani že výsledek bude nejlepší možný, protože špatná volba umístění počátečních hodnot x* a/nebo s* může vyloučit důležité části datového souboru. V souladu s tím má poskytovatel zkoušení způsobilosti přijmout opatření, která prověří, zda nebylo zvoleno špatné řešení nebo poskytnout jednoznačná pravidla pro umístění počátečních hodnot. Nejběžnějším pravidlem je zvolit řešení co nejblíže mediánu. Přezkoumání výsledků, aby se zajistilo, že žádný velký podíl datového souboru se nenachází mimo rozsah |g| > 4.5 může také potvrdit vhodnost zvoleného řešení.
POZNÁMKA 1 Tato implementace Hampelova odhadu má přibližně 96% vydatnost u dat s normálním rozdělením.
POZNÁMKA 2 Příklad používající toto provedení uvádí Příloha E.3.
POZNÁMKA 3 Hampelův odhad může být doladěn k vyšší vydatnosti nebo větší odolnosti vůči odlehlým hodnotám změnou váhové funkce. Obecná podoba této váhové funkce je
kde a, b a c jsou ladicí parametry. Pro provedení použité zde, a = 1,5, b = 3,0 a c = 4,5. Zvětšením rozsahu se dosáhne vyšší vydatnosti, zmenšením rozsahu se dosáhne lepší odolnosti vůči odlehlým hodnotám nebo malým maximům hustoty.
C.5.3.3 Následující algoritmus s konečným krokem poskytuje Hampelův odhad polohy bez iterativního vážení [25].
Vypočtou se aritmetické průměry pro každou laboratoř, nyní označené
Vypočte se robustní střední hodnota x* řešením rovnice (C.29):
kde
a s* je robustní směrodatná odchylka stanovená Q metodou.
Exaktní řešení lze získat v konečném počtu kroků, tedy bez iterací, s využitím vlastnosti, že ψ jako funkce x* je po částech lineární. Interpolační uzly na levé straně rovnice (C.29) (interpretované zde jako funkce x*) jsou pak následující:
Vypočítají se všechny interpolační uzly
– pro první hodnotu y1:
– pro druhou hodnotu y2:
– a tak dále pro další hodnoty y3, ..., yp.
Tato data
Pak se vypočítá pro každé
a zkontroluje se zda:
a) pm = 0. Pokud je tomu tak, je řešením rovnice (C.29) d{m}.
b) pm+1 = 0. Pokud je tomu tak, je řešením rovnice (C.29) d{m+1}.
c)
Nechť S značí soubor všech těchto řešení rovnice (C.29)
Řešení je pak
Může existovat několik řešení. Pokud vyjdou dvě řešení nejblíže mediánu, nebo pokud není vůbec žádné řešení, použije se samotný medián jako parametr polohy x*.
POZNÁMKA 1 Toto provedení pro Hampelův odhad vykazuje přibližně 96% vydatnost pro údaje s normálním rozdělením.
POZNÁMKA 2 Pokud se použije tato metoda odhadu, výsledky laboratoří, které se odlišují od střední hodnoty o více než 4,5násobek směrodatné odchylky reprodukovatelnosti, nemají žádný vliv na vypočítaný výsledek, tedy jsou považovány za odlehlé hodnoty.
C.5.4 Q/Hampelova metoda
Metoda známá jako Q/Hampelova používá Q metodu popsanou v C.5.3.2 pro výpočet robustní směrodatné odchylky s* spolu s algoritmem s konečným krokem pro Hampelův odhad popsaný v C.5.3.3 pro odhad parametru polohy x*.
Jestliže účastníci uvádějí vícenásobná pozorování, Q metoda popsaná v C.5.3.2 se používá pro výpočet robustní směrodatné odchylky reprodukovatelnosti sR. Pro výpočet robustní směrodatné odchylky opakovatelnosti sr se používá druhý algoritmus používající párové diference v rámci laboratoří.
POZNÁMKA Je k dispozici webová aplikace této Q/Hampelovy metody [37].
C.6 Další robustní metody
Metody popsané v této příloze nepředstavují vyčerpávající sbírku platných přístupů, a žádný z nich nemůže zaručovat, že je optimální ve všech situacích. Mohou se používat další robustní odhady dle uvážení poskytovatele zkoušení způsobilosti, pokud prokáže, odkazem na známou účinnost, bod selhání a jiné vhodné vlastnosti, že splňují konkrétní požadavky programu zkoušení způsobilosti.
Příloha D (informativní)
Dodatečné pokyny pro statistické postupy
D.1 Postupy při malém počtu účastníků
D.1.1 Obecné úvahy
Mnoha programů zkoušení způsobilosti se účastní málo účastníků, nebo programy mají k dispozici porovnávací skupiny s malým počtem zúčastněných, i když je v programu zkoušení způsobilosti zapojený velký počet účastníků. To se může často stát, jsou-li účastníci seskupování a vyhodnocování podle metod, jak se to běžně provádí například při zkoušení způsobilosti zdravotnických laboratoří.
Tam, kde je počet účastníků malý, vztažná hodnota se má v ideálním případě určit metrologicky platným postupem, nezávislým na účastnících, jako je příprava ze složek nebo prostřednictvím referenční laboratoře. Kritéria hodnocení výkonnosti mají být založena na externích kritériích, jako je odborné posouzení nebo kritériích, vycházejících z vhodnosti pro daný účel. V těchto ideálních situacích se hodnotí výkonnost pomocí předem určené vztažné hodnoty a kritéria výkonnosti, takže zkoušení způsobilosti lze provést i s účastí jednoho účastníka. Tento druh mezilaboratorního porovnávání lze nazývat bilaterárním porovnáváním nebo auditem měření a může být velmi užitečný v mnoha situacích, například při kalibraci.
Tam, kde nelze těmto ideálním podmínkám vyhovět, bude možná nutné odvodit buď vztažnou hodnotu nebo variabilitu, nebo obojí, z výsledků účastníků. Jestliže je počet účastníků pro konkrétní použitý postup příliš malý, může být vyhodnocení výkonnosti nespolehlivé; je tedy důležité zvážit, zda se nemá stanovit minimální počet účastníků pro vyhodnocování výkonnosti.
V následujících odstavcích jsou uvedeny pokyny pro situace s malými počty, když se kritéria vyhodnocování výkonnosti odvozují na základě výsledků účastníků.
D.1.2 Postupy při identifikaci odlehlých hodnot
Ačkoliv se robustní statistiky důrazně doporučují pro základní soubory kontaminované odlehlými hodnotami, nejsou často doporučovány pro velmi malé datové soubory (výjimky viz níže). Testování na odlehlé hodnoty je však pro malé datové soubory možné. V případě velmi malých programů zkoušení způsobilosti nebo skupin by se měla dávat přednost prvotnímu vyloučení odlehlých hodnot následovanému například výpočtem střední hodnoty nebo směrodatné odchylky.
Pro různé velikosti datových souborů jsou použitelné odlišné testy na odlehlé hodnoty. ISO 5725-2 poskytuje tabulky pro Grubbsův test pro jedinou odlehlou hodnotu nebo dvě simultánní odlehlé hodnoty ve stejném směru. Grubbsův test a jiné testy vyžadují specifikaci počtu možných odlehlých hodnot předem a mohou selhat u vícenásobných odlehlých hodnot, což je činí nejužitečnější pro p > 10 (v závislosti na pravděpodobném podílu odlehlých hodnot).
POZNÁMKA 1 Při odhadu variability po vyloučení odlehlých hodnot se má postupovat s opatrností, jelikož odhady variability budou vychýleny k nižším hodnotám. Vychýlení nebude obvykle podstatné, jestliže se vylučování provedlo na 99% konfidenční úrovni nebo vyšší.
POZNÁMKA 2 Většina jednorozměrných robustních odhadů polohy a variability funguje přijatelně pro p > 12.
D.1.3 Postupy při odhadu polohy
D.1.3.1 Vztažné hodnoty odvozené z malých souborů dat účastníků mají tam, kde je to možné, vyhovovat kritériu nejistoty vztažné hodnoty uvedenému v 9.2.1. V situacích, kdy se používá jednoduchý průměr jako vztažná hodnota a směrodatná odchylka výsledků jako směrodatná odchylka pro posuzování způsobilosti, toto kritérium je nesplnitelné u normálního rozdělení s p ≤ 12 po odstranění odlehlých hodnot. U použití mediánu jako vztažné hodnoty (s vydatností 0,64), kritérium nemůže být splněno pro p ≤ 18. Další robustní odhady jako je algoritmus A (C.3), vykazují střední vydatnost a mohou vyhovovat tomuto kritériu pro p > 12, pokud se budou brát v úvahu ustanovení 7.7.7 POZNÁMKY 2.
D.1.3.2 Existují omezení pro velikost souboru, na který lze aplikovat některé odhady polohy. Pro malé datové soubory se doporučuje několik výpočetně náročných robustních odhadů střední hodnoty; typická dolní mez je p ≥ 15, ačkoliv poskytovatelé mohou být schopni demonstrovat přijatelnou výkonnost za specifických předpokladů i pro menší datové soubory. Medián lze použít až k p = 2 (kde se rovná průměru), ale při 3 ≤ p ≤ 5 skýtá medián jen málo výhod vůči průměru, ledaže existuje neobvykle vysoké riziko špatných výsledků.
D.1.4 Postupy při odhadu rozptylu
D.1.4.1 Použití kritéria výkonnosti vycházející z rozptylu výsledků účastníků se u malých souborů dat nedoporučuje, kvůli velmi vysoké variabilitě jakýchkoli odhadů rozptylu. Například se očekává, že pro p = 30 kolísají odhady směrodatné odchylky dat s normálním rozdělením přibližně o 25 % po obou stranách její pravé hodnoty (při 95% konfidenční úrovni). Žádný jiný odhad není lepší pro data s normálním rozdělením.
D.1.4.2 Tam, kde se vyžadují odhady pro další účely (například pro souhrnnou statistiku nebo pro odhad rozptylu robustních odhadů polohy), nebo kde program zkoušení způsobilosti může tolerovat vysokou variabilitu odhadů rozptylu, mají se pro práci s malými soubory vybírat odhady rozptylu s co nejvyšší možnou vydatností.
POZNÁMKA 1 „Nejvyšší možný“ se rozumí s ohledem na dostupnost vhodného softwaru a odbornosti.
POZNÁMKA 2 Qn odhad směrodatné odchylky popsaný v oddíle C.5 je podstatně vydatnější než jak MADe tak nIQR z přílohy C.1.
POZNÁMKA 3 Pro velmi malé soubory dat se uvádějí následující specifická doporučení pro robustní odhady rozptylu [24]:
– p = 2: použije se
– p = 3, poloha a měřítko nejsou známy: použije se MADe která zabrání příliš vysokým odhadům směrodatné odchylky, nebo střední absolutní odchylka jako pojistka proti přehnaně malým odhadům směrodatné odchylky, například když se po zaokrouhlení získají dvě shodné hodnoty;
– p ≥ 4 v odkazu [27] se doporučuje specifický M-odhad směrodatné odchylky na základě logaritmické váhové funkce; blízkým ekvivalentem je algoritmus A bez iterace polohy, za použití mediánu jako odhadu polohy.
POZNÁMKA 4 Pro získání odhadu směrodatné odchylky z absolutní odchylky od mediánu, se použije vzorec (D.1)
POZNÁMKA 5 Faktor 0,798 ve vzorci D.1 vychází ze střední absolutní vzdálenosti od nuly v normovaném normálním rozdělení.
D.2 Vydatnost a bod selhání u robustních metod
D.2.1 Jednotlivé statistické odhady (např. robustní metody) se mohou porovnávat pomocí tří klíčových charakteristik:
Bod selhání – podíl hodnot datového souboru, který může být nahrazen libovolně velkými hodnotami, aniž by se odhad stal též libovolně velký.
Vydatnost (eficience) – rozptyl odhadu s minimálním rozptylem vydělený rozptylem předmětného odhadu pro dané rozdělení.
Rezistence vůči menším modům – schopnost odhadu odolávat vychýlení (bias) způsobenému minoritní skupinou odlišných výsledků (typicky méně než 20 % datového souboru).
Tyto charakteristiky silně závisí na výchozím rozdělení výsledků souboru kompetentních účastníků a charakteru výsledků, které pocházejí od nekompetentních účastníků (nebo od účastníků, kteří nerespektovali pokyny nebo se nedrželi měřicí metody). Kontaminující údaje se mohou projevit jako odlehlé hodnoty, výsledky s vyšším rozptylem nebo výsledky s odlišnou střední hodnotou (např. bimodální).
Body selhání a vydatnosti jednotlivých odhadů se budou za různých situací různit a důkladné zhodnocení je mimo rámec tohoto dokumentu. Je však možno provést jednoduchá porovnání za předpokladu normálního rozdělení výsledků od kompetentních laboratoří se střední hodnotou rovnající se xpt a směrodatnou odchylkou rovnou σpt.
D.2.2 Bod selhání
Bod selhání je podíl hodnot datového souboru, které mohou být odlehlými hodnotami, aniž by to mělo nepříznivý vliv na odhad. Bod selhání je mírou rezistence vůči odlehlým hodnotám; vysoký bod selhání je spojen s rezistencí vůči vysokému podílu odlehlých hodnot. Body selhání a odolnost vůči menším modům pro odhady z Přílohy C uvádí tabulka D.1. Mělo by se poznamenat, že postupy vyžadované v oddílech 6.3 a 6.4 mají zamezit analýze dat datových souborů s velkým podílem odlehlých výsledků. Jsou však situace, ve kterých vizuální revize není praktická.
Tabulka D.1 – Body selhání pro odhady střední hodnoty a směrodatné odchylky (podíl odlehlých výsledků, který může vést k selhání odhadu)
Statistický odhad
Odhadovaný parametr základního souboru
Bod selhání
Odolnost vůči menším modům
Výběrový průměr
Střední hodnota
0 %
Špatná
Výběrová směrodatná odchylka
Směrodatná odchylka
0 %
Špatná
Výběrový medián
Střední hodnota
50 %
Dobrá
nIQR
Směrodatná odchylka
25 %
Střední
MADe
Směrodatná odchylka
50 %
Střední – dobrá
Algoritmus A
Střední hodnota a směrodatná odchylka
25 %
Střední
Qn a Q/Hampel
Střední hodnota a směrodatná odchylka
50 %
Střední
(Velmi dobrá pro menší mody vzdálené více než 6s*)
POZNÁMKA Definice bodu selhání, která se zde používá, představuje podíl velkého datového souboru s normálním rozdělením, který může být posunut do +nekonečna, aniž se odhad rovněž posune do +nekonečna. Například jestliže se těsně pod 50 % datového souboru nahradí nekonečnem, výběrový medián zůstane v rámci zbylých konečných dat.
Souhrnně, výběrový průměr a směrodatná odchylka mohou selhat již následkem jedné odlehlé hodnoty. Robustní metody používající medián, MADe, a Q/Hampelovy metody mohou tolerovat velký podíl odlehlých hodnot. Algoritmus A s iterovanou směrodatnou odchylkou a nIQR vykazují bod selhání 25 %. V každé situaci s velkým podílem odlehlých výsledků (> 20%), jakýkoli konvenční nebo robustní postup může poskytovat nepřiměřené odhady polohy a variability a má se dbát zvýšené opatrnosti při interpretaci takových hodnot.
D.2.3 Relativní vydatnost
Všechny odhady mají rozptyl – to znamená, že tyto odhady se mohou měnit od cyklu k cyklu programu zkoušení způsobilosti, i když všichni účastníci budou kompetentní a nebudou existovat žádné odlehlé hodnoty nebo podskupiny účastníků s odlišnými středními hodnotami nebo rozptyly. Robustní odhady modifikují, na základě teoretických předpokladů, dodávané výsledky, které se nacházejí výjimečně daleko od středu rozdělení, a tak tyto odhady mají větší rozptyl než odhady s minimálním rozptylem v případě, že datový soubor má vskutku normální rozdělení.
Výběrový průměr a výběrová směrodatná odchylka jsou odhady s minimálním rozptylem pro střední hodnotu základního souboru a směrodatnou odchylku, a tak mají vydatnost 100 %. Odhady s nižší vydatností vykazují vyšší rozptyl – tedy mohou kolísat více od cyklu k cyklu programu zkoušení způsobilosti, i když žádné odlehlé hodnoty nebo odlišné podskupiny účastníků neexistují. Tabulka D.2 uvádí relativní vydatnosti pro odhady uváděné v příloze C.
Tabulka D.2 – Relativní vydatnost robustních odhadů střední hodnoty základního souboru a směrodatné odchylky pro datové soubory s normálním rozdělením s n= 50 nebo 500 účastníků
Statistický odhad
Střední hodnota, n=50
Střední hodnota, n=500
SD, n=50
SD, n=500
Výběrový průměr a směrodatná odchylka
100 %
100 %
100 %
100 %
Medián a nIQR
66 %
65 %
38 %
37 %
Medián a MADe
66 %
65 %
37 %
37 %
Algoritmus A
97 %
97 %
74 %
73 %
Qn a Q/Hampel
96 %
96 %
73 %
81 %
Tyto výsledky ukazují, že neexistuje statistická metoda, která je dokonalá pro všechny situace. Výběrový průměr a směrodatná odchylka jsou optimální pro normální rozdělení, ale selhávají v případě odlehlých hodnot. Robustní odhady získané jednoduchými metodami jako výběrový medián, MADe nebo nIQR fungují relativně špatně u dat s normálním rozdělením, ale mohou být efektivní za přítomnosti odlehlých hodnot nebo je-li datový soubor malý.
D.3 Použití údajů ze zkoušení způsobilosti pro vyhodnocení reprodukovatelnosti a opakovatelnosti metody měření
D.3.1 V úvodu k ISO/IEC 17043 se prohlašuje, že vyhodnocení výkonnostních charakteristik metody není obecně účelem zkoušení způsobilosti. Tyto výsledky programů zkoušení způsobilosti je však možné využít k ověření a eventuálně i ke stanovení opakovatelnosti a reprodukovatelnosti měřicí metody [15], pokud program zkoušení způsobilosti vyhovuje následujícím podmínkám:
a) položky pro zkoušení způsobilosti jsou dostatečně homogenní a stabilní;
b) účastníci jsou schopni vykazovat odpovídající vyhovující výkonnost;
c) kompetence účastníků (nebo podmnožiny účastníků) se prokázala již před současným cyklem programu zkoušení způsobilosti a výsledky daného cyklu nepřinesou její zpochybnění.
D.3.2 Pro získání dat dostatečných pro vyhodnocení opakovatelnosti a reprodukovatelnosti pomocí programu zkoušení způsobilosti se musí v návrhu programu uplatnit následující podmínky;
a) účastníci v dostatečném počtu pro mezilaboratorní studii prokázali svou kompetenci ohledně měřicí metody během předchozích cyklů programu zkoušení způsobilosti a zavázali se držet se měřicí metody bez modifikací;
b) bude-li se posuzovat opakovatelnost, každý cyklus programu zkoušení způsobilosti se zaměřením na posouzení opakovatelnosti má zahrnovat přinejmenším dvě položky zkoušky způsobilosti nebo požadavek provádět opakovaná pozorování (měření);
c) tam, kde je to proveditelné, účastníkům mají být poskytnuty odděleně identifikované slepé replikáty, spíše, než je žádat o provedení opakovaných měření u stejné položky zkoušky způsobilosti;
d) položky zkoušky způsobilosti používané v jednom nebo několika cyklech programu zkoušení způsobilosti budou reprezentovat rozsah úrovní a typů rutinních vzorků, pro které je měřicí metoda určena;
e) postupy analýzy dat používané při posuzování opakovatelnosti a reprodukovatelnosti mají odpovídat ISO 5725 nebo používanému protokolu mezilaboratorní studie.
Příloha E (informativní)
Ilustrativní příklady
Tyto příklady mají za cíl ilustrovat postupy uvedené v tomto dokumentu, aby si čtenář mohl potvrdit, že provádí své výpočty správně. Specifické příklady se nemají považovat za doporučení k použití v konkrétních programech zkoušeni způsobilosti.
E.1 Vliv cenzorovaných hodnot (viz 5.5.3.3)
V tabulce E.1 je uvedeno 23 výsledků z cyklu programu zkoušení způsobilosti, kdy 5 výsledků má výsledek „méně než“ nějaké množství. Pro 3 různé výpočty, v nichž jsou symboly „<“ odstraněny a data jsou analyzována jako kvantitativní údaje; výsledky s označením „<“ nejsou vůbec brány v úvahu; a kde je použit jako odhad kvantitativního výsledku 0,5 násobek výsledku, jsou uvedeny robustní střední hodnota (x*) a směrodatná odchylka (s*) vypočtené pomocí algoritmu A. V každém ze scénářů jsou výsledky nacházející se mimo přijatelnou mez označeny pomocí #. To znamená, že hodnocení bude „nepřijatelný“ (podnět k opatření) pro každý výsledek, jehož kvantitativní vyjádření bude mimo x* ± 3s*. Poskytovatel zkoušení způsobilosti může stanovit pro zacházení s výsledky s označením „<“ nebo „>“ alternativní pravidla.
Tabulka E.1 – Soubor údajů o vzorcích s označením (<) a tři možnosti zpracování cenzorovaných výsledků
Účastník
Výsledek
„<“ ignorováno
„<“ vyloučeno
0,5 × hodnota „<“
A
<10
10
–
5
B
<10
10
–
5
C
12
12
12
12
D
19
19
19
19
E
<20
20
–
10
F
20
20
20
20
G
23
23
23
23
H
23
23
23
23
J
25
25
25
25
K
25
25
25
25
L
26
26
26
26
M
28
28
28
28
N
28
28
28
28
P
<30
30
–
15
Q
28
28
28
28
R
29
29
29
29
S
30
30
30
30
T
30
30
30
30
U
31
31
31
31
V
32
32
32
32
W
32
32
32
32
Y
45
45
45 #
45
Z
<50
50 #
–
25
Shrnutí
Počet výsledků
23
23
18
23
x*
26,01
26,81
23,95
s*
7,23
5,29
8,60
Volba, jak zacházet se vzorky s výsledky „méně než“, má významný vliv na robustní střední hodnotu a směrodatnou odchylku a na vyhodnocení výkonnosti. Očekává se, že poskytovatel zkoušení způsobilosti stanoví vhodnou metodu.
POZNÁMKA Odkaz [21] obsahuje některé metody na bázi maximálně věrohodných odhadů, které zpracují výsledky typu „menší než“ správně.
E.2 Testování homogenity a stability – arsen (As) v čokoládě (viz 6.1)
Připravují se položky zkoušky způsobilosti pro mezinárodní program zkoušení způsobilosti a pak pro následující použití jako referenční materiál. Vyrábí se 1 000 lékovek.
Testování homogenity: Vybralo se 10 položek zkoušky způsobilosti za použití stratifikovaného náhodného vzorkování z různých podílů z výrobního procesu. Z každé lahvičky se v náhodném pořadí extrahují a analyzují 2 zkoušené vzorky za podmínek opakovatelnosti. Data jsou uvedena v tabulce E.2 níže. Postupuje se podle přílohy B.3 a získá se uvedená souhrnná statistika. Vhodná σpt pro daný účel je u As v čokoládě 15 %. Protože vztažná hodnota pro cyklus programu zkoušení způsobilosti není v době studie homogenity k dispozici, je odhad variability vzorku ověřován proti provizornímu odhadu σpt vypočítanému jako 15 % střední hodnoty pro test homogenity.
Tabulka E.2 – Data o homogenitě pro položky zkoušky způsobilosti arsenu v čokoládě
ID lahvičky
Replikát 1
Replikát 2
3
0,185
0,194
111
0,187
0,189
201
0,182
0,186
330
0,188
0,196
405
0,191
0,181
481
0,188
0,180
599
0,187
0,196
704
0,177
0,186
766
0,179
0,187
858
0,188
0,196
Celkový průměr:
0,187 15
SD průměrů:
0,003 98
sw:
0,005 56
ss:
0,000 60
σpt:
0,187 15 ( 0,15=0,028 07
Kontrolní hodnota:
0,3σpt = 0,008 42
Závěr:
ss je menší než kontrolní hodnota, takže homogenita je dostatečná
Testování stability: Vyberou se náhodně 2 položky zkoušky způsobilosti a uskladní se při zvýšené teplotě (60° C) po dobu trvání cyklu daného programu zkoušení způsobilosti (6 týdnů). Položky zkoušky způsobilosti se analyzují duplikátně (tabulka E.3) a získané čtyři výsledky se kontrolují oproti hodnotám z homogenity.
Tabulka E.3 – Data o stabilitě položek zkoušky způsobilosti pro arsen v čokoládě
Vzorek pro stabilitu
Replikát 1
Replikát 2
164
0,191
0,198
732
0,190
0,196
Celkový průměr:
0,193 75
Rozdíl vůči střední hodnotě z homogenity:
0,193 75 – 0,187 15 = 0,006 60
Kontrolní hodnota:
0,3σpt = 0,008 42
Závěr:
Rozdíl je menší než kontrolní hodnota, takže stabilita je dostatečná
E.3 Komplexní příklad pro atrazin v pitné vodě
Do programu zkoušení způsobilosti na herbicid (atrazin) v pitné vodě se zapojilo 34 účastníků. Dodané výsledky jsou uvedeny jako xi v tabulce E.4, pro přehlednost jsou seřazeny podle velikosti. Tabulka uvádí vypočítané hodnoty pro robustní střední hodnotu a směrodatnou odchylku, získané pomocí algoritmu A se 6 iteracemi, dokud robustní střední hodnota a směrodatná odchylka nevykazovaly žádné změny na své třetí platné číslici. Data jsou vynesena do grafu na obrázku E.1; odpovídající histogram je na obrázku E.2 a graf jádrové hustoty na obrázku E.3.
POZNÁMKA Histogram i graf hustoty vykazují malá maxima u nízkých i vysokých hodnot. Ty jsou způsobeny spíše několika odlehlými hodnotami, než povahou rozdělení platných výsledků.
V tabulce E.5 jsou uvedeny odhady polohy (průměr) a směrodatné odchylky za použití různých klasických a robustních postupů. Je též uvedena nejistota odhadu polohy. Statistika pro metodu bootstrap je odvozena z postupů publikovaných v odkazech [17], [18] s použitím ze softwarového balíku R (příklad skriptu je v příkladu E.6 a Příloze F]. Na obrázku E.4 jsou různé odhady polohy a odhad rozšířené nejistoty (2u(xpt)) ve formě chybových úseček.
Tabulka E.4 – Výpočet robustního průměru a směrodatné odchylky pro atrazin v pitné vodě
xi
1. iterace
2. iterace
3. iterace
4. iterace
5. iterace
6. iterace
x* – δ
x* + δ
0,204 163
0,199 732
0,198 466
0,198 037
0,197 865
0,197 790
0,319 837
0,315 969
0,315 871
0,316 065
0,316 185
0,316 243
1
0,040 0
0,204 2
0,199 7
0,198 5
0,198 0
0,197 9
0,197 8
2
0,055 0
0,204 2
0,199 7
0,198 5
0,198 0
0,197 9
0,197 8
3
0,178 0
0,204 2
0,199 7
0,198 5
0,198 0
0,197 9
0,197 8
4
0,202 0
0,204 2
0,202 0
0,202 0
0,202 0
0,202 0
0,202 0
5
0,206 0
0,206 0
0,206 0
0,206 0
0,206 0
0,206 0
0,206 0
6
0,227 0
0,227 0
0,227 0
0,227 0
0,227 0
0,227 0
0,227 0
7
0,228 0
0,228 0
0,228 0
0,228 0
0,228 0
0,228 0
0,228 0
8
0,230 0
0,230 0
0,230 0
0,230 0
0,230 0
0,230 0
0,230 0
9
0,230 0
0,230 0
0,230 0
0,230 0
0,230 0
0,230 0
0,230 0
10
0,235 0
0,235 0
0,235 0
0,235 0
0,235 0
0,235 0
0,235 0
11
0,236 0
0,236 0
0,236 0
0,236 0
0,236 0
0,2360
0,236 0
12
0,237 0
0,237 0
0,237 0
0,237 0
0,237 0
0,237 0
0,237 0
13
0,243 0
0,243 0
0,243 0
0,243 0
0,243 0
0,243 0
0,243 0
14
0,244 0
0,244 0
0,244 0
0,244 0
0,244 0
0,244 0
0,244 0
15
0,245 0
0,245 0
0,245 0
0,245 0
0,245 0
0,245 0
0,245 0
16
0,255 5
0,255 5
0,255 5
0,255 5
0,255 5
0,255 5
0,255 5
Tabulka E.4 – Výpočet robustního průměru a směrodatné odchylky pro atrazin v pitné vodě (dokončení)
xi
1. iterace
2. iterace
3. iterace
4. iterace
5. iterace
6. iterace
x* – δ
x* + δ
0,204 163
0,199 732
0,198 466
0,198 037
0,197 865
0,197 790
0,319 837
0,315 969
0,315 871
0,316 065
0,316 185
0,316 243
17
0,260 0
0,260 0
0,260 0
0,260 0
0,260 0
0,260 0
0,260 0
18
0,264 0
0,264 0
0,264 0
0,264 0
0,264 0
0,264 0
0,264 0
19
0,267 0
0,267 0
0,267 0
0,267 0
0,267 0
0,267 0
0,267 0
20
0,270 0
0,270 0
0,270 0
0,270 0
0,270 0
0,270 0
0,270 0
21
0,273 0
0,273 0
0,273 0
0,273 0
0,273 0
0,273 0
0,273 0
22
0,274 0
0,274 0
0,274 0
0,274 0
0,274 0
0,274 0
0,274 0
23
0,274 0
0,274 0
0,274 0
0,274 0
0,274 0
0,274 0
0,274 0
24
0,278 0
0,278 0
0,278 0
0,278 0
0,278 0
0,278 0
0,278 0
25
0,281 1
0,281 1
0,281 1
0,281 1
0,281 1
0,281 1
0,281 1
26
0,287 0
0,287 0
0,287 0
0,287 0
0,287 0
0,287 0
0,287 0
27
0,287 0
0,287 0
0,287 0
0,287 0
0,287 0
0,287 0
0,287 0
28
0,288 0
0,288 0
0,288 0
0,288 0
0,288 0
0,288 0
0,288 0
29
0,289 0
0,289 0
0,289 0
0,289 0
0,289 0
0,289 0
0,289 0
30
0,295 0
0,295 0
0,295 0
0,295 0
0,295 0
0,295 0
0,295 0
31
0,296 0
0,296 0
0,296 0
0,296 0
0,296 0
0,296 0
0,296 0
32
0,311 0
0,311 0
0,311 0
0,311 0
0,311 0
0,311 0
0,311 0
33
0,331 0
0,319 8
0,316 0
0,315 9
0,316 1
0,316 2
0,316 2
34
0,424 6
0,319 8
0,316 0
0,315 9
0,316 1
0,316 2
0,316 2
průměr
0,251 2
0,257 9
0,257 2
0,257 1
0,257 0
0,257 0
0,257 0
SD
0,067 2
0,034 2
0,034 5
0,034 7
0,034 8
0,034 8
0,034 8
δ
0,057 8
0,058 1
0,058 7
0,059 0
0,059 2
0,059 2
Nové x*
0,262 0
0,257 9
0,257 2
0,257 1
0,257 0
0,257 0
0,257 0
Nové s*
0,038 6
0,038 7
0,039 1
0,039 3
0,039 4
0,039 5
0,039 5
Legenda
X kód laboratoře
Y koncentrace atrazinu (mg l –1)
Obrázek E.1 – Seřazené výsledky účastníků u atrazinu (data z tabulky E.4)
Legenda
X koncentrace atrazinu (mg l –1)
Obrázek E.2 – Histogram výsledků účastníků
Legenda
X koncentrace atrazinu (mg l –1)
Y jádrová hustota
Obrázek E.3 – Graf jádrové hustoty výsledků účastníků
Tabulka E.5 – Souhrnné statistiky příkladu s atrazinem
Postup
Poloha (průměr)
Směrodatná odchylka
u(xpt)
Robustní: Výběrový medián, nIQR (MADe)
0,262 0
0,040 2
(0,038 6)
0,008 6
Robustní: Algoritmus A (x*, s*)
0,257 0
0,039 5
0,008 5
Robustní: Q/Hampel
0,260 0
0,042 6
0,009 1
Bootstrap (pro střední hodnotu)
0,250 3
0,066 7
0,011 3
Aritmetický, odlehlé hodnoty odstraněny
0,258 8
0,033 7
0,006 1
Aritmetický, odlehlé hodnoty zachovány
0,251 2
0,067 2
0,011 5
POZNÁMKA Jednotlivé komerční softwarové nástroje mají odlišné postupy pro výpočet kvartilů, což může způsobovat zřetelné rozdíly v nIQR. Mírný nesoulad se shora uvedenými výsledky může být způsoben těmito rozdíly nebo odlišným postupem při zaokrouhlování.
Legenda
Y koncentrace atrazinu (mg l –1)
1 robustní: medián, nIQR (MADe)
2 robustní: algoritmus A (x*, s*)
3 robustní: Q/Hampel
4 bootstrap (pro průměr)
5 aritmetický, odlehlé hodnoty odstraněny
6 aritmetický, odlehlé hodnoty zachovány
Obrázek E.4 – Souhrn robustních statistik z tabulky E.5
E.4 Komplexní příklad pro rtuť v krmivu
V daném cyklu programu zkoušení způsobilosti jsou účastníci požádáni, aby uváděli své výsledky, jak to činí rutinně a uvedli i svou rozšířenou nejistotu (Ulab) a koeficient rozšíření (k). Poskytovatel zkoušení způsobilosti pak vypočítá standardní nejistotu (ulab) jako Ulab/k. K uváděným nejistotám je připojeno označení podle kritérií uvedených v oddíle 9.8. Data uvedená v tabulkách E.6 a E.7 náleží celkové rtuti v krmivu. V tabulce E.6 byly vypočítány standardní nejistoty ulab z rozšířených nejistot účastníků Ulab dělením udaným koeficientem rozšíření k a jsou zde uváděny jako zaokrouhlené hodnoty. Pro výpočet statistik výkonnosti v tabulce E.7 se použily nezaokrouhlené hodnoty ulab. Účastník s kódovým označením L23 neuvedl žádný koeficient rozšíření, a tak bylo použito 1,732 (zaokrouhlená odmocnina ze 3).
Skóre výkonnosti byla vypočítána postupem popsaným v kapitole 9. U všech výpočtů byla jako referenční hodnota použita xpt a jako σpt byla zvolena hodnota vhodná pro daný účel vycházející z předchozích zkušeností. Nejistota vztažné hodnoty byla kombinovanou standardní nejistotou referenční hodnoty plus nejistota způsobená nehomogenitou.
xpt = 0,044 mg/kg; U(xpt) = 0,008 2 mg/kg; σpt = 0,006 6 mg/kg (= 15%);
Graf jádrové hustoty na obrázku E.6 ukazuje velmi zřetelně bimodální rozdělení, náležející rozdílům jednotlivých metod. Toto nemělo žádný vliv na vyhodnocení výkonnosti, protože pro xpt se použila referenční hodnota a jako σpt se použila hodnota vhodná pro daný účel.
Tabulka E.6 – Výsledky zkoušky způsobilosti pro 24 účastníků studie IMEP 111
Kód laboratoře
Hodnota
Ulab
k
ulab
Označení
Metoda
L04
0,013
0,003
2
0,002
b
AMA
L05
0,013
0,007
2
0,004
a
AMA
L23
0,013 5
0,001 08
1,732
0,000 62
b
AMA
L02
0,014
0,004
2
0,002
b
AMA
L15
0,014
0,000 5
2
0,000 3
b
AMA
L17
<0,015
CV-ICP-AES
L06
0,016
0,003
2
0,002
b
AMA
L09
0,017
0,008
2
0,004
a
AMA
L26
0,019
0,003
2
0,002
b
AAS
L12
0,023 9
0,003 6
2
0,001 8
b
AMA
L13
<0,034
TDA-AAS
L03
0,037
0,013
2
0,007
a
CV-AAS
L29
0,039
0,007
2
0,004
a
CV-AAS
L07
0,04
0,008
2
0,004
a
ICP-MS
L21
0,04
0,03
2
0,02
c
HG-AAS
L25
0,040
0,010
2
0,005
a
CV-AAS
L16
0,042 4
0,008
2
0,004
a
CV-AAS
L08
0,044
0,007
2
0,004
a
CV-AAS
L10
0,045
0,007
2
0,004
a
ICP-MS
L24
0,045
0,005
2
0,003
a
HG-AAS
L18
0,046
0,007
2
0,004
a
CV-AAS
L28
0,049
0,007 2
2
0,003 6
a
CV-AAS
L01
0,053
0,007
2
0,004
a
CV-AAS
L14
<0,1
ICP-MS
Legenda
X kód laboratoře
Y celková rtuť v krmivu (mg l –1)
Obrázek E.5 – Výsledky účastníků a nejistoty výsledků IMEP 111 (data z tabulky E.6)
Přerušovaná čára odpovídá xpt ± U(xpt) a tečkovaná čára xpt ± 2σpt
Prázdné kroužky a přerušované vertikální čáry značí výsledky uvedené jako „méně než“
Legenda
X koncentrace rtuti (mg kg –1)
Y jádrová hustota
Obrázek E.6 – Graf jádrové hustoty výsledků účastníků
Tabulka E.7 – Statistiky výkonnosti při různých metodách
Kód laboratoře
D %
PA
z
z'
ζ
En
L04
–70,5 %
–156,6 %
–4,70
–3,99
–7,10
–3,55
L05
–70,5 %
–156,6 %
–4,70
–3,99
–5,75
–2,88
L23
–69,3 %
–154,0 %
–4,62
–3,93
–7,35
–3,69
L02
–68,2 %
–151,5 %
–4,55
–3,86
–6,58
–3,29
L15
–68,2 %
–151,5 %
–4,55
–3,86
–7,30
–3,65
L17
L06
–63,6 %
–141,4 %
–4,24
–3,60
–6,41
–3,21
L09
–61,4 %
–136,4 %
–4,09
–3,47
–4,71
–2,36
L26
–56,8 %
–126,3 %
–3,79
–3,22
–5,73
–2,86
L12
–45,7 %
–101,5 %
–3,05
–2,59
–4,49
–2,24
L13
L03
–15,9 %
–35,4 %
–1,06
–0,90
–0,91
–0,46
L29
–11,4 %
–25,3 %
–0,76
–0,64
–0,93
–0,46
L07
–9,1 %
–20,2 %
–0,61
–0,51
–0,70
–0,35
L21
–9,1 %
–20,2 %
–0,61
–0,51
–0,26
–0,13
L25
–9,1 %
–20,2 %
–0,61
–0,51
–0,62
–0,31
L16
–3,6 %
–8,1 %
–0,24
–0,21
–0,28
–0,14
L08
0,0 %
0,0 %
0,00
0,00
0,00
0,00
L10
2,3 %
5,1 %
0,15
0,13
0,19
0,09
L24
2,3 %
5,1 %
0,15
0,13
0,21
0,10
L18
4,5 %
10,1 %
0,30
0,26
0,37
0,19
L28
11,4 %
25,3 %
0,76
0,64
0,92
0,46
L01
20,5 %
45,5 %
1,36
1,16
1,67
0,83
L14
*Tento příklad je uveden s laskavým svolením European Commission Joint Research Centre, Institute for Reference Materials and Measurements (Společného výzkumného střediska Evropské komise Institutu pro referenční materiály a měření), International Measurement Evaluation Program (IMEPA), studie 111.
E.5 Referenční hodnota z jediné laboratoře: „Los Angeles“ hodnoty kameniva (viz 7.5)
V tabulce E.8 jsou uvedena jako příklad data, jaká by se mohla získat ze série zkoušek položek zkoušky způsobilosti a velmi podobného certifikovaného referenčního materiálu (CRM), který má hodnotu certifikované vlastnosti 21,62 jednotek LA a přidruženou nejistotu 0,26 jednotek LA. Tento příklad ukazuje, jak se získá referenční hodnota a přidružená nejistota pro položku zkoušky způsobilosti. Povšimněte si, že nejistota certifikované hodnoty CRM zahrnuje již v sobě nejistotu v důsledku nehomogenity, přepravy a dlouhodobé stability.
a
kde 0,26 je standardní nejistota certifikované hodnoty daného CRM a 0,24 je standardní nejistota rozdílu
Tabulka E.8 – Výpočet průměrného rozdílu mezi CRM a položkou zkoušky způsobilosti a standardní nejistoty tohoto rozdílu
Vzorek
Položka zkoušky způsobilosti
CRM
Rozdíl průměrných hodnot
PT – CRM
jednotky LA
Test 1
jednotky LA
Test 1
jednotky LA
Test 1
jednotky LA
Test 1
jednotky LA
1
20,5
20,5
19,0
18,0
2,00
2
21,1
20,7
19,8
19,9
1,05
3
21,5
21,5
21,0
21,0
0,50
4
22,3
21,7
21,0
20,8
1,10
5
22,7
22,3
20,5
21,0
1,75
6
23,6
22,4
20,3
20,3
2,70
7
20,9
21,2
21,5
21,8
−0,60
8
21,4
21,5
21,9
21,7
−0,35
9
23,5
23,5
21,0
21,0
2,50
10
22,3
22,9
22,0
21,3
0,95
11
23,5
24,1
20,8
20,6
3,10
12
22,5
23,5
21,0
22,0
1,50
13
22,5
23,5
21,0
21,0
2,00
14
23,4
22,7
22,0
22,0
1,05
15
24,0
24,2
22,1
21,5
2,30
16
24,5
24,4
22,3
22,5
2,05
17
24,8
24,7
22,0
21,9
2,80
18
24,7
25,1
21,9
21,9
3,00
19
24,9
24,4
22,4
22,6
2,15
20
27,2
27,0
24,5
23,7
3,00
Průměrný rozdíl,
1,73
Směrodatná odchylka
1,07
Standardní nejistota
( )0,24
POZNÁMKA Údaje jsou naměřené mechanické odolnosti kameniva, získané zkouškou dle metody Los Angeles (LA).
E.6 Příklad techniky bootstrap u koliformních bakterií ve vzorku potravin (viz 7.7.2)
Programu zkoušení způsobilosti na koliformní baktérie ve vzorku potravin (mléce) se zúčastnilo 35 účastníků, provádějících pět nezávislých opakovaných měření. Střední hodnota log KTJ (log CFU) od každého účastníka se použila pro odhad vztažné hodnoty a její nejistoty. Hodnota vhodná pro daný účel rovnající se „0,25 log KTJ/ml“ byla určena jako σpt, zatímco směrodatná odchylka pro jádrovou hustotu byla 0,75 σpt (srovnej „bw“ v R kódu). Graf jádrové hustoty (obrázek E.7) ukazuje asymetrické rozdělení. Pro odhad modu a příslušné standardní chyby jádrové hustoty rozdělení dat, uváděné jako xpt a U(xpt) v tomto pořadí, se použila metoda bootstrap (1 000 opakování). Počítačový skript je uveden v Příloze F. Získaly se následující výsledky:
xpt = 3,79 a u(xpt) = 0,0922 v jednotkách log KTJ/ml
POZNÁMKA Jelikož u(xpt) > 0,3 σpt, výkonnost laboratoří se vyhodnocovala za použití z' skóre.
Legenda
X koliformní bakterie (log10 KTJ/ml)
Y jádrová hustota
Obrázek E.7 – Graf jádrové hustoty výsledků účastníků
E.7 Porovnání referenční hodnoty s konsenzuální střední hodnotou (viz 7.8)
Jako ukázku postupu z oddílu 7.8 při porovnání referenční hodnoty s robustní střední hodnotou výsledků účastníků vezměme příklad E.4 a data z tabulky E.6.
V tomto cyklu programu zkoušení způsobilosti je robustní střední hodnota x* 0,031 61 a robustní směrodatná odchylka s* je 0,016 4, jak bylo vypočítáno pomocí algoritmu A, po vyloučení 3 výsledků, které měly hodnoty „méně než“ (n = 21 po odstranění cenzorovaných výsledků). Takže nejistota robustní střední hodnoty se vypočítala jako
Podle oddílu 7.8, vzorec 7, nejistota rozdílu mezi xref a x* je následující:
Nedoporučuje se žádné opatření, protože existence vychýlení (bias) u některých metod je známa.
E.8 Stanovení hodnotících kritérií na základě zkušeností z předchozích cyklů: toxafen v pitné vodě (viz 8.3)
Existují dva poskytovatelé zkoušení způsobilosti, kteří organizují programy zkoušení způsobilosti na pesticid toxafen v pitné vodě. Během pěti let se uskutečnilo 20 cyklů programů zkoušení způsobilosti s 20 nebo více účastníky, na regulovaných úrovních toxafenu od 3 μg/l do 20 μg/l. V tabulce E.9 jsou uvedeny výsledky těchto 20 cyklů programů zkoušení způsobilosti, uspořádaných od nízkých k vysokým vztažným hodnotám. Na obrázcích E.8 a E.9 jsou vyneseny relativní robustní směrodatné odchylky (RSD %) a robustní směrodatné odchylky (SD) pro každý cyklus programů zkoušení způsobilosti s porovnáním vůči vztažné hodnotě (příprava ze složek). V každém obrázku je rovnice regresní přímky získaná jednoduchou metodou nejmenších čtverců. Regresní přímky metodou nejmenších čtverců lze určit pomocí běžně dostupného tabulkového procesoru. (Pro vztah mezi směrodatnou odchylkou a vztažnou hodnotou byl též pro kontrolu použit model kvadratického polynomu, ale kvadratický člen nebyl významný, což ukazuje na nevýznamný projev zakřivení prokládané křivky, a tak je lineární model vhodný.)
Je zřejmé, že RSD je téměř konstantní na 19 % pro všechny úrovně a regresní přímka pro směrodatnou odchylku rozumně vyhovuje (koeficient determinace R 2 = 0,82). Regulační orgán může požadovat, aby směrodatná odchylka pro posuzování způsobilosti byla 19 % vztažné hodnoty (nebo třeba 20 %) nebo může vyžadovat výpočet očekávané směrodatné odchylky použitím regresní rovnice pro směrodatnou odchylku.
Tabulka E.9 – Cykly programu zkoušení způsobilosti pro toxafen v pitné vodě s p ≥ 20 výsledky
Kód poskytovatele PT
Vztažná hodnota
Robustní střední hodnota
Směrodatná odchylka
Střední výtěžnost
RSD (% průměru)
p
P004
3,96
3,98
0,639
100,5 %
16,1 %
25
P001
4,56
5,18
0,638
113,6 %
14,0 %
23
P001
5,99
5,98
0,995
99,8 %
16,6 %
22
P004
6,08
5,80
1,48
95,4 %
24,3 %
20
P001
6,20
6,66
0,97
107,4 %
15,7 %
23
P001
6,72
7,13
1,43
106,1 %
21,3 %
22
P004
8,10
7,09
2,23
87,5 %
27,5 %
21
P001
8,73
8,15
1,80
93,4 %
20,6 %
22
P001
9,57
8,60
1,45
89,9 %
15,2 %
23
P001
12,1
12,4
1,44
102,5 %
11,9 %
23
P001
12,5
13,8
2,25
110,4 %
18,0 %
24
P004
13,1
12,0
2,41
91,6 %
18,4 %
20
P004
15,6
13,3
3,57
85,3 %
22,9 %
27
P004
15,9
13,6
2,44
85,5 %
15,3 %
28
P004
16,3
13,5
3,60
82,8 %
22,1 %
31
P004
16,3
14,2
3,09
87,1 %
19,0 %
40
P004
17,0
15,6
2,63
91,8 %
15,5 %
24
P004
17,4
16,0
2,85
92,0 %
16,4 %
23
P004
17,4
16,0
3,36
92,0 %
19,3 %
23
P004
19,0
16,4
3,20
86,3 %
16,8 %
27
Legenda
xpt (µg l –1)
Y RSD (%)
Obrázek E.8 – Relativní směrodatná odchylka výsledků účastníků (%) oproti vztažné hodnotě (μg/l)
Legenda
xpt (µg l –1)
Y SD (µg l –1)
Obrázek E.9 – Směrodatná odchylka účastníka (μg/l) oproti vztažné hodnotě (μg/l)
E.9 Využití obecného modelu: Horwitzova rovnice (viz 8.4)
Horwitz [22], [31] popsal jeden běžně používaný obecný model pro chemické aplikace. Tento přístup formuluje obecný model pro směrodatnou odchylku reprodukovatelnosti analytických metod, která se dá použít k odvození následujícího vztahu pro směrodatnou odchylku reprodukovatelnosti:
kde c je koncentrace stanovované chemické složky jako hmotnostní zlomek.
Například program zkoušení způsobilosti na melamin v práškovém mléce používá dvě položky zkoušky způsobilosti s referenčními úrovněmi A= 1,195 mg/kg a B= 2,565 mg/kg (0,000 001 195 a 0,000 002 565). To vede k následujícím očekávaným směrodatným odchylkám reprodukovatelnosti:
Položka zkoušky způsobilosti A s 1,195 mg/kg: σR = 0,186 mg/kg neboli relativní σR = 15,6 %.
Položka zkoušky způsobilosti B s 2,565 mg/kg: σR = 0,356 mg/kg neboli relativní σR = 13,9 %.
E.10 Určení výkonnosti z experimentu preciznosti: Stanovení obsahu cementu ve ztvrdlém betonu (viz 8.5)
Obsah cementu v betonu se obvykle měří jako hmotnost v kilogramech cementu na krychlový metr betonu (tj. v kg/m3). V praxi se beton vyrábí v třídách kvality, které se liší v obsahu cementu o 25 kg/m3 a vyžaduje se, aby účastníci byli schopni identifikovat správně třídu kvality. Z těchto důvodů je žádoucí, aby zvolená hodnota σpt nepřevyšovala jednu polovinu z 25 kg/m3 (σpt < 12,5 kg/m3).
Experiment pro preciznost poskytl následující výsledky pro beton s průměrným obsahem cementu 260 kg/m3: σR = 23,2 kg/m3 a σr = 14,3 kg/m3. Předpokládejme, že se má provádět m = 2 opakovaných měření.
Podle vzorce (9) tak
Takže cíl σpt < 25/2 kg/m3 = 12,5 kg/m3 asi není vhodný.
POZNÁMKA V ISO 5725-2,
V tomto příkladu by se mohlo σL počítat pomocí
E.11 Sloupcový diagram standardizovaných vychýlení: koncentrace protilátek (viz 10.4)
Obrázek E.10 znázorňuje ve formě sloupcového grafu z-skóre z cyklu programu zkoušení způsobilosti pro tři příbuzné měřené veličiny (protilátky). Údaje pro dva ze tří alergenů jsou uvedeny v tabulce E.10. Z tohoto grafu vyplývá, že laboratoře (například B a Z) se mají zabývat příčinou vychýlení, které ovlivňuje všechny tři úrovně přibližně stejným způsobem, zatímco například u laboratoří K a P je zřejmé, že v jejich případě závisí znaménko z-skóre na typu protilátky.
Legenda
X kód laboratoře
Y z-skóre
Obrázek E.10 – Čárový graf z-skóre (4,0 až – 4,0) z jednoho cyklu programu zkoušení způsobilosti, ve kterém účastníci stanovovali koncentraci tří alergen-specifických IgE protilátek
E.12 Youdenův graf – koncentrace protilátek (viz 10.5)
V tabulce E.10 jsou uvedena data získaná zkoušením dvou podobných položek zkoušky způsobilosti na koncentraci protilátek. Na obrázku E.11 jsou znázorněna výkonnostní (z) skóre vycházející z robustní střední hodnoty a směrodatné odchylky za použití algoritmu A.
Přezkoumání obrázku E.11 ukazuje na dva účastníky v horním pravém kvadrantu (laboratoře 5 a 23), kteří by mohli vykazovat souhlasné pozitivní vychýlení (bias). Laboratoř 26 vykazuje vysoké z-skóre u položky zkoušky způsobilosti B a negativní z skóre –0,055 u položky zkoušky způsobilosti A, takže by mohla mít špatnou opakovatelnost.
Účastníci 5, 23 a 26 mají nakládat se svými výsledky jako s takovými, které poskytují „varovné“ signály a měli by zkontrolovat, jak se umístí jejich výsledky v následujícím cyklu programu zkoušení způsobilosti. Vizuální hodnocení a korelační koeficient ukazují na tendenci na souhlasná z-skóre, takže by mohla existovat možnost zlepšit metodu měření podrobnějšími instrukcemi.
Legenda
X z-skóre pro alergen A
Y z-skóre pro alergen B
Obrázek E.11 – Youdenův graf hodnot z-skóre z tabulky E.10
Tabulka E.10 – Data a výpočty koncentrace protilátek u dvou podobných alergenů
Laboratoř
Data
z-skóre
i
Alergen A xA,i
Alergen B xB,i
Alergen A zA,i
Alergen B zB,i
1
12,95
9,15
0,427
0,515
2
6,47
6,42
–1,540
–0,428
3
11,40
6,60
–0,043
–0,366
4
8,32
4,93
–0,978
–0,942
5
18,88
13,52
2,228
2,023
6
15,14
8,22
1,092
0,194
7
10,12
7,26
–0,432
–0,138
8
17,94
9,89
1,942
0,770
9
11,68
4,17
0,042
–1,204
10
12,44
7,39
0,272
–0,093
11
6,93
7,78
–1,400
0,042
12
9,57
5,80
–0,599
–0,642
13
11,73
5,77
0,057
–0,652
14
12,29
6,97
0,227
–0,238
15
10,95
6,23
–0,180
–0,493
16
10,95
5,90
–0,180
–0,607
17
11,17
7,74
–0,113
0,028
18
11,20
8,63
–0,104
0,335
19
7,64
3,74
–1,185
–1,353
20
12,17
7,33
0,190
–0,114
21
10,71
5,70
–0,253
–0,676
22
7,84
6,07
–1,124
–0,549
23
20,47
15,66
2,710
2,762
24
12,60
11,76
0,321
1,415
25
11,37
4,91
–0,052
–0,949
26
11,36
13,51
–0,055
2,019
27
10,75
5,48
–0,241
–0,752
28
12,21
9,77
0,203
0,729
29
7,49
5,82
–1,230
–0,635
Průměr
11,54
7,66
0,00
0,00
Směrodatná odchylka
3,29
2,90
1,00
1,00
Korelační koeficient
0,706
0,706
POZNÁMKA 1 Data představují počty jednotek (U) v tisících (k) na litr (I) vzorku, kde jednotka je definována koncentrací mezinárodního referenčního materiálu.
POZNÁMKA 2 Výpočet z-skóre v této tabulce se provedl použitím nezaokrouhlených hodnot robustních průměrů a směrodatných odchylek, nikoliv použitím zaokrouhlených hodnot uváděných na konci této tabulky.
E.13 Znázornění směrodatných odchylek opakovatelnosti: Koncentrace protilátky (viz 10.6)
Tabulka E.11 uvádí výsledky stanovení koncentrací určité protilátky v séru jako položce zkoušky způsobilosti. Každý z účastníků provedl čtyři stanovení provedená za podmínek opakovatelnosti. Pro graf E.12 se použily vzorce uvedené výše. Z grafu je patrné, že několik laboratoří obdrželo nápravný nebo varovný podnět.
Tabulka E.11 – Koncentrace určitých protilátek v séru jako položce zkoušky způsobilosti (čtyři opakovaná stanovení z jedné položky zkoušky způsobilosti každým účastníkem)
Laboratoř
Průměr
kU/l
Směrodatná odchylka
kU/l
1
2,15
0,13
2
1,85
0,21
3
1,80
0,08
4
1,80
0,24
5
1,90
0,36
6
1,90
0,32
7
1,90
0,14
8
2,05
0,26
9
2,35
0,39
10
2,03
0,53
11
2,08
0,25
12
1,25
0,24
13
1,13
0,72
14
1,00
0,26
15
1,08
0,17
16
1,20
0,32
17
1,35
0,4
18
1,23
0,36
19
1,23
0,33
20
0,90
0,43
21
1,48
0,40
22
1,20
0,55
23
1,73
0,39
24
1,43
0,30
25
1,28
0,22
Robustní průměr
1,57
Robustní směrodatná odchylka
0,34
POZNÁMKA Data představují počty jednotek (U) v tisících (k) na litr (I) vzorku, kde jednotka je definována koncentrací mezinárodního referenčního materiálu.
Legenda
X průměrná koncentrace (kU/l)
Y směrodatná odchylka (kU/l)
a 0,1 % úroveň
b 1 % úroveň
c 5 % úroveň
Obrázek E.12 – Grafické vyjádření směrodatných odchylek jako funkce výběrových průměrů z dat 25 účastníků (data z tabulky E.10)
E.14 Grafické metody pro sledování výkonnosti v čase (viz 10.8)
Pro účastníky může být přínosné sledovat svou vlastní výkonnost v čase, nebo získat toto od svého poskytovatele zkoušení způsobilosti. Jednoduchý a běžný nástroj pro to je regulační diagram, například Shewhartův diagram. To vyžaduje mít k dispozici standardizované skóre výkonnosti, jako z skóre nebo PA, skóre a účastnit se několika cyklů programu zkoušení způsobilosti. Tento příklad je z klinického programu zkoušení způsobilosti na draslík v séru.
Poskytovatel zkoušení způsobilosti používá fixní interval pro přijetí 5 %, i když se zaokrouhlováním na nejbližší udávanou hodnotu (0,1 mmol/l), a ne méně než ± 0,2 mmol/l. Poskytovatel zkoušení způsobilosti upřednostňuje použití PA skóre před z skóre.
Tabulka E.12 – Hodnoty PA skóre z pěti cyklů programu zkoušení způsobilosti, každý cyklus 3 položkami zkoušky způsobilosti na draslík v séru
Kód cyklu
Položka zkoušky způsobilosti
Výsledek
Vztažná hodnota
PA skóre
Průměr PA
101
A
6,4
6,2
75
42
101
B
4,2
4,1
50
101
C
4,1
4,1
0
102
A
6,0
5,9
25
8
102
B
4,3
4,4
–33
102
C
5,5
5,4
33
103
A
4,1
4,2
–33
–28
103
B
3,6
3,7
–50
103
C
4,2
4,2
0
104
A
5,7
5,8
–25
11
104
B
3,9
4,0
–50
104
C
6,3
5,9
110
105
A
3,6
3,7
–50
–19
105
B
4,5
4,6
–33
105
C
5,3
5,2
25
Výsledky mohou být pro zhodnocení snadno vyneseny – doporučují se 2 typy grafů:
– Regulační diagram standardizovaných skóre výkonnosti pro každý cyklus, se znázorněním několika položek zkoušky způsobilosti ve stejném cyklu programu zkoušení způsobilosti. To osvětlí výkonnost v čase, včetně jakýchkoli trendů; znázorňuje jej obrázek E.13.
– Bodový graf vynesením standardizovaných skóre výkonnosti oproti vztažným hodnotám, k prokázání, zda výkonnost závisí na koncentrační úrovní a aby se projevil jakýkoli trend vztahující se k úrovni měřené veličiny; znázorňuje jej obrázek E.14.
Legenda
X PT cyklus
Y PA skóre
a opatření
b průměr PA
Obrázek E.13 – Skóre výkonnosti pro každý cyklus programu zkoušení způsobilosti (data z tabulky E.12)
Legenda
X vztažná hodnota (mmol/l)
Y PA skóre
předchozí
současný
opatření
Obrázek E.14 – Skóre výkonnosti pro různé úrovně měřené veličiny
E.15 Analýza kvalitativních dat; příklad pořadové veličiny; reakce kůže na kosmetiku (viz kapitola 11)
Program zkoušení způsobilosti je zaměřen na analýzu reakce na výrobek pro péči o pleť, když se aplikuje standardnímu zvířecímu subjektu. Jakákoli zánětlivá reakce se posuzuje podle následující škály:
a) žádná reakce;
b) mírné zarudnutí;
c) významné podráždění nebo otok;
d) prudká reakce včetně zhnisání a krvácení.
Byly rozesílány dvě položky zkoušky způsobilosti představující dva odlišné výrobky, označené výrobek A a výrobek B, na každou položku bylo 50 účastníků. Výsledky účastníků uvádí tabulka E.13 a jsou znázorněny graficky na obrázku E.15. Pro každou položku jsou vyznačeny modus a medián výsledků účastníků.
Tabulka E.13 – Výsledky pro dvě položky zkoušky způsobilosti, podráždění kůže
Reakce
Produkt A
Produkt B
1
20 (40 %) #
8 (16 %)
2
18 (36 %) @
12 (24 %)
3
10 (20 %)
20 (40 %) # @
4
2 (4 %)
10 (20 %)
# modus
@ medián
Legenda
X stupeň reakce
Y procento výsledků (%)
a #
b @
a, b #, @
PT položka A
PT položka B
Obrázek E.15 – Sloupcový diagram odezvy (v %) pro dvě položky zkoušky způsobilosti pro podráždění kůže – # modus, @ medián
Povšimněte si, že u těchto položek zkoušky způsobilosti lze použít medián nebo modus jako souhrnné statistiky a ty naznačují, že stupeň reakce na výrobek B byla závažnější, než reakce na výrobek A. Poskytovatel zkoušky způsobilosti může stanovit, že výsledek, který je více než jednu pořadovou jednotku mimo medián, vyvolá „podnět k opatření“, v případě výrobku A se podnět k opatření vyskytuje u dvou výsledků (4 %), reakce „4“, u výrobku B se podněty k opatření vyskytují u 8 výsledků (16 %), reakce „1“.
Příloha F (informativní)
Příklad počítačového kódu pro tvorbu grafů a metodu bootstrap pro výsledky zkoušení způsobilosti
Následující skript používá verzi 3.1.1 systému R a vytvoří grafy a výsledky pro příklad E.6.
################################
#LIBRARY TO DOWNLOAD AND TO USE
############################
3.18 certified reference material
CRM
reference material (RM) (3.17) characterized by a metrologically valid procedure for one or more specified properties, accompanied by an RM certificate that provides the value of the specified property, its associated uncertainty, and a statement of metrological traceability
Note 1 to entry: The concept of value includes a nominal property or a qualitative attribute such as identity or sequence. Uncertainties for such attributes may be expressed as probabilities or levels of confidence.