Коефіцієнт кореляції кендала приклад розрахунку. Коефіцієнти рангової кореляції кендала та спірмена. З чого слід виходити, визначаючи тему, об'єкт, предмет, мету, завдання та гіпотезу дослідження

КЕНДАЛУ КОЕФІЦІЄНТ РАНГОВОЇ КОРРЕЛЯЦІЇ

Один із вибіркових заходів залежності двох випадкових величин(ознак) Xі Y,заснована на ранжируванні елементів вибірки (X 1 , Y x), .. ., (Х п, Y n). К. к. н. до. відноситься, таким чином, до рангові статистикита визначається формулою

де r i- У, що належить тій парі ( X, Y), для до-рій Xравен i, S = 2N-(п-1)/2, N-число елементів вибірки, для яких брало одночасно j>i і r j >r i. Завжди В якості вибіркового заходу залежності К. к. н. к. широко використовувався М. Кендалл (М. Kendall, див.).

К. к. н. застосовується для перевірки гіпотези незалежності випадкових величин. Якщо гіпотеза незалежності правильна, то E t =0 і D t =2(2n+5)/9n(n-1). При невеликому обсязі вибірки перевірка статистич. гіпотези незалежності виробляється з допомогою спеціальних таблиць (див. ). При n>10 мають нормальне наближення для розподілу т: якщо

то гіпотеза про незалежність відкидається, інакше приймається. Тут a . - Рівень значимості, u a /2 є відсоткова точка нормального розподілу. К. к. н. к., як і будь-яка , може використовуватися виявлення залежності двох якісних ознак, якщо тільки елементи вибірки можна впорядкувати щодо цих ознак. Якщо X, Yмають спільне нормальне з коефіцієнтом кореляції р, то зв'язок між К. до. і має вигляд:

Див. також Спірмена рангової кореляції, ранговий критерій.

Літ.: Кенделл М., Рангові кореляції, пров. з англ., М., 1975; Ван дер Варден Б. Л., Математична, пров. з ньому., М., 1960; Більшов Л. Н., Смирнов Н. Ст, Таблиці математичної статистики, М., 1965.

А. В. Прохоров.

Математична енциклопедія. - М: Радянська енциклопедія. І. М. Виноградов. 1977-1985.

Дивитись що таке "КЕНДАЛА КОЕФІЦІЄНТ РАНГОВОЇ КОРРЕЛЯЦІЇ" в інших словниках:

Англ. з ефективним, rank correlation Kendall; ньому. Kendalls Rangkorrelationskoeffizient. Коефіцієнт кореляції, що визначає ступінь відповідності впорядкування всіх пар об'єктів за двома змінними. Антіназі. Енциклопедія соціології, 2009 … Енциклопедія соціології

КОЕФІЦІЄНТ РАНГОВОЇ КОРРЕЛЯЦІЇ КЕНДАЛУ- англ. соеficient, rank correlation Kendall; ньому. Kendalls Rangkorrelationskoeffizient. Коефіцієнт кореляції, що визначає ступінь відповідності впорядкування всіх пар об'єктів за двома змінними … Тлумачний словник з соціології

Міра залежності двох випадкових величин (ознак) Xі Y, заснована на ранжируванні незалежних результатів спостережень (X1, Y1), . . ., (Xn, Yn). Якщо ранги значень X розташовані у природному порядку i=1, . . ., п,a Ri ранг Y, відповідний… … Математична енциклопедія

Коефіцієнт кореляції- (Correlation coefficient) Коефіцієнт кореляції це статистичний показник залежності двох випадкових величин Визначення коефіцієнта кореляції, види коефіцієнтів кореляції, властивості коефіцієнта кореляції, обчислення та застосування. Енциклопедія інвестора

Залежність між випадковими величинами, яка має, взагалі кажучи, строго функціонального характеру. На відміну від функціональної залежності До., як правило, розглядається тоді, коли одна з величин залежить не тільки від цієї іншої, але і ... Математична енциклопедія

Кореляція (кореляційна залежність) статистична взаємозв'язок двох чи кількох випадкових величин (чи величин, які можна з деякою допустимою мірою точності вважати такими). При цьому зміни значень однієї або ... Вікіпедія

Кореляція- (Correlation) Кореляція це статистичний взаємозв'язок двох або кількох випадкових величин Поняття кореляції, види кореляції, коефіцієнт кореляції, кореляційний аналіз, кореляція цін, кореляція валютних пар на Форекс. Енциклопедія інвестора

Вважають, що початок С. м. в. або, як її часто називають, статистиці «малих п», було покладено в першому десятилітті XX століття публікацією роботи У. Госсета, в якій він помістив t розподіл, постульований отримав трохи пізніше світову ... Психологічна енциклопедія

Моріс Кендалл Sir Maurice George Kendall Дата народження: 6 вересня 1907(1907 09 06) Місце народження: Кеттерінг, Великобританія Дата смерті … Вікіпедія

Прогноз- (Forecast) Визначення прогнозу, завдання та принципи прогнозування Визначення прогнозу, завдання та принципи прогнозування, методи прогнозування Зміст Зміст Визначення Основні поняття прогностики Завдання та принципи прогнозування… Енциклопедія інвестора

Коротка теорія

Коефіцієнт кореляції Кендала використовується у разі, коли змінні представлені двома порядковими шкалами за умови, що пов'язані ранги відсутні. Обчислення коефіцієнта Кендал пов'язане з підрахунком числа збігів та інверсій.

Цей коефіцієнт змінюється у межах і розраховується за такою формулою:

Для розрахунку всі одиниці ранжуються за ознакою; по ряду іншої ознаки підраховується для кожного рангу число наступних рангів, що перевищує даний (їх позначимо через), і число наступних рангів нижче за дане (їх позначимо через).

Можна показати, що

і коефіцієнт рангової кореляції Кендала можна записати як

Для того, щоб при рівні значущості перевірити нульову гіпотезу про рівність нулю генерального коефіцієнта рангової кореляції Кендалла при конкуруючій гіпотезі треба обчислити критичну точку:

де – обсяг вибірки; – критична точка двосторонньої критичної області, яку знаходять за таблицею функції Лапласа за рівністю

Якщо – немає підстав відкинути нульову гіпотезу. Ранговий кореляційний зв'язок між ознаками незначний.

Якщо – нульову гіпотезу відкидають. Між ознаками існує значний ранговий кореляційний зв'язок.

Приклад розв'язання задачі

Умова задачі

Під час прийому на роботу семи кандидатам на вакантні посади було запропоновано два тести. Результати тестування (у балах) наведено у таблиці:

Тест

Кандидат

Обчислити ранговий коефіцієнт кореляції Кендалла між результатами тестування з двох тестів і оцінити його значимість.

Рішення задачі

Обчислимо коефіцієнт Кендала

Ранги факторного ознаки розташовуються строго порядку зростання і паралельно записуються відповідні їм ранги результативного ознаки . До кожного рангу у складі наступних його рангів підраховується кількість великих його за величиною рангів (заноситься в стовпець ) і число рангів, менших за значенням (заноситься в стовпець ).

Сума

Одним із факторів, що обмежують застосування критеріїв, заснованих на припущенні нормальності, є обсяг вибірки. До тих пір, поки вибірка досить велика (наприклад, 100 або більше спостережень), можна вважати, що вибірковий розподіл є нормальним, навіть якщо ви не впевнені, що розподіл змінної в популяції є нормальним. Проте, якщо вибірка мала, ці критерії слід використовувати лише за наявності впевненості, що змінна справді має нормальний розподіл. Однак немає способу перевірити це припущення на малій вибірці.

Використання критеріїв, заснованих на припущенні нормальності, крім того, обмежене шкалою вимірів (див. розділ Елементарні поняття аналізу даних). Такі статистичні методи, як t-критерій, регресія і т. д. припускають, що вихідні дані є безперервними. Однак є ситуації, коли дані, швидше, просто ранжовані (виміряні в порядковій шкалі), ніж точно виміряні.

Типовий приклад дають рейтинги сайтів в Інтернет: першу позицію займає сайт з максимальною кількістю відвідувачів, другу позицію займає сайт з максимальною кількістю відвідувачів серед сайтів, що залишилися (серед сайтів, з яких видалений перший сайт) і т. д. Знаючи рейтинги, ми можемо сказати, що кількість відвідувачів одного сайту більша за кількість відвідувачів іншого, але наскільки більше, сказати вже не можна. Уявіть, що ви маєте 5 сайтів: А, В, С, D, Е, які розташовуються на 5 перших місць. Нехай у поточному місяці ми мали наступну розстановку: А, В, С, D, E, а попереднього місяця: D, E, А, В, С. Запитується, чи відбулися істотні зміни в рейтингах сайтів чи ні? У даній ситуації, очевидно, ми не можемо використовувати t-критерій, щоб порівняти ці дві групи даних, і переходимо в область специфічних ймовірнісних обчислень (а будь-який статистичний критерій містить ймовірну калькуляцію!). Ми міркуємо приблизно так: наскільки велика ймовірність того, що відмінність у двох розстановках сайтів викликана суто випадковими причинами або ця відмінність занадто велика і не може бути пояснена за рахунок чистої випадковості. У цих міркуваннях ми використовуємо лише ранги або перестановки сайтів і не використовуємо конкретний вид розподілу кількості відвідувачів на них.

Для аналізу малих вибірок і даних, виміряних у бідних шкалах, застосовують непараметричні методи.

Короткий огляд непараметричних процедур

По суті, для кожного параметричного критерію є принаймні одна непараметрична альтернатива.

Загалом, ці процедури потрапляють до однієї з наступних категорій:

критерії розходження для незалежних вибірок;
критерії відмінності залежних вибірок;
оцінка ступеня залежності між змінними.

Взагалі підхід до статистичних критеріїв в аналізі даних має бути прагматичним і не обтяжений зайвими теоретичними міркуваннями. Маючи у своєму розпорядженні комп'ютер із системою STATISTICA, ви легко застосуєте до своїх даних кілька критеріїв. Знаючи про деякі підводні камені методів, ви шляхом експериментування оберете правильне рішення. Розвиток сюжету досить природний: якщо потрібно порівняти значення двох змінних, то ви використовуєте t-критерій. Однак слід пам'ятати, що він заснований на припущенні нормальності та рівності дисперсій у кожній групі. Звільнення від цих припущень призводить до непараметричних тестів, що особливо корисні для малих вибірок.

Розвиток t-критерію призводить до дисперсійного аналізу, який використовується, коли число порівнюваних груп більше двох. Відповідний розвиток непараметричних процедур призводить до непараметричного дисперсійного аналізу, щоправда, значно біднішому, ніж класичний дисперсійний аналіз.

Для оцінки залежності, або, висловлюючись дещо пишномовно, ступеня тісноти зв'язку, обчислюють коефіцієнт кореляції Пірсона. Строго кажучи, його застосування має обмеження, пов'язані, наприклад, з типом шкали, в якій виміряні дані, і нелінійністю залежності, тому як альтернатива використовуються також непараметричні, або так звані рангові, коефіцієнти кореляції, що застосовуються, наприклад, для ранжованих даних. Якщо дані виміряні в номінальній шкалі, їх природно представляти у таблицях спряженості, у яких використовується критерій хі-квадрат Пірсона з різними варіаціями і поправками на точність.

Отже, по суті є лише кілька типів критеріїв та процедур, які потрібно знати та вміти використовувати залежно від специфіки даних. Вам потрібно визначити, який критерій слід застосовувати у конкретній ситуації.

Непараметричні методи є найбільш прийнятними, коли обсяг вибірок малий. Якщо даних багато (наприклад, n >100), часто немає сенсу використовувати непараметричну статистику.

Якщо розмір вибірки дуже малий (наприклад, n = 10 або менше), то рівні значущості тих непараметричних критеріїв, які використовують нормальне наближення, можна розглядати тільки як грубі оцінки.

Відмінності між незалежними групами. Якщо є дві вибірки (наприклад, чоловіки та жінки), які потрібно порівняти щодо деякого середнього значення, наприклад, середнього тиску або кількості лейкоцитів у крові, можна використовувати t-тест для незалежних вибірок.

Непараметричними альтернативами цьому тесту є критерій серій Вал'да-Вол'фовіца, Манна-Уітні)/n, де x i - i-е значення, n – число спостережень. Якщо змінна містить негативні значення або нуль (0), геометричне середнє не можна обчислити.

Гармонічне середнє

Гармонійне середнє іноді використовують для усереднення частот. Гармонічне середнє обчислюється за такою формулою: ГС = n/S(1/х i) де ГС - гармонійне середнє, n - число спостережень, х i - значення спостереження з номером i. Якщо змінна містить нуль (0), гармонійне середнє не можна обчислити.

Дисперсія та стандартне відхилення

Вибіркова дисперсія та стандартне відхилення - найчастіше використовувані заходи мінливості (варіації) даних. Дисперсія обчислюється як сума квадратів відхилень значень змінної від вибіркового середнього, поділена на п-1 (але не п). Стандартне відхилення обчислюється як квадратний корінь з оцінки дисперсії.

Розмах

Розмах змінної є показником мінливості, що обчислюється як максимум мінус мінімум.

Квартильний розмах

Квартальний розмах, за визначенням, дорівнює верхня квартиль мінус нижня квартиль (75% процентиль мінус 25% процентиль). Так як 75% процентиль (верхня квартиль) - це значення, ліворуч від якого знаходяться 75% спостережень, а 25% процентиль (нижня квартиль) - це значення, ліворуч від якого знаходиться 25% спостереженні, то квартильний розмах являє собою інтервал навколо медіани, який містить 50% спостережень (значення змінної).

Асиметрія

Асиметрія – це характеристика форми розподілу. Розподіл скошений ліворуч, якщо значення асиметрії негативне. Розподіл скошено праворуч, якщо асиметрія позитивна. Асиметрія стандартного нормального розподілу дорівнює 0. Асиметрія пов'язана з третім моментом і визначається як: асиметрія = n × М 3 /[(n-1) × (n-2) × s 3 ], де М 3 дорівнює: (х i -xсереднє x) 3 s 3 - стандартне відхилення, зведене в третій ступінь, n - число спостережень.

Ексцес

Ексцес - це характеристика форми розподілу, саме міра гостроти його піку (щодо нормального розподілу, ексцес якого дорівнює 0). Як правило, розподіли з гострішим піком, ніж у нормального, мають позитивний ексцес; розподіли, пік яких менш гострий ніж пік нормального розподілу, мають негативний ексцес. Ексцес пов'язаний з четвертим моментом та визначається формулою:

ексцес = /[(n-1) × (n-2) × (n-3) × s 4 ], де M j дорівнює: (х-хсереднє x , s 4 - стандартне відхилення в четвертому ступені, n - число спостережень .

Потреби економічної та соціальної практики вимагають розробки методів кількісного опису процесів, що дозволяють точно реєструвати як кількісні, а й якісні чинники. За умови, що значення якісних ознак можуть бути впорядковані, або проранжовані за ступенем зменшення (зростання) ознаки, можна оцінити тісноту зв'язку між якісними ознаками. Під якісним мається на увазі ознака, яку неможливо виміряти точно, але вона дозволяє порівнювати об'єкти між собою і, отже, розташувати їх у порядку спадання чи зростання якості. І реальним змістом вимірів у рангових шкалах є той порядок, у якому вибудовуються об'єкти за рівнем виразності вимірюваної ознаки.

У практичних цілях використання рангової кореляції дуже корисне. Наприклад, якщо встановлена висока рангова кореляція між двома якісними ознаками виробів, достатньо контролювати вироби тільки за однією з ознак, що здешевлює і прискорює контроль.

Як приклад можна розглянути наявність зв'язку між забезпеченістю товарною продукцією низки підприємств та накладними витратами на реалізацію. У ході 10 спостережень отримано таку таблицю:

Упорядкуємо значення X за зростанням, при цьому кожному значенню поставимо у відповідність його порядковий номер (ранг):

Таким чином,

Побудуємо наступну таблицю, куди записуються пари X та Y, отримані в результаті спостереження зі своїми рангами:

Позначаючи різницю рангів як, запишемо формулу обчислення вибіркового коефіцієнта кореляції Спірмена:

де n - число спостережень, воно число пар рангів.

Коефіцієнт Спірмена має такі властивості:

Якщо між якісними ознаками X та Y є повна пряма залежність у тому сенсі, що ранги об'єктів збігаються при всіх значеннях i, то вибірковий коефіцієнт кореляції Спірмена дорівнює 1. Дійсно, підставивши у формулу, отримаємо 1.

Якщо між якісними ознаками X і Y є повна зворотна залежність тому, що рангу відповідає ранг, то вибірковий коефіцієнт кореляції Спірмена дорівнює -1.

Справді, якщо

Підставивши значення формулу коефіцієнта кореляції Спірмена, отримаємо -1.

Якщо між якісними ознаками немає повної прямої, ні повної зворотний зв'язок, то вибірковий коефіцієнт кореляції Спірмена укладено між -1 і 1, причому чим ближче до 0 його значення, тим зв'язок між ознаками менше.

За даними наведеного вище прикладу знайдемо значення P, для цього добудуємо таблицю значеннями і:

Вибірковий коефіцієнт кореляції Кендала. Можна оцінювати зв'язок між двома якісними ознаками, використовуючи коефіцієнт рангової кореляції Кендала.

Нехай ранги об'єктів вибірки обсягу n дорівнюють:

за ознакою X:

за ознакою Y: . Припустимо, що правіше є рангів, більших, правіше є рангів, більших, правіше є рангів, більших. Введемо позначення суми рангів

Аналогічно введемо позначення як суму кількості рангів, що лежать правіше, але менших.

Вибірковий коефіцієнт кореляції Кендала записується формулою:

Де n – обсяг вибірки.

Коефіцієнт Кендалла має ті ж властивості, що і коефіцієнт Спірмена:

Якщо між якісними ознаками X і Y є повна пряма залежність у тому сенсі, що ранги об'єктів збігаються при всіх значеннях i, то вибірковий коефіцієнт кореляції Кендалла дорівнює 1. Справді, правіше є n-1 рангів, більших, тому таким же чином встановлюємо, що. Тоді. І коефіцієнт Кендалл дорівнює: .

Якщо між якісними ознаками X і Y є повна зворотна залежність тому, що рангу відповідає ранг, то вибірковий коефіцієнт кореляції Кендалла дорівнює -1. Правіше немає рангів, великих, тому. Аналогічно. Підставляючи значення R+=0 формулу коефіцієнта Кендалла, отримаємо -1.

При досить великому обсязі вибірки і значеннях коефіцієнтів рангової кореляції, не близьких до 1, має місце наближена рівність:

Коефіцієнт Кендал дає більш обережну оцінку кореляції, ніж коефіцієнт Спірмена? (числове значення? завжди менше, ніж). Хоча обчислення коефіцієнта? менш трудомістко, ніж обчислення коефіцієнта, останній легше перерахувати, якщо до ряду додається новий член.

Важлива перевага коефіцієнта полягає в тому, що за його допомогою можна визначити коефіцієнт приватної рангової кореляції, що дозволяє оцінити ступінь "чистого" взаємозв'язку двох рангових ознак, усунувши вплив третього:

Значимість коефіцієнтів рангової кореляції. При визначенні сили рангової кореляції на основі вибіркових даних необхідно розглянути наступне питання: з яким ступенем надійності можна покладатися на висновок про те, що в генеральній сукупності існує кореляція, якщо отримано певний вибірковий коефіцієнт рангової кореляції. Іншими словами, слід перевірити значущість кореляцій рангів, що спостерігалися, виходячи з гіпотези про статистичну незалежність двох аналізованих ранжувань.

При порівняно великому обсязі n вибірки перевірка значення коефіцієнтів рангової кореляції може здійснюватися за допомогою таблиці нормального розподілу (табл. 1 додатка). Чи для перевірки значущості коефіцієнта Спірмена? (при n>20) обчислюють значення

а для перевірки значущості коефіцієнта Кендалл? (при n>10) обчислюють значення

де S = R + - R-, n - обсяг вибірки.

Далі задаються рівнем значущості?, Визначають по таблиці критичних точок розподілу Стьюдента критичне значення tкр(?,k) і порівнюють з ним обчислене значення або. Число ступенів волі приймається k = n-2. Якщо > tкр, то значення або визнаються значущими.

Коефіцієнт кореляції Фехнера.

Нарешті, слід згадати коефіцієнт Фехнера, характеризує елементарну ступінь тісноти зв'язку, який доцільно використовуватиме встановлення наявності зв'язку, коли є невеликий обсяг вихідної інформації. Основою його обчислення є облік напряму відхилень від середньої арифметичної варіанти кожного варіаційного ряду та визначення узгодженості знаків цих відхилень для двох рядів, зв'язок між якими вимірюється.

Цей коефіцієнт визначається за формулою:

де na - кількість збігів знаків відхилень індивідуальних величин від їхньої середньої арифметичної; nb – відповідно кількість розбіжностей.

Коефіцієнт Фехнера може змінюватись у межах -1,0<= Кф<= +1,0.

Прикладні аспекти рангової кореляції. Як зазначалося, коефіцієнти рангової кореляції можуть використовуватися як якісного аналізу взаємозв'язку двох рангових ознак, а й щодо сили зв'язку між ранговим і кількісним ознаками. У цьому випадку значення кількісної ознаки впорядковуються і приписуються їм відповідні ранги.

Існує ряд ситуації, коли обчислення коефіцієнтів рангової кореляції є доцільним і при визначенні сили зв'язку двох кількісних ознак. Так, при суттєвому відхиленні розподілу одного з них (або обох) від нормального розподілу визначення рівня значущості вибіркового коефіцієнта кореляції r стає некоректним, тоді як рангові коефіцієнти? і? не пов'язані з такими обмеженнями щодо рівня значимості.

Інша ситуація такого роду виникає, коли зв'язок двох кількісних ознак має нелінійний (але монотонний) характер. Якщо кількість об'єктів у вибірці невелика або якщо для дослідника суттєвим є знак зв'язку, то використання кореляційного відношення? може бути тут неадекватним. Обчислення коефіцієнта рангової кореляції дозволяє обійти зазначені труднощі.

Практична частина

Завдання 1. Кореляційно-регресійний аналіз

Постановка та формалізація задачі:

Дана емпірична вибірка, складена на основі низки спостережень за станом обладнання (на предмет відмови) та кількістю виготовлених виробів. Вибірка неявно характеризує взаємозв'язок між обсягом устаткування, що відмовило, і кількістю виготовлених виробів. За змістом вибірки видно, що виготовлені вироби виробляються на обладнанні, що залишилося в строю, оскільки чим більше % обладнання, що відмовило, тим менше виготовлених виробів. Потрібно провести дослідження вибірки на кореляційно-регресійну залежність, тобто встановити форму залежності, оцінити функцію регресії (регресійний аналіз), а також виявити зв'язок між випадковими змінними та оцінити її тісноту (кореляційний аналіз). Додатковим завданням кореляційного аналізу є оцінка рівняння регресії однією змінною іншою. Крім того, необхідно спрогнозувати кількість випущених виробів при 30% відмову обладнання.

Формалізуємо наведену вибірку в таблиці, позначивши дані «Відмова обладнання, %» як X, дані «Кількість виробів» як Y:

Початкові дані. Таблиця 1

За фізичним змістом завдання видно, що кількість випущених виробів Y безпосередньо залежить від % відмови обладнання, тобто очевидна залежність Y від X. При проведенні регресійного аналізу потрібно знайти математичну залежність (регресію), що зв'язує величини X і Y. При цьому регресійний аналіз, На відміну від кореляційного, передбачає, що величина X виступає як незалежна змінна, або фактор, величина Y - як залежна від неї, або результативна ознака. Отже, потрібно зробити синтезування адекватної економіко-математичної моделі, тобто. визначити (знайти, підібрати) функцію Y = f(X), що характеризує залежність між величинами X і Y, використовуючи яку можна буде спрогнозувати значення Y при X = 30. Розв'язання цього завдання може бути виконане за допомогою кореляційно-регресійного аналізу.

Короткий огляд методів розв'язання кореляційно-регресійних завдань та обґрунтування методу розв'язання.

Методи регресійного аналізу за кількістю факторів, що впливають на результативну ознаку, поділяються на одно-і багатофакторні. Однофакторні – число незалежних факторів = 1, тобто. Y = F(X)

багатофакторний – число факторів > 1, тобто.

За кількістю досліджуваних залежних змінних (результативних ознак) регресійні завдання також можна розділити завдання з однією і багатьма результативними ознаками. Загалом завдання з багатьма результативними ознаками може бути записано:

Метод кореляційно-регресійного аналізу полягає у знаходженні параметрів апроксимуючої (наближуючої) залежності виду

Оскільки в наведеному завданні фігурує лише одна незалежна змінна, тобто досліджується залежність тільки від одного фактора, що впливає на результат, слід застосувати дослідження на однофакторну залежність або парну регресію.

За наявності лише одного фактора залежність визначається у вигляді:

Форма запису конкретного рівняння регресії залежить від вибору функції, що відображає статистичний зв'язок між фактором та результативною ознакою та включає наступні:

лінійна регресія, рівняння виду,

параболічна, рівняння виду

кубічна, рівняння виду

гіперболічна, рівняння виду

напівлогарифмічна, рівняння виду

показова, рівняння виду

статечна, рівняння виду.

Знаходження функції зводиться до визначення параметрів регресійного рівняння та оцінки достовірності рівняння. Для визначення параметрів можна використовувати метод найменших квадратів, і метод найменших модулів.

Перший у тому, щоб сума квадратів відхилень емпіричних значень Yi від розрахованих середніх Yi, була мінімальною.

Метод найменших модулів полягає у мінімізації суми модулів різниці емпіричних значень Yi та розрахованих середніх Yi.

Для розв'язання задачі виберемо метод найменших квадратів, як найпростіший і дає хороші за статистичними властивостями оцінки.

Технологія розв'язання задачі регресійного аналізу за допомогою методу найменших квадратів.

Визначити вид залежності (лінійна, квадратична, кубічна тощо) між змінними можна за допомогою оцінки величини відхилення фактичного значення y від розрахункового:

де - емпіричні значення, - розрахункові значення щодо апроксимуючої функції. Оцінюючи значення Si для різних функцій та вибираючи найменше з них, підбираємо апроксимуючу функцію.

Вигляд тієї чи іншої функції визначається за допомогою знаходження коефіцієнтів, що знаходяться для кожної функції як розв'язання певної системи рівнянь:

лінійна регресія, рівняння виду, система -

параболічна, рівняння виду, система -

кубічна, рівняння виду, система -

Вирішивши систему, знаходимо, за допомогою яких приходимо до конкретного виразу аналітичної функції, маючи яку знаходимо розрахункові значення. Далі є всі дані для знаходження оцінки величини відхилення S та аналізу на мінімум.

Для лінійної залежності оцінюємо тісноту зв'язку між фактором X та результативною ознакою Y у вигляді коефіцієнта кореляції r:

Середнє значення показника;

Середнє значення фактора;

y – експериментальне значення показника;

x – експериментальне значення фактора;

Середньоквадратичне відхилення по х;

Середньоквадратичне відхилення за y.

Якщо коефіцієнт кореляції r = 0, то вважають, що зв'язок між ознаками незначний або відсутній, якщо r = 1, то між ознаками існує дуже високий функціональний зв'язок.

Використовуючи таблицю Чеддока, можна провести якісну оцінку тісноти кореляційного зв'язку між ознаками:

Таблиця Чеддока Таблиця 2.

Для нелінійної залежності визначається кореляційне відношення (0 1) та індекс кореляції R, які обчислюються за такими залежностями.

де значення – значення показника, обчислене за регресійною залежністю.

Як оцінку точності обчислень використовуємо величину середньої відносної помилки апроксимації

При високій точності лежить у межах 0-12%.

Для оцінки підбору функціональної залежності використовуємо коефіцієнт детермінації

Коефіцієнт детермінації використовується як «узагальнена» міра якості підбору функціональної моделі, оскільки він висловлює співвідношення між факторною та загальною дисперсією, точніше частку факторної дисперсії у загальній.

Для оцінки значущості індексу кореляції R застосовується F-критерій Фішера. Фактичне значення критерію визначається за такою формулою:

де m – число параметрів рівняння регресії, n – число спостережень. Величина порівнюється з критичним значенням, яке визначається за таблицею F-критерію з урахуванням прийнятого рівня значущості та числа ступенів волі. Якщо, то величина індексу кореляції R визнається суттєвою.

Для обраної форми регресії обчислюються коефіцієнти рівняння регресії. Результати обчислень для зручності включаються до таблиці наступної структури (загалом, кількість колонок та їх вид змінюються залежно від виду регресії):

Таблиця 3

Рішення задачі.

Провелися спостереження економічним явищем - залежністю випуску виробів від відсотка відмови устаткування. Отримано сукупність значень.

Вибрані значення описані у таблиці 1.

Будуємо графік емпіричної залежності за наведеною вибіркою (рис. 1)

По виду графіка визначаємо, що аналітичну залежність можна у вигляді лінійної функції:

Розрахуємо парний коефіцієнт кореляції для оцінки взаємозв'язку між X та Y:

Побудуємо допоміжну таблицю:

Таблиця 4

Вирішуємо систему рівнянь для знаходження коефіцієнтів та:

з першого рівняння, підставляючи значення

у друге рівняння, отримаємо:

Знаходимо

Отримуємо вид рівняння регресії:

9. Для оцінки тісноти знайденого зв'язку скористаємося коефіцієнтом кореляції r:

По таблиці Чеддока встановлюємо, що з r = 0.90 зв'язок між X і Y дуже висока, отже достовірність рівняння регресії також висока. Для оцінки точності обчислень використовуємо величину середньої відносної помилки апроксимації:

Вважаємо, що величина забезпечує високий рівень достовірності рівняння регресії.

Для лінійного зв'язку між X та Y індекс детермінації дорівнює квадрату коефіцієнта кореляції r: . Отже, 81% від загальної варіації пояснюється зміною факторної ознаки X.

Для оцінки значущості індексу кореляції R, який у разі прямолінійної залежності абсолютної величини дорівнює коефіцієнту кореляції r, застосовується F-критерій Фішера. Визначаємо фактичне значення за такою формулою:

де m – число параметрів рівняння регресії, n – число спостережень. Тобто n=5, m=2.

З урахуванням прийнятого рівня значущості = 0,05 та числа ступенів свободи та отримуємо критичне табличне значення. Оскільки величина індексу кореляції R визнається істотною.

Обчислимо прогнозне значення Y при X = 30:

Побудуємо графік знайденої функції:

11. Визначаємо помилку коефіцієнта кореляції за величиною середньоквадратичного відхилення

а потім визначаємо значення нормованого відхилення

Зі співвідношення > 2 з ймовірністю 95% можна говорити про значущість отриманого коефіцієнта кореляції.

Завдання 2. Лінійна оптимізація

Варіант 1.

Планом розвитку регіону передбачається ввести в дію 3 нафтові родовища із сумарним обсягом видобутку рівним 9 млн.т. У першому родовищі обсяг видобутку становить щонайменше 1 млн.т, другого - 3 млн.т, третьому - 5 млн.т. Для досягнення такої продуктивності необхідно пробурити щонайменше 125 свердловин. Задля реалізації цього плану виділено 25 млн. крб. капітальних вкладень (показник К) та 80 км труб (показник L).

Потрібно визначити оптимальну (максимальну) кількість свердловин для забезпечення планової продуктивності кожного родовища. Вихідні дані із завдання наведені у таблиці.

Початкові дані

Постановка задачі наведена вище.

Формалізуємо задані в задачі умови та обмеження. Метою вирішення даної оптимізаційної задачі є знаходження максимального значеннявидобутку нафти за оптимальної кількості свердловин по кожному родовищу з урахуванням існуючих обмежень щодо завдання.

Цільова функція відповідно до вимог завдання набуде вигляду:

де – кількість свердловин по кожному родовищу.

Існуючі обмеження щодо завдання на:

довжину прокладки труб:

число свердловин на кожному родовищі:

вартість будівництва 1 свердловини:

Завдання лінійної оптимізації вирішуються, наприклад, такими методами:

Графічно

Симплекс-методом

Використання графічного способузручно тільки при вирішенні задач лінійної оптимізації із двома змінними. При більшій кількості змінних необхідне застосування апарату алгебри. Розглянемо загальний метод розв'язання задач лінійної оптимізації, що називається симплекс-методом.

Симлекс-метод - це характерний приклад ітераційних обчислень, які використовуються під час вирішення більшості оптимізаційних завдань. p align="justify"> Розглядаються ітераційні процедури такого роду, що забезпечують вирішення завдань за допомогою моделей дослідження операцій.

Для вирішення оптимізаційної задачі за допомогою симплекс-методу необхідно, щоб число невідомих Xi було більше числа рівнянь, тобто. система рівнянь

задовольняла відношенню m

A= дорівнював m.

Позначимо стовпця матриці A як, а стовпець вільних членів як

Базовим рішенням системи (1) називається набір з m невідомих які є рішенням системи (1).

Коротко алгоритм симплекс-методу описується так:

Вихідне обмеження, записане у вигляді нерівності типу<= (=>) , можна у вигляді рівності, додаючи залишкову змінну до лівої частини обмеження (віднімаючи надмірну змінну з лівої частини) .

Наприклад, у ліву частину вихідного обмеження

вводиться залишкова змінна, внаслідок чого вихідна нерівність звертається до рівності

Якщо вихідне обмеження визначає витрату труб, змінну слід інтерпретувати як залишок, або невикористану частину даного ресурсу.

Максимізація цільової функції еквівалентна мінімізації тієї ж функції, що взята з протилежним знаком. Тобто в нашому випадку

еквівалентна

Складається симплекс-таблиця для базового рішення наступного виду:

У цій таблиці позначають, що після розв'язання завдання у цих клітинах стоятиме базисне рішення. - Приватні від поділу стовпця на один із стовпців; - додаткові множники обнулення значень у клітинах таблиці, що належать до стовпця, що дозволяє. - min значення цільової функції -Z, - значення коефіцієнтів цільової функції при невідомих.

Серед значень знаходять будь-яке позитивне. Якщо такого немає, то завдання вважається вирішеним. Вибирають будь-який стовпець таблиці, в якому є, цей стовпець називається «дозвільним» стовпцем. Якщо серед елементів стовпця, що дозволяє, немає позитивних чисел, то завдання нерозв'язне внаслідок необмеженості цільової функції на безлічі її рішень. Якщо позитивні числа в стовпці, що дозволяє, присутні, переходять до пункту 5.

Стовпець заповнюється дробами, у чисельнику яких - елементи стовпця, а знаменнику - відповідні елементи вирішального стовпця. Зі всіх значень вибирається найменше. Рядок, в якому вийшло найменше називається «дозволяючим» рядком. На перетині роздільної здатності і роздільної здатності стовпця знаходять роздільний елемент, який виділяють будь-яким чином, наприклад, кольором.

На основі першої симплекс-таблиці складається наступна, в якій:

Замінюється вектор-рядок на вектор-стовпець

роздільна здатність рядок замінюється цим же рядком, поділеним на роздільну здатність

кожен з інших рядків таблиці замінюється на суму цього рядка з роздільною здатністю, помноженою на спеціально підібраний додатковий множник з метою отримання 0 в клітині роздільного стовпця.

З новою таблицею звертаємось до пункту 4.

Рішення задачі.

З постановки завдання маємо таку систему нерівностей:

та цільову функцію

Перетворимо систему нерівностей на систему рівнянь, ввівши додаткові змінні:

Цільову функцію наведемо до неї еквівалентної:

Побудуємо вихідну симплекс-таблицю:

Виберемо роздільний стовпець. Розрахуємо стовпець:

Заносимо значення таблицю. По найменшому з них = 10 визначаємо рядок: . На перетині роздільної здатності і роздільного стовпця знаходимо роздільний елемент = 1. Заповнюємо частину таблиці додатковими множниками, такими, що: помножений на них рядок, що додається, до доданих до інших рядків таблиці, утворює 0-ли в елементах роздільної здатності стовпця.

Складаємо другу симплекс-таблицю:

У ньому роздільним стовпцем беремо, обчислюємо значення, заносимо в таблицю. По мінімальному отримуємо роздільну здатність. Дозволяючим елементом буде 1. Знаходимо додаткові множники, заповнюємо стовпці.

Складаємо наступну симплекс-таблицю:

Аналогічним чином, знаходимо роздільний стовпець, роздільну здатність і роздільний елемент = 2. Будуємо наступну симплекс-таблицю:

Оскільки в рядку -Z немає позитивних значень, ця таблиця кінцевої. Перший стовпець дає шукані значення невідомих, тобто. оптимальне базисне рішення:

У цьому значення цільової функції -Z = -8000, що еквівалентно Zmax = 8000. Завдання вирішено.

Завдання 3. Кластерний аналіз

Постановка задачі:

Провести розбиття об'єктів на підставі даних, наведених у таблиці. Вибір способу рішення провести самостійно, побудувати графік залежності даних.

Варіант 1.

Початкові дані

Огляд методів розв'язання зазначеного типу задач. Обґрунтування методу розв'язання.

Завдання кластерного аналізу вирішуються за допомогою наступних методів:

Об'єднання або метод деревоподібної кластеризації використовується для формування кластерів «відмінності» або «відстань між об'єктами». Ці відстані можуть визначатися в одновимірному чи багатовимірному просторі.

Двовхідне об'єднання використовується (щодо рідко) в обставинах, коли дані інтерпретуються не в термінах «об'єктів» та «властивостей об'єктів», а в термінах спостережень та змінних. Очікується, що і спостереження та змінні одночасно роблять внесок у виявлення осмислених кластерів.

Метод К-середніх. Використовується, коли є гіпотеза щодо числа кластерів. Можна вказати системі утворити рівно, наприклад, три кластери так, щоб вони були настільки різними, наскільки це можливо. У загальному випадку метод K-середніх будує рівно K різних кластерів, розташованих на можливо більших відстанях один від одного.

Існують такі способи вимірювання відстаней:

Євклідова відстань. Це найбільш загальний тип відстані. Воно просто є геометричною відстанню в багатовимірному просторі і обчислюється таким чином:

Зауважимо, що евклідова відстань (і його квадрат) обчислюється за вихідними, а не за стандартизованими даними.

Відстань міських кварталів (манхеттенська відстань). Ця відстань є просто середньою різницею по координатах. У більшості випадків ця міра відстані призводить до таких же результатів, як і для звичайної відстані Евкліда. Однак зазначимо, що для цього заходу вплив окремих великих різниць (викидів) зменшується (оскільки вони не зводяться у квадрат). Манхеттенська відстань обчислюється за такою формулою:

Відстань Чебишева. Ця відстань може виявитися корисною, коли бажають визначити два об'єкти як "різні", якщо вони відрізняються за якоюсь однією координатою (якимось виміром). Відстань Чебишева обчислюється за такою формулою:

Ступінна відстань. Іноді бажають прогресивно збільшити або зменшити вагу, що відноситься до розмірності, на яку відповідні об'єкти сильно відрізняються. Це може бути досягнуто з використанням статечної відстані. Ступінна відстань обчислюється за формулою:

де r та p - параметри, що визначаються користувачем. Декілька прикладів обчислень можуть показати, як "працює" цей захід. Параметр p відповідає за поступове зважування різниць за окремими координатами, параметр r відповідальний за прогресивне зважування великих відстаней між об'єктами. Якщо обидва параметри - r і p, дорівнюють двом, то ця відстань збігається з відстанню Евкліда.

Відсоток незгоди. Цей захід використовується у тих випадках, коли дані є категоріальними. Ця відстань обчислюється за такою формулою:

Для вирішення поставленої задачі виберемо метод об'єднання (деревоподібної кластеризації) як відповідний умовам і постановці завдання (провести розбиття об'єктів). У свою чергу, метод об'єднання може використовувати кілька варіантів правил зв'язку:

Поодинокий зв'язок (метод найближчого сусіда). У цьому методі відстань між двома кластерами визначається відстанню між двома найближчими об'єктами (найближчими сусідами) у різних кластерах. Тобто будь-які об'єкти у двох кластерах ближче один до одного, ніж відповідна відстань зв'язку. Це правило має, у певному сенсі, нанизувати об'єкти разом для формування кластерів, і результуючі кластери мають тенденцію бути представленими довгими "ланцюжками".

Повний зв'язок (метод найвіддаленіших сусідів). У цьому методі відстані між кластерами визначаються найбільшою відстанню між будь-якими двома об'єктами в різних кластерах (тобто найбільш віддаленими сусідами).

Існує також безліч інших методів об'єднання кластерів, подібних до цих (наприклад, незважена попарна сполука, зважена попарна сполука та ін.).

Технологія способу розв'язання. Розрахунок показників.

На першому кроці, коли кожен об'єкт є окремим кластером, відстані між цими об'єктами визначаються обраним заходом.

Оскільки завдання не обумовлюються одиниці виміру ознак, мається на увазі, що вони збігаються. Отже, немає потреби у нормуванні вихідних даних, тому відразу переходимо до розрахунку матриці відстаней.

Рішення задачі.

Побудуємо за вихідними даними графік залежності (рис 2)

Як відстань між об'єктами приймемо звичайну евклідову відстань. Тоді згідно з формулою:

де l – ознаки; k - кількість ознак, відстань між об'єктами 1 і 2 дорівнює:

Продовжуємо розрахунок інших відстаней:

З отриманих значень збудуємо таблицю:

Найменша відстань. Значить, елементи 3,6 та 5 об'єднуємо в один кластер. Отримаємо таку таблицю:

Найменша відстань. В один кластер об'єднуються елементи 3, 6, 5 і 4. Отримуємо таблицю з двох кластерів:

Мінімальна відстань між елементами 3 та 6 дорівнює. Значить, елементи 3 та 6 об'єднуються в один кластер. Відстань між новоствореним кластером та іншими елементами вибираємо максимальним. Наприклад, відстань між кластером 1 і кластером 3,6 дорівнює max(13.34166, 13.60147)= 13.34166. Складемо таку таблицю:

У ній мінімальна відстань - це відстань між кластерами 1 та 2. Об'єднуючи 1 та 2 в один кластер, отримуємо:

Таким чином, методом «далекого сусіда» отримали два кластери: 1,2 і 3,4,5,6, відстань між якими дорівнює 13,60147.

Завдання вирішено.

Програми. Вирішення задач з використанням пакетів прикладних програм (MS Excel 7.0)

Завдання кореляційно-регресійного аналізу.

Заносимо вихідні дані до таблиці (рис. 1)

Вибираємо меню "Сервіс / Аналіз даних". У вікні вибираємо рядок «Регресія» (рис.2).

Задамо в наступному вікні вхідні інтервали X і Y, рівень надійності залишимо 95%, а вихідні дані помістимо на окремий лист «Аркуш звіту» (рис. 3)

Після проведення розрахунку отримуємо на аркуші «Аркуш звіту» підсумкові дані регресійного аналізу:

Тут виводиться точковий графік апроксимуючої функції, або «Графік підбору»:

Розрахункові значення та відхилення виведені в таблиці в колонках «Предсказане Y» та «Залишки» відповідно.

На основі вихідних даних та відхилень будується графік залишків:

Оптимізаційне завдання

Вносимо вихідні дані в такий спосіб:

Шукані невідомі X1, X2, X3 заносимо до осередків С9, D9, E9 відповідно.

Коефіцієнти цільової функції при X1, X2, X3 вносимо С7, D7, E7 відповідно.

Цільову функцію заносимо в комірку B11 як формулу: = C7 * C9 + D7 * D9 + E7 * E9.

Існуючі обмеження щодо завдання

На довжину прокладки труб:

вносимо до осередків С5, D5, E5, F5, G5

Число свердловин на кожному родовищі:

X3 Ј 100; вносимо до осередків С8, D8, E8.

Вартість будівництва 1 свердловини:

вносимо до осередків С6, D6, E6, F6, G6.

Формулу розрахунку загальної протяжності C5 * C9 + D5 * D9 + E5 * E9 поміщаємо в комірку В5, формулу розрахунку загальної вартості C6 * C9 + D6 * D9 + E6 * E9 поміщаємо в комірці B6.

Вибираємо в меню «Сервіс/Пошук рішення», вносимо параметри для пошуку рішення відповідно до заведених вихідних даних (рис. 4):

На кнопці «Параметри» задаємо наступні параметри пошуку рішення (рис. 5):

Після виконання пошуку рішення отримуємо звіт за результатами:

Microsoft Excel 8.0e Звіт за результатами

Звіт створено: 11/17/2002 1:28:30 AM
Цільовий осередок (Максимум)
			Результат
	Загальний видобуток
Змінювані осередки
			Результат
	Кількість свердловин
	Кількість свердловин
	Кількість свердловин
Обмеження
		Значення
	Протяжність			Пов'язане
	Вартість проекту			не пов'язаний.
	Кількість свердловин			не пов'язаний.
	Кількість свердловин			Пов'язане
	Кількість свердловин			Пов'язане

У першій таблиці наводиться вихідне і остаточне (оптимальне) значення цільової комірки, в яку помістили цільову функцію розв'язуваної задачі. У другій таблиці бачимо вихідні та остаточні значення оптимізованих змінних, які містяться в комірках, що змінюються. Третя таблиця звіту за результатами містить інформацію про обмеження. У стовпці «Значення» вміщено оптимальні значення потрібних ресурсів та змінних, що оптимізуються. Стовпець "Формула" містить обмеження на споживані ресурси та оптимізовані змінні, записані у формі посилань на осередки, що містять ці дані. Стовпець «Стан» визначає пов'язаними чи незв'язаними є ті чи інші обмеження. Тут «пов'язані» - це обмеження, реалізовані оптимальному рішенні як жорстких рівностей. Стовпець «Різниця» для ресурсних обмежень визначає залишок використовуваних ресурсів, тобто. різниця між необхідною кількістю ресурсів та їх наявністю.

Аналогічно, записавши результат пошуку рішення у формі «Звіт зі стійкості», отримаємо такі таблиці:

Microsoft Excel 8.0e Звіт зі стійкості
Робочий лист: [Розв'язання задачі оптимізації.xls]Розв'язання задачі з опт-ії видобутку
Звіт створено: 11/17/2002 1:35:16 AM
Змінювані осередки
			Допустиме	Допустиме
		значення	вартість	Коефіцієнт	Збільшення	Зменшення
	Кількість свердловин
	Кількість свердловин
	Кількість свердловин
Обмеження
		Обмеження	Допустиме	Допустиме
		значення		Права частина	Збільшення	Зменшення
	Протяжність
	Вартість проекту

Звіт по стійкості містить інформацію про змінні (оптимізовані) змінні та обмеження моделі. Зазначена інформація пов'язана з симплекс-методом, описаним вище в частині розв'язання задачі, що використовується при оптимізації лінійних завдань. Вона дозволяє оцінити, наскільки чутливим є отримане оптимальне рішення щодо можливих змін параметрів моделі.

Перша частина звіту містить інформацію про комірки, що змінюються, що містять значення про кількість свердловин на родовищах. У стовпці «Результуюче значення» вказуються оптимальні значення змінних, що оптимізуються. У стовпці «Цільовий коефіцієнт» розміщуються вихідні дані значення коефіцієнтів цільової функції. У двох колонках ілюструється допустиме збільшення і зменшення цих коефіцієнтів без зміни знайденого оптимального рішення.

Друга частина звіту зі стійкості містить інформацію щодо обмежень, що накладаються на змінні, що оптимізуються. У першому стовпці вказуються дані про потреби ресурсів для оптимального рішення. Другий містить значення тіньових цін на використовувані види ресурсів. В останніх двох колонках розміщено дані про можливе збільшення або зменшення обсягів наявних ресурсів.

Завдання кластеризації.

Покроковий метод розв'язання задачі наведено вище. Наведемо тут Excel-таблиці, що ілюструють хід розв'язання задачі:

«метод найближчого сусіда»

Розв'язання задачі кластерного аналізу - "МЕТОД найближчого сусіда"
Початкові дані



де х1 - обсяг продукції, що випускається;
х2 - середньорічна вартість основних
Промислово-виробничі фонди

«метод далекого сусіда»

Розв'язання задачі кластерного аналізу - "МЕТОД ДАЛЕКОГО СУСІДУ"
Початкові дані



де х1 - обсяг продукції, що випускається;
х2 - середньорічна вартість основних
Промислово-виробничі фонди

Подання та попередня обробка оцінок експертів

У практиці використовують кілька видів оцінок:

- якісні (часто-рідко, гірше-краще, так-ні),

- шкальні оцінки (інтервали значень 50-75, 76-90, 91-120 і т.п.),

Бальні із заданого інтервалу (від 2 до 5, 1 -10), взаємно незалежні,

Рангові (об'єкти розташовуються експертом у порядку, і кожному приписується порядковий номер – ранг),

Порівняльні, отримані одним із методів порівняння

метод послідовних порівнянь

метод попарного порівняння факторів

На наступному етапі обробки думок експертів необхідно оцінити ступінь узгодженості цих думок.

Оцінки, отримані від експертів, можуть розглядатися як випадкова змінна, розподіл якої відображає думки експертів щодо ймовірності того чи іншого вибору події (чинника). Тому для аналізу розкиду та узгодженості оцінок експертів застосовуються узагальнені статистичні характеристики – середні та заходи розкиду:

Середня квадратична помилка,

Варіаційний розмах min – maх,

- коефіцієнт варіації V = порівн.квадр.вимк./ середня арифм. (Підходить для будь-якого типу оцінок)

V i = σ i / x i ср

Для оцінки заходи подібностейа думок кожної пари експертівможуть бути використані різні методи:

коефіцієнти асоціації, за допомогою яких враховується кількість відповідей, що збігаються і незбігаються,

коефіцієнти суперечливостідумок експертів,

Всі ці заходи можна використовувати або для порівняння думок двох експертів або для аналізу зв'язку між рядами оцінок за двома ознаками.

Коефіцієнт парної рангової кореляції Спірмена:

де n – кількість експертів,

c k – різниця оцінок i-го та j-го експертів з усіх T факторів

Коефіцієнт рангової кореляції Кендалла (коефіцієнт конкордації) дає загальну оцінку узгодженості думок всіх експертів з усіх чинників, але тільки випадків, коли використовувалися рангові оцінки.

Доведено, що величина S, коли всі експерти дають однакові оцінки всіх факторів, має максимальне значення, що дорівнює

де n - Число факторів,

m – кількість експертів.

Коефіцієнт конкордації дорівнює відношенню

причому якщо W близький до 1, всі експерти дали досить узгоджені оцінки, інакше їх думки не узгоджені.

Формула для розрахунку S наведена нижче:

де r ij - рангові оцінки i-го фактора j-им експертом,

r ср - середній ранг по всій матриці оцінок і дорівнює

І отже формула розрахунку S може набути вигляду:

Якщо окремі оцінки в одного експерта збігаються, і їх при обробці зробили стандартизованими, то для обчислення коефіцієнта конкордації використовується інша формула:

де Тj розраховується для кожного експерта (у тому випадку, якщо його оцінки повторювалися для різних об'єктів) з урахуванням повторень за такими правилами:

де t j - Число груп рівних рангів у j-го експерта, а

h k - Число рівних рангів в k-ої групи пов'язаних рангів j-го експерта.

ПРИКЛАД. Нехай 5 експертів з шести факторів відповіли при ранжируванні так, як показано в таблиці 3:

Таблиця 3 - Відповіді експертів

Експерти	О1	О2	О3	О4	О5	О6	Сума рангів за експертом
Е1
Е2
Е3
Е4
Е5

У зв'язку з тим, що отримано не строго ранжування (оцінки в експертів повторюються, а суми рангів не рівні), зробимо перетворення оцінок і отримаємо пов'язані ранги (таблиця 4):

Таблиця 4 - Пов'язані ранги оцінок експертів

Експерти	О1	О2	О3	О4	О5	О6	Сума рангів за експертом
Е1		2,5	2,5
Е2
Е3	1,5	1,5		4,5	4,5
Е4		2,5	2,5	4,5	4,5
Е5					5,5	5,5
Сума рангів за об'єктом	7,5	9,5			23,5	29,5

Тепер визначимо міру узгодженості думок експертів за допомогою коефіцієнта конкордації. Оскільки ранги пов'язані, будемо обчислювати W за формулою (**).

Тоді r ср =7 * 5/2 = 17,5

S = 10 2 +8 2 +4.5 2 +4.5 2 +6 2 +12 2 = 384.5

Перейдемо до розрахунків W. Для цього окремо обчислимо значення T j . У прикладі спеціально так підібрані оцінки, що в кожного експерта є оцінки, що повторюються: у одного їх дві, у другого - три, у третього - дві групи по дві оцінки, так само і у четвертого, у п'ятого - дві однакові оцінки. Звідси:

Т 1 = 2 3 - 2 = 6 Т 5 = 6

Т 2 = 3 3 - 3 = 24

Т 3 = 2 3 -2 + 2 3 -2 = 12 Т 4 = 12

Ми бачимо, що узгодженість думок експертів є досить високою і можна переходити до наступного етапу дослідження – обґрунтування та прийняття рекомендованої експертами альтернативи рішення.

В іншому випадку необхідно повернутися до етапів 4-8.