Слуцкий А.А. Коэффициент детерминации (R2) — плохой ориентир для оценки качества зависимости, восстановленной методом наименьших квадратов

Использование коэффициентов детерминации (квадрата коэффициента парной корреляции Пирсона, R2) для оценки качества зависимости, восстановленной с помощью метода наименьших квадратов, применяется в оценке очень широко.

Для этого с помощью стандартных возможностей MS Excel

  1. строится точечная диаграмма рассеяния
  2. определяется уравнение аппроксимирующего тренда (линейный, экспоненциальный, степенной, полиномиальный), что, собственно, и является результатом процесса восстановления зависимости
  3. определяется коэффициент детерминации этого уравнения — R2.

При этом вид аппроксимирующего тренда зачастую определяется, исходя из критерия максимизации R2.

Далее по шкале Чэддока даётся качественная оценка силы (тесноты) связи между рассматриваемыми параметрами.

Однако, с профессионально — статистической точки зрения такой подход не является приемлемым. Об этом статья проф. А.И. Орлова:

Орлов А.И. (2018), Ошибки при использовании коэффициентов корреляции и детерминации, Заводская лаборатория. Диагностика материалов. 2018;84(3):68-72. https://doi.org/10.26896/1028-6861-2018-84-3-68-72

За полным перечнем ошибок адресуем заинтересованных лиц к первоисточнику,

Здесь отметим, что коэффициент детерминации очень чувствителен к наличию выбросов.

Но ещё одна особенность применения коэффициента детерминации, которая является попросту критической.

Дело в том, что коэффициент детерминации, как квадрат коэффициента парной корреляции Пирсона, применим только в том случае, если оба (именно оба) рассматриваемые параметра являются недетерминированными (т.е. стохастическими, случайными) и нормально распределёнными.

Однако, если в отношении одного из параметров — как правило, это цена (удельная цена), арендная плата (ставка аренды) или затраты (удельные затраты) это можно показать, то в отношении второго параметра — например, площади, времени, этажа расположения, удалённости от какого бы то ни было объекта — такого ни показать, ни даже предположить невозможно. А для этого случая коэффициент корреляции Пирсона попросту не определён.

Цитата из упомянутой выше статьи.

«Формально рассчитанный коэффициент детерминации в рассматриваемой постановке может быть сколь угодно близким к 1. Однако использование этого факта для обоснования утверждения о высоком качестве восстановления зависимости скорее всего является примером неверной интерпретации.

Во-первых, из-за неисключенных выбросов.

Во-вторых, из-за нарушения предпосылок вероятностно статистической модели выборки (если фактор X детерминирован).
Практическая рекомендация состоит в предварительном проведении отбраковки «выбросов» и проверке выполнения предпосылок вероятностно-статистической модели».

А вот непараметрические коэффициенты корреляции — Спирмена и Кендалла — от такого ограничения свободны. Никаким требованием к недетерминированности исследуемых параметров и нормальности их распределения они не связаны.

Всё сказанное полностью справедливо и для случая многофакторного регрессионного анализа — для применения коэффициента детерминации строго необходимо, чтобы ни один из факторов не был детерминированным, что, как представляется, в практике оценки не встречается никогда.

Между тем, с учётом указанных требований коэффициент детерминации может использоваться в случаях, когда оба рассматриваемых параметра являются недетерминированными. Таким случаем, например, является корреляция ставки аренды и удельной цены, соотношение которых даёт ставку капитализации.