Использование коэффициентов детерминации (квадрата коэффициента парной корреляции Пирсона, R2) для оценки качества зависимости, восстановленной с помощью метода наименьших квадратов, применяется в оценке очень широко.
Для этого с помощью стандартных возможностей MS Excel
- строится точечная диаграмма рассеяния
- определяется уравнение аппроксимирующего тренда (линейный, экспоненциальный, степенной, полиномиальный), что, собственно, и является результатом процесса восстановления зависимости
- определяется коэффициент детерминации этого уравнения — R2.
При этом вид аппроксимирующего тренда зачастую определяется, исходя из критерия максимизации R2.
Далее по шкале Чэддока даётся качественная оценка силы (тесноты) связи между рассматриваемыми параметрами.
Однако, с профессионально — статистической точки зрения такой подход не является приемлемым. Об этом статья проф. А.И. Орлова:
Орлов А.И. (2018), Ошибки при использовании коэффициентов корреляции и детерминации, Заводская лаборатория. Диагностика материалов. 2018;84(3):68-72. https://doi.org/10.26896/1028-6861-2018-84-3-68-72
За полным перечнем ошибок адресуем заинтересованных лиц к первоисточнику,
Здесь отметим, что коэффициент детерминации очень чувствителен к наличию выбросов.
Но ещё одна особенность применения коэффициента детерминации, которая является попросту критической.
Дело в том, что коэффициент детерминации, как квадрат коэффициента парной корреляции Пирсона, применим только в том случае, если оба (именно оба) рассматриваемые параметра являются недетерминированными (т.е. стохастическими, случайными) и нормально распределёнными.
Однако, если в отношении одного из параметров — как правило, это цена (удельная цена), арендная плата (ставка аренды) или затраты (удельные затраты) это можно показать, то в отношении второго параметра — например, площади, времени, этажа расположения, удалённости от какого бы то ни было объекта — такого ни показать, ни даже предположить невозможно. А для этого случая коэффициент корреляции Пирсона попросту не определён.
Цитата из упомянутой выше статьи.
«Формально рассчитанный коэффициент детерминации в рассматриваемой постановке может быть сколь угодно близким к 1. Однако использование этого факта для обоснования утверждения о высоком качестве восстановления зависимости скорее всего является примером неверной интерпретации.
Во-первых, из-за неисключенных выбросов.
Во-вторых, из-за нарушения предпосылок вероятностно статистической модели выборки (если фактор X детерминирован).
Практическая рекомендация состоит в предварительном проведении отбраковки «выбросов» и проверке выполнения предпосылок вероятностно-статистической модели».
А вот непараметрические коэффициенты корреляции — Спирмена и Кендалла — от такого ограничения свободны. Никаким требованием к недетерминированности исследуемых параметров и нормальности их распределения они не связаны.
Всё сказанное полностью справедливо и для случая многофакторного регрессионного анализа — для применения коэффициента детерминации строго необходимо, чтобы ни один из факторов не был детерминированным, что, как представляется, в практике оценки не встречается никогда.
Между тем, с учётом указанных требований коэффициент детерминации может использоваться в случаях, когда оба рассматриваемых параметра являются недетерминированными. Таким случаем, например, является корреляция ставки аренды и удельной цены, соотношение которых даёт ставку капитализации.