Коротко о корреляциях

1. Понятие зависимости – связи двух переменных – не тождественно понятию причинности – каузальной связи. Связь двух переменных означает согласованное изменение двух переменных
2. Зависимость (связь) носит вероятностный характер
3. Методы и алгоритмы определения взаимосвязи переменных зависят, прежде всего, от типов переменных
4. Переменные любых типов связей связаны (зависимы) между собой, если наблюдаемые значения этих переменных изменяются (распределены) согласованным образом.
5. Наиболее распространённое понятие для обозначения связи двух переменных – корреляция.
6. Коэффициент корреляции
a. предполагает, что две переменные измеряются, по крайней мер, в интервальной шкале;
b. определяет степень, с которой значения двух переменных пропорциональны друг другу;
c. является безразмерной величиной
7. Коэффициент корреляции определён только для линейных зависимостей. Это значит, что возможно его искажение по следующим причинам:
a. наличие выбросов – нетипичных, резко выделяющихся наблюдений;
b. отсутствия однородности в имеющихся данных – в этом случае корреляцию необходимо рассматривать для каждой отдельной однородной группы данных;
c. наличие нелинейной зависимости между переменными.
8. Во всех случаях требуется визуализация данных для проверки всех перечисленных условий – построение диаграммы рассеяния.
9. Корреляция характеризуется
a. величиной зависимости;
b. надёжностью зависимости.
10. Надёжность показывает, насколько вероятно, что имеющаяся зависимость будет вновь обнаружена (подтвердится) на данных другой выборки, извлечённой из генеральной совокупности.
11. Если исследование удовлетворяет некоторым специальным критериям, то надёжность найденных зависимостей между переменными выборки можно оценить количественно оценить и представить с помощью стандартной статистической меры – р – уровень или статистический уровень значимости

Источник. Благовещенский Ю.Н. (2009), Тайны корреляционных связей в статистике, М.: ИНФРА-М