Джордж Делл, Распространенные статистические ошибки: оценка и надежность

Эта статья в своё время произвела серьёзное воздействие на умы. По сути в ней отрицается правильность преподавания и использования статистики в оценке.

Не случайно, что два авторитетных оценщика — статистика выступили против в письмах в редакцию. Эти возражения и ответы на них автора — Джорджа Делла также приводятся в конце.

А.С.

………………………………………………………………………………………………….

В этой статье [1] ставится под сомнение фундаментальное предположение традиционной практики оценки — использование выборок при оценке. Больше нет необходимости использовать выборки там, где доступны полные наборы данных, предоставляемые в электронном виде. Эта унаследованная ошибка проистекает из инерции в профессии и отсутствия ясности в определении проблемы. В статье предлагается подход к использованию статистики в практике оценки, основанный на двойственном характере аналитического процесса оценки. В статье также рассматривается более глубокая ошибка использования сложной логической выборочной статистики, когда простые описательные параметры совокупности будут недостаточными. Связанная с этим проблема касается применения здравого смысла в дисциплине, где результаты часто могут противоречить интуиции. Приводится важный практический пример. Наконец, описаны другие статистические ошибки меньшего масштаба.

***

Технически целью оценки является вероятностная надежность. Чтобы быть надежной, оценка стоимости должна быть одновременно точной и безошибочной. Стоимость также должна быть действительной, что означает, что используемая модель оценки является подходящей и отвечает на заданный вопрос.

С точки зрения статистики, точная оценка стоимости означает, что оценка не является предвзятой и стремится к истинному значению. Точность в статистическом смысле означает, что оценка стоимости существенно не отклоняется от истинного значения. Сводя процесс оценки к этим двум элементам валидности — точности и прецезионности — мы можем увидеть, что может пойти не так. Это также привлекает наше внимание к тому, что важно для будущего профессии оценщика: мера надежности и прецезионности.

На Рисунке 1 показано, как элементы точности взаимодействуют в виде знакомой колоколообразной кривой. В этой статье основное внимание уделяется аналитическим ошибкам валидности и надежности. Ошибки могут также возникать из-за ошибок статистического моделирования; однако они не рассматриваются в этой статье.

Семантика статистического анализа

Любое обсуждение статистического анализа основано на понимании общепринятых терминов. Обсуждение в этой статье ничем не отличается. Во-первых, необходимо четко понимать терминологию, включая следующее:

  • Параметр — это число, описывающее совокупность, такое как среднее значение совокупности.
  • Статистика — это число, описывающее выборку, такое как среднее значение выборки.
  • Статистика имеет два разных значения:
    • изучение данных; наука о данных
    • множественное число от статистики: числа, описывающие выборку и то, насколько хорошо эта выборка представляет совокупность.
  • Описательная статистика, такая как среднее значение, медиана, отклонение и диапазон, может применяться к статистической выборке или к самому фактическому набору данных, совокупности.
  • Логическая статистика — это «процесс составления выводов о характеристиках генеральной совокупности посредством анализа данных выборки» [2]
  • Прогнозная аналитика — это изучение полных или почти полных наборов данных.

Важно понимать различие между описательной статистикой и логической статистикой.

Тезис этой статьи заключается в том, что логические модели, использующие выборочную статистику, не являются необходимыми для оценочной работы. Описательные модели генеральных совокупностей — это все, что требуется. В рамках описательной модели процесс оценки, прогнозирования или проецирования стоимости называется прогностической моделью.

Как отмечается в The Appraisal of Real Estate, «Прогностические модели преобладают в большинстве условий оценки» [3]

Статистика выборки в сравнении с параметрами совокупности

Различие между параметрами совокупности и статистикой выборки важно, поскольку оно лежит в основе фундаментальных изменений в том, как теперь может осуществляться процесс оценки. Хотя само по себе это не является ошибкой, неспособность заметить различие создает предположительную ошибку, распространяющуюся на другие ошибки, поскольку оценщикам больше нет необходимости использовать образцы.

Утверждение «Оценщики редко имеют доступ ко всей доступной информации для использования в своих анализах» [4] является как истиной, так и заблуждением, на котором зиждется большая часть теории оценки.

Это неверное утверждение продолжает сдерживать академические и практические решения с использованием современных технологий. Это ошибочное мнение, которое вынуждает специалистов по оценке прибегать к риторике «доверьтесь мне» вместо того, чтобы расширять возможности профессии за счет объективности, научного метода и проверяемого продукта работы.

Истина сегодня заключается в том, что в большинстве мегаполисов доступны полные наборы рыночных данных о продажах. Как отмечает Эпли,

Обычной практикой работы с традиционной выборкой сопоставимых продаж является получение полной совокупности данных о продажах для местного рынка.

Это означает, что большая часть наших статистических знаний, связанных с выборками, стала избыточной. В отдельных заданиях это не требуется, поскольку аналитик имеет возможность точно определить истинное среднее значение, моду, медиану, стандартное отклонение, дисперсию, распределение и эксцесс реального рынка. …

Последствия значительны; аналитик, отслеживающий цены продаж, редко будет работать с выборками, когда задача состоит в оценке истинной рыночной цены. [5]

Реальность полных (или по существу завершенных) наборов данных является феноменом современной технологии. Она произвела революцию во многих других дисциплинах. В большинстве оценочных бюро доступно несколько источников полных данных. Это включает в себя многочисленные услуги по составлению листингов, коммерческие службы сопоставимых данных и расширенные публичные записи. Хотя о качестве данных можно спорить, о их доступности — нет.

Мир теоретической статистики столкнулся с трудностями. Потребность в выборочной статистике, статистическом выводе и методологиях выборки теряет свое центральное место, поскольку ей бросают вызов дисциплины, ориентированные на компьютер.

Некоторые слова, ассоциирующиеся с новой наукой о данных, включают «большие данные», машинное обучение, информатику, прогнозную аналитику, интеллектуальный анализ данных и статистическое обучение.

В этом контексте обобщенную проблему оценки можно было бы рассматривать как проблему «малых данных», включающую конечные, по существу полные, небольшие наборы данных, скажем, от 8 до 200 недавних продаж непосредственно конкурирующих объектов.

Поскольку доступны полные наборы данных, нет необходимости использовать выборки. Единственное, что требуется, — это тщательно или научно отобрать, что является сопоставимым, а что нет. После выбора необходимы только описательные параметры.

Параметры совокупности, необходимые для анализа полных наборов данных, включают следующее:

Среднее значение                                                   p(mu)

Медиана                                                                 Md

Мода                                                                      Mo

Стандартное отклонение                                         sigma (сигма)

Стандартная дисперсия                                           [sigma]2

Интервал                                                                Max — Min

Что не требуется при типичной оценке, так это выборочные статистические данные, такие как следующие:

Среднее значение выборки                              bar.x

Стандартные отклонения выборки                      s

Дисперсия выборки                                           s2

Медиана выборки                                             Md

Мода выборки                                                  Mo]

Необходимый размер выборки                           N

z-тест                                                               z — скоринг

t-тест                                                               t — скоринг

f-критерий                                                          F

Критерий Хи-квадрат                                          X

Доверительный интервал                                    C1

Интервал выборки                                             Макс.- Мин.

По-видимому, остается мало вариантов применения логических статистических методов в оценке, выходящих за рамки анализа рынка уровня D.

Определение того, какая аналитическая задача решается.

Оценщикам необходимо выполнить два отдельных анализа.

Первый заключается в определении объема продаж в фактическом сегменте рынка.

Второй заключается в определении конкурентной позиции объекта недвижимости на этом рынке.

Каждый из этих анализов имеет явно отличающиеся аналитические процедуры. Определение объема продаж в реальном сегменте рынка является проблемой категоризации, в то время как положение объекта недвижимости на конкурентном рынке является проблемой оценки или прогнозирования.

В задании по оценке сначала необходимо очертить сегмент конкурентного рынка. Сегмент конкурентного рынка состоит из полного набора данных, т.е. статистической совокупности. Категоризация и разграничение совокупности отвечает на вопрос: «Является ли это сопоставимой продажей или нет?»

Рисунок 2 иллюстрирует разделение двух отдельных аналитических задач по выявлению продаж в реальном сегменте рынка и позиционированию субъекта на рынке.

Традиционная модель оценки была разработана в условиях, когда данные о продажах были разрозненными, их было трудно подтвердить, и часто они были конфиденциальными. Поиск трех наилучших сопоставимых показателей и соответствующая корректировка были наиболее эффективным использованием времени оценщика и денег клиента. [6]

Сегодня большее количество данных позволяет получать более надежные (правдивые и точные) результаты. Однако существует компромисс. Данные, которые не являются конкурентоспособными или сомнительного качества, работают против большей точности. Таким образом, идеальной точкой для включения данных, как правило, является конкурентный сегмент рынка, будь то три сопоставимых объекта или тридцать сопоставимых объектов. В прошлом разумной целью было несколько доступных продаж, тщательно исследованных. Это по-прежнему актуально сегодня в сельских районах и развивающихся странах, а также при наличии уникальных типов недвижимости.

Дерево решений на Рис. 3 обеспечивает практический путь принятия решений для двух аналитических задач оценщика, поскольку они связаны с доступностью данных.

Сопоставимые данные и сегмент рынка, определяющий сегмент рынка

Каков идеальный набор данных для определения сегмента рынка? Исторически сложилось так, что достаточно хороший подход — получение от трех до шести сравнений — был правильным. На самом деле, основной задачей было просто собрать данные о продажах для сравнения, поэтому эта типовая выборка была лучшей из всех, которые были доступны специалисту по оценке.

Оценщикам часто приходится иметь дело с неполной информацией. Данные, используемые оценщиками, редко представляют собой случайную выборку.

Чаще всего оценщики имеют дело с оценочными выборками, когда выборочные данные отбираются на основе личного суждения и считаются репрезентативной группой.[7]

Проблема сегодня заключается в том, что этот подход к выборке суждений по-прежнему используется в нашей литературе в качестве основополагающего допущения в практике оценки.

Большая часть теории оценки строится на этом предположении, а профессиональная культура — на этих традиционных практиках и процессах мышления. Однако, поскольку выборка не является случайной или полной, описательная статистика не подходит. Критический анализ невозможен.

Несмотря на то, что преобладают электронные базы данных, которые предоставляют обширные данные, оценщики продолжают выбирать от трех до шести лучших сопоставимых объектов. В результате основная задача превратилась из сбора данных в отказ от них.

В то время как теория анализа рынка развивалась, вопросам «что такое конкуренция?» или «как вы описываете существующий рынок?» уделялось мало внимания или вообще отсутствовало. Обзор литературы не выявил попыток строгого сокращения описания рынка в рамках процесса оценки. Эта тема находится в зачаточном состоянии.

Статья David A. Braun 2012 года о разграничении рынков открывает дискуссию [8], но не пытается найти научную или математическую основу для сопоставимого выбора. Будем надеяться, что она действительно открывает путь для серьезного критического осмысления.

Rabianski [9] подробно рассматривает географические параметры рынков жилья, что помогает прояснить этот аспект разграничения рынков.

Статья Kummerow [10] содержит анализ компромисса между использованием большего количества данных и снижением релевантности добавленных данных. Удобно, что оптимальный набор данных надлежащим образом идентифицируется как конкретный сегмент рынка. В другой статье он рекомендует протоколы, которые могут быть полезны при разработке научных основ оценки в будущем. [11]

В этих статьях также содержатся отличные ссылки на некоторые более старые работы по этой теме.

Недостаточное внимание к вопросам сегментации рынка может быть вызвано математически многомерным аспектом этой проблемы. Этот тип исследований требует знаний в области оценки, многомерной математики, микроэкономики и науки о данных, поскольку они эволюционировали от логических выводов к статистическому обучению. Такой набор компетенций встречается редко.

Позиционирование предмета исследования в рамках рыночного сегмента

Традиционная практика оценки предлагает несколько методов для обоснования корректировок. В каждой схеме другие переменные имеют тенденцию смешиваться, взаимодействовать и быть коллинеарными, что приводит к искажению заявленного результата.

Кроме того, у каждой продажи есть зона сделки [12], в пределах которой фактическая цена продажи снижается. Зона сделки отражает нормальное и типичное поведение покупателя/продавца, имеющее мало общего с реальными характеристиками недвижимости.

Если набор данных о рыночном сегменте верен и включает в себя общую желательность объекта и ключевые характеристики, то сопоставимые данные заключаются в скобки как ниже, так и выше объекта. Обладая этими знаниями, мы можем по-настоящему подготовиться к рассмотрению наиболее вероятного ценового аспекта рыночной стоимости. С аналитической точки зрения важно понимать, что правильно определенный сегмент рынка и есть истинная численность населения. Это не что-то большее или меньшее, не район и не три лучших сопоставимых объекта.

Стандарты оценки, такие как Uniform Standards of Professional Assessment Practice (USPAP), четко поддерживают концепцию полноты данных; в USPAP говорится,

 … оценщик должен проанализировать такие сопоставимые данные о продажах, которые доступны, чтобы сделать вывод о стоимости. [13]

Очевидно, что оптимальный набор данных, совокупность, в точности соответствует данному конкурентному сегменту рынка. Этот фундаментальный факт формирует основу и логический базис для прогнозной аналитики как основы для «реинжиниринга процесса оценки». [14]

Итак, как можно выделить правильный сегмент рынка?

Математически это лучше всего описать в пяти измерениях, что в некоторой степени соответствует элементам сравнения [15], предложенным в тексте The Appraisal of Real Estate:

  • Тип недвижимости (включая оптимальное использование и стоимость взаимодействия, не связанного с недвижимостью)
  • Элементы сделки (контракта)
  • Временные (рыночные) связи
  • Пространственные (географические) связи
  • Характеристики физической полезности и/или финансовой доходности

Эти пять измерений позволяют сгруппировать переменные с относительной статистической независимостью друг от друга. Это означает, что в течение определенного периода времени конкуренции изменение в одном измерении оказывает минимальное влияние на переменные в других измерениях с незначительной аналитической значимостью. Как только весь сегмент рынка будет зарегистрирован, мы сможем перейти к надлежащему статистическому анализу и рассмотреть другие распространенные ошибки.

Применение правильного статистического подхода

В практике оценки существует двоякая статистическая ошибка.

Во-первых, это интеллектуальное отрицание того, что правильно определенный, целый конкурентный сегмент рынка, является соответствующей статистической совокупностью; это мы рассматривали ранее.

Вторым элементом является применение частотных методов к задаче оценки, которая не является проблемой характеристики совокупности и не требует вероятностной (случайной) выборки. В частотной статистике акцент делается на характеристике совокупности на основе репрезентативных выборок. Принцип заключается в том, что эксперимент можно повторить, получая каждый раз разные случайные выборки. Частотная статистика — это система логических выводов, на которой основаны методологии проверки статистических гипотез и доверительных интервалов.

Имейте в виду, что используемый метод статистического анализа зависит от типа решаемой задачи оценки.

На рисунке 4 представлена блок-схема, показывающая, как характер задачи оценки влияет на метод статистического анализа. Анализ начинается с предварительных исходных данных. К ним относятся необходимые элементы определения оценки, клиент/предполагаемые пользователи, предполагаемое использование, определение стоимости, даты, характеристики объекта и допущения. Эти исходные данные помогают определить проблему оценки и объем работ.

Методы прогнозирования позволяют оценить стоимостное положение объекта недвижимости в сегменте рынка. Это может включать многомерный анализ, упрощенный до типа недвижимости, элементов сделки, временных рамок, географии и характеристик дохода или удобств. Построение точек данных в пределах диапазона работает для каждого из этих измерений, за исключением времени, которое всегда включает прогнозирование ex post или ex ante [16], начиная с даты последней сопоставимой продажи.

Главный вопрос, который мы должны задать, заключается в том, берут ли оценщики случайные выборки из совокупности, чтобы узнать больше об этой совокупности? Ответ прост: «нет».

На самом деле оценщики делают прямо противоположное: тщательно отбирают набор данных, основываясь на элементах сравнения (тип недвижимости, транзакция, время, география и показатели полезности/дохода). Здесь нет случайной выборки, статистической гипотезы или логического вывода.

Эксперимент не повторяем, т.е. гипотетической контрольной группы не существует. Причинно-следственная связь редко бывает линейной и часто путается в данных.

Хотя существуют исключения (например, анализ рынка уровня D, оценка мотивационной корректировки, связанной со временем, и финансовые ставки и коэффициенты на широкой основе), оценщики не используют случайные выборки в своем повседневном процессе отбора сопоставимых объектов.

Как только сегмент рынка разграничен, эта часть задачи оценки решена. Конкурентный сегмент рынка — это вселенная, представляющая интерес. Это совокупность. Это создает большую статистическую проблему — необходимость применения частотных методов, использующих выборки, к задаче оценки.

Такой подход предполагает ошибочное представление о том, что каким-то образом определенный сегмент рынка на самом деле не является всем рынком. Что это всего лишь часть целого, более крупного (но гипотетического) рынка. Хуже того, этот более крупный гипотетический рынок создан только для того, чтобы можно было составить гипотетическую «случайную» выборку и применить логические статистические данные. Это теоретический эксперимент, вышедший из-под контроля.

Какова реальность? Рынок недвижимости состоит из покупателей и продавцов. Покупатели — это только те, кто желает, способен и обычно мотивирован на покупку. Продавцы — это только те, кто желает, способен и обычно мотивирован на продажу при наличии достаточного маркетингового времени.

Другие объекты недвижимости в этом районе не выставлены на продажу и не являются частью рынка. Гипотетические или воображаемые продажи не учитываются. Это означает, что аналитику нет необходимости представлять большую популяцию, чтобы использовать гипотетическую вероятностную выборку для получения статистических данных. Нет необходимости в статистической выборке и всех тестах и приближениях. Нет доверительных интервалов. Нет стандартных ошибок. Нет проверки гипотез. Нет ошибок 1-го типа. Нет критерия Хи-квадрат. Нет p-значений. Не имеет ничего общего с вероятностной выборкой, необходимой для получения логической статистики. Понимая это, статистика задачи оценки значительно упрощается.

Задача оценки требует от аналитика только определения общей желательности объекта в рамках фактических рыночных данных, полученных от участников. Как только вы получите всю информацию об активности на этом рынке, больше ничего не нужно. Любой гипотетический, воображаемый, более крупный рынок был бы другим рынком, а не тем, который мы исследуем. Этот момент необходимо четко уяснить, чтобы понять суть данной статьи.

Принимая вышеизложенную истину, почему так много литературы по оценке увековечивает вымысел о логических выводах выборочной статистики? Почему мы так настаиваем на том, что сегмент рынка и сопоставимые показатели, которые мы используем, на самом деле не являются реальными объявлениями и реальными покупателями, что реальные объявления и фактические покупатели каким-то образом случайным образом выбираются из некоей гипотетической суперсовокупности?

Как это происходит? Эта логическая ошибка является результатом естественной интеллектуальной инерции. Это включает в себя обычное человеческое сопротивление и академический импульс. Учебники для средней школы и колледжей продолжают делать упор на логические выводы, поскольку новые авторы переписывают старые знания.

Когда карьера статистика построена на логических выводах и он мало знаком с методами прогнозирования и современной информатикой, [17] изменение личности может быть затруднено. К сожалению, акцент на логических выводах перекочевал в литературу по оценке.

Так откуда же берутся необходимые изменения? Изменения исходят от менеджеров баз данных, программистов, специалистов по эконометрике и нескольких статистиков, желающих бросить вызов старой догме. [18]

Внедряются новые образовательные парадигмы [19], в которых признается важная роль больших объемов данных, компьютерных мощностей, эконометрического моделирования [20] и прогнозной аналитики. Хорошей новостью является то, что эти мощные инструменты могут быть легко объединены со знаниями оценщика в данной области.

Логическая ошибка — это общая ошибка, связанная с непроверенными предположениями и отсутствием критического мышления. [21]

На Рисунке 5 дерево решений иллюстрирует проблему оценки и определяет источники ошибок.

Основная ошибка заключается в убеждениях и неоспоримых предположениях о том, как работает статистика, которые приводят к принудительному внедрению логических статистических данных в дисциплину (оценку), где они просто неприменимы. Это происходит из-за того, как исторически преподавалась статистика. Решение состоит в том, чтобы сосредоточиться на полном наборе данных — конкурентном сегменте рынка. Современное исследование полных или почти полных наборов данных, называемое прогнозной аналитикой, включает в себя интеллектуальный анализ данных, теорию игр, другие методы, такие как деревья решений, байесовские сети, статистическое обучение и методы обратной связи.

Препятствия для использования статистического анализа

Некоторые проблемы при использовании современного анализа связаны не с его применением, а скорее с поведением человека. Некоторые оценщики избегают статистического анализа из-за предполагаемого акцента на статистическом совершенстве. Например, автор или исследователь заявляет, что какой-либо метод имеет (например) допущение о нормальном (колоколообразном) распределении. Затем указывается, что конкретный набор данных не является нормальным или что большинство или даже все наборы данных, содержащих информацию об активах, редко, если вообще когда-либо, нормально распределяются. Делается вывод, что статистический метод или тест неверны и что читателю нужно быть намного умнее, прежде чем полагаться на такой статистический метод. Что еще хуже, некоторые из этих пугающих сценариев основаны на двусмысленности слова «статистика» и сомнительных логических предположениях. Что забывается, так это то, что важна полезность, а не совершенство.

Другой проблемой, связанной с поведением, является склонность некоторых знающих людей с ограниченным образованием в области статистики и эконометрического моделирования полагать, что их опыт, другое образование и здравый смысл могут заменить формальное обучение и опыт в области статистических методов.

Проблема в том, что статистика часто не понятна интуитивно. Во многих случаях это может быть совершенно нелогично. Глубокая зависимость от традиционной оценочной доктрины может на самом деле препятствовать пониманию надлежащей практики статистического моделирования. В следующем разделе приводится один из примеров интуитивно понятной (но ужасной с научной точки зрения) процедуры, которая имела далеко идущие негативные личные и экономические последствия.

Краткое изложение основных ошибок и рекомендации

Статистические данные, основанные на выводах, практически не применяются в повседневной работе по оценке. Оценщики не используют случайные выборки для отбора сопоставимых объектов. Всякий раз, когда вы видите термины «проверка гипотез», «доверительные интервалы», «стандартная ошибка», «хвостатые тесты», «Хи-квадрат» и «уровень значимости», знайте, что основная предполагаемая проблема заключается в том, что совокупность изучается на основе (случайной) выборки.

Чтобы использовать прогностический анализ, практикующим оценщикам необходимо понимать и использовать основные принципы, включая следующее:

  • статистические допущения в дополнение к предположениям об оценке;
  • как несовершенные допущения и несовершенные данные влияют на анализ;
  • решающая роль методологии и решений по моделированию — это часть искусства;
  • научный метод, критическое мышление и статистическое мышление.

Именно на них должно делаться упор в статистическом образовании оценщиков. Такое обучение предотвратит грубые бюрократические ошибки, описанные в следующем практическом примере.

Конкретный пример серьезной статистической ошибки

Статистическая тема здесь — потеря информации. [22]

Целью является анализ тенденций, рыночных условий и корректировка времени. Ущерб наносится доверию общественности.

Информационный компромисс

Цель статистического анализа данных — обеспечить максимально возможную точность при минимальном моделировании или предвзятом отношении со стороны человека. Но одновременно с этим целью является обеспечение коммуникации и понятности для клиента. Иногда потеря информации может быть разумным компромиссом в обмен на улучшение понимания.

Например, среднее значение набора данных легко понять, и оно может представлять весь набор данных. Тем не менее, происходит потеря информации, которая содержится только в отдельных точках данных.

Последствия потери информации могут варьироваться от полезных и незначительных до серьезных. Многие статистические ошибки связаны с неконтролируемой потерей информации. Задача состоит в том, чтобы избежать серьезной потери информации, сбалансировав понимание большого набора данных и взаимосвязей внутри такого набора данных. Следующий пример показывает потенциальную опасность потери информации и ее огромное влияние на экономику и общество.

Пример анализа рынка с использованием модели формы, ориентированной на клиента

Это практическое исследование демонстрирует применение хорошего инструмента — сопоставления пар — в неподходящем месте. [23]

В этом примере используемая модель является неподходящей, поскольку она искажает заявленные потребности пользователя. Важно отметить, что этот подход отражен в приложении «Текущие рыночные условия» к отчету об оценке (Форма 1004MC / Форма 71), требуемом Fannie Mac, Freddie Mac и государственными жилищными агентствами.

Заявленная цель приложения «Рыночные условия» — «предоставить кредитору / клиенту четкое и безошибочное представление о рыночных тенденциях и условиях, преобладающих в рассматриваемом районе».

В инструкциях к форме указано, что оценщик «должен использовать информацию, содержащуюся в этой форме, в качестве основы для своих выводов. [24]

Теперь мы рассмотрим, соответствует ли обязательная модель, изложенная в приложении к «Рыночным условиям», своей цели. Разумно предположить, что требуемая информация будет актуальной, своевременной и будет отражать правильное направление развития рынка. В качестве дополнительного бонуса, это может помочь подтвердить величину тренда, чтобы совпасть с корректировками по времени, используемыми в анализе. Однако в анализе тренда продаж есть несколько проблем. Первая статистическая проблема, связанная с этим анализом, — это определение проблемы. В частности, действительно ли мы хотим знать о тенденциях рынка и условиях в регионе?

Активность соседей может сильно отличаться от того, что происходит в конкурентном сегменте рынка.

Например, в районе могут быть дорогие многоэтажные кондоминиумы и доступные по цене квартиры (а также заправочные станции и т.д.).

Средняя цена, рассчитанная по всем кондоминиумам вместе взятым, может указывать на стабильный рынок с тенденцией цен, близкой к нулю. Но полезна ли эта информация? Актуальна ли она вообще?

На этом рынке дорогие высотные дома могут падать в цене, в то время как более дешевые квартиры растут в цене, или наоборот. Таким образом, рыночный индикатор, который объединяет эти субрынки, бесполезен ни для одного из типов объектов недвижимости.

Подходящей моделью должен быть конкурентный сегмент рынка, а не район. [25]

В настоящее время оценщик сталкивается с требованиями клиентов — Fannie Mac и Freddie Mac, — которые противоречат базовому образованию в области оценки. Возникает проблема соотношения формы и содержания. Для многих это была ситуация «уловки 22»: следуйте правилу соседства и получите неправильный ответ или не выполните установленные требования.

Если оценщик поступает правильно, т.е. использует реальный конкурентный сегмент рынка, возникает еще одно логическое противоречие.

В Таблице 1 приведен пример набора данных, характерных для тенденций рыночной конъюнктуры во многих регионах Соединенных Штатов в 2009 — 2011 годах. На основании анализа, приведенного в форме, становится ясно, что тенденция нисходящая. В отсутствие других статистических данных Fannie Mac предполагает, что это обеспечивает «точное понимание рыночных тенденций и условий, преобладающих в рассматриваемом регионе». [26]

Мы могли бы перейти к следующему шагу и представить гистограмму (рис. 6), чтобы проиллюстрировать очевидную тенденцию. Используя требуемую модель, мы видим, что тенденция явно снижается. Оценщик должен сообщить о сокращении рынка. Предположительно, эта тенденция будет точно совпадать с любой корректировкой по времени сопоставимых продаж. И данные, и график показывают устойчивое снижение примерно на 12 000 долларов за трехмесячный период, или примерно на 4000 долларов в месяц в течение всего года. Дает ли этот анализ обещанное четкое понимание тенденций и условий на рынке? Мой ответ — «Нет».

Давайте еще раз посмотрим на тот же набор данных. Что мы должны были сделать? Для двух переменных, даты и цены продажи, у нас есть точные данные. Точечный график — подходящая визуальная модель для анализа временных рядов. Задача графика состоит в том, чтобы усилить способность человеческого мозга видеть рынок и дать возможность данным говорить сами за себя.

Используя соответствующий инструмент — точечный график, — можно увидеть, что рынок изменил направление своего тренда, достигнув дна тремя месяцами ранее и потребовав корректировки в сторону повышения с 1 сентября 2009 года — для самых последних и надежных сопоставимых показателей. Является ли ошибка в дополнительном анализе косвенной? Указывает ли эта форма неправильное направление только в особых обстоятельствах? Нет. Для каждого рыночного дна он будет показывать неверный тренд в 100% случаев! [27]

И это будет неверно в момент принятия соответствующего решения, когда это наиболее важно. Итоговая ошибка в общей стоимости может достигать 10 — 20%, в зависимости от формы дна.

Оценщики должны использовать самые последние сопоставимые данные. В данном случае речь идет о продажах, имевших место в течение последнего трехмесячного периода. Таким образом, форма требует, чтобы оценщик подтвердил тенденцию к снижению (примерно на 4 000 долларов в месяц), даже если данные показывают очевидную тенденцию к росту на аналогичную сумму. Обратите внимание, что искаженный результат полностью меняется на противоположный на рыночных пиках.

Так в чем же причина? Проблема потери информации возникает, когда при измерении используется суммарный параметр (медиана трехмесячной группы), а не используется точная дата закрытия для каждой точки рыночных данных. [28]

Как этого можно избежать? Решение очевидно. Точечный график наглядно объясняет рыночную тенденцию аналитику и кредитору/клиенту. На основе этого отображения аналитик может построить кривую, будь то линейная, сплайновая модель или полиномиальная. [29]

Изменение тренда проявляется немедленно. Результирующая временная корректировка отражает всю известную рыночную информацию на дату определения стоимости. [30]

Например, линейная регрессия хорошо согласуется с данными за последние три месяца, поэтому простой коэффициент регрессии обеспечивает точную корректировку в долларах США в день для данного сегмента рынка.

Последствия

Если оценщик следует инструкциям формы Fannie Mae, применяя временные корректировки в неправильном направлении, вывод о стоимости будет неверным и будет отличаться от определения рыночной стоимости. Либо оценщик нарушает определение стоимости, либо оценщик нарушает инструкции клиента. По сути, директивы государственных предприятий (GSE) требуют, чтобы оценщики предоставляли нерыночную стоимость, а также подтверждали, что это рыночная стоимость. В любом случае, оценщик нарушает USPAP. В результате государственного административного принуждения ряд оценщиков были обвинены, признаны виновными и наказаны за предоставление предвзятого анализа.

Кроме того, требуемые цены ниже рыночных имеют большое экономическое и политическое значение. Когда полмиллиона аналитиков сообщают о падении рынков через три месяца после того, как рынок начал расти, это увеличивает глубину и продолжительность рецессии, увеличивает размер государственных субсидий, оказывает большее давление на государственных чиновников и наносит ущерб репутации регулирующих органов и GSE. Хуже того, точно так же, как эта «техническая» ошибка помогла продлить недавнюю рецессию, она также приведет к раздуванию следующего «пузыря», поскольку оценщики будут вынуждены корректировать рыночные показатели в сторону повышения спустя месяцы после того, как рынок явно достигнет пика. Это простое статистическое невежество приводит к далеко идущему социальному и экономическому ущербу.

Другие распространенные статистические ошибки

Мы рассмотрели некоторые из наиболее существенных статистических ошибок, но оценщики могут столкнуться с другими, более мелкими, но распространенными ошибками. Хотя это и не полный список, следующие статистические ошибки можно найти в оценках и литературе по оценке.

Неправильное использование переменных (элементов сравнения)

Использование неправильной переменной — это ошибка, которая может возникнуть при простой регрессии, многомерной регрессии или даже при традиционных субъективных сравнениях. Эта ошибка возникает, когда используется переменная, которая измеряет не то, что ожидает аналитик.

Один из примеров — использование высоты над уровнем моря в качестве показателя привлекательности вида, вместо оценки того, что на самом деле можно увидеть.

Другой пример — использование года постройки объекта (еще одно аналитическое требование Fannie Mae) вместо фактического возраста.

Еще один пример — использование номинального размера участка, а не полезной площади участка.

Решение заключается в использовании значимых переменных, а не тех, которые легко получить и которые удобны для восприятия. Иногда случайное предположение о правильной переменной намного лучше, чем неправильная, но точная переменная.

Использование слишком большого числа переменных-предикторов.

Еще одной распространенной ошибкой в статистическом анализе является использование слишком большого числа независимых переменных.

При многомерной регрессии редко удается объективно и надежно определить коэффициенты более чем для четырех или пяти наиболее важных характеристик объекта.

Для больших наборов данных может оказаться возможным объективно обосновать корректировки или коэффициенты для шести или семи переменных.

Ошибка заключается в неограниченном использовании коэффициентов при недостатке данных. Это распространенная проблема с программами регрессии для оценщиков.

Лучшим подходом является применение предыдущего опыта или других методов, таких как скорректированные затраты, экстракция или капитализация компонента.

Проблема с игнорированием пропущенной переменной.

Неспособность распознать пропущенную переменную (часто внешнюю) может привести к фатальным последствиям при статистическом анализе.

Имейте в виду, что экономическая часть эконометрического анализа превосходит математическую часть, связанную с метриками. Тот факт, что набор данных не содержит нужной переменной, не позволяет аналитику не учитывать эту переменную.

Примером может служить внутреннее состояние объекта недвижимости, когда проверка невозможна. Возможно, потребуется собрать данные для недостающей переменной с помощью физических наблюдений или измерений, процесса подтверждения и верификации или других исследований.

Художественная догадка лучше, чем уклонение от нее.

Отсутствие информации нельзя игнорировать, а обоснованная субъективная догадка всегда лучше, чем слепота.

Неосторожное преобразование переменных.

Часто в регрессиях необходимо линеаризовать переменную, чтобы она соответствовала требованиям линейного допущения для конкретного статистического анализа. Однако необходимы осторожность и ясность, поскольку преобразования могут радикально изменить характер набора данных.

Примеры преобразований включают следующее: использование логарифмической шкалы вместо линейной; изменение расстояния в милях на биномиальные «ближнее» и «дальнее»; и изменение многокатегориальных переменных в расчетные относительные предельные значения.

Обычное преобразование заменяет непрерывную функцию вектором (столбцом значений переменных). Такие преобразования могут быть использованы для того, чтобы сделать график более понятным.

Здесь снова возникает компромисс между понятностью и математической обработкой в случае потери информации.

Преобразованная переменная теперь представляет собой разумный компромисс между исходными значениями и предполагаемой целью преобразования. Преобразование переменной (иногда с использованием вспомогательной переменной-дублера) является приемлемым

  • для получения более значимой переменной;
  • для стабилизации дисперсии или уменьшения гетероскедастичности (неравномерной изменчивости);
  • для создания комбинированной переменной (или устранения эффектов взаимодействия), например, когда две независимые переменные, находясь вместе, создают отдельный составной компонент значения; и
  • для соответствия линейной модели.

При преобразовании или использовании прокси-переменной четко представляйте цель и эффект преобразования.

Часто преобразование переменной, такой как размер, в цену за единицу или стоимость дома за квадратный фут, уменьшает вариабельность, и это хорошо. Но в других случаях это может указывать на то, что переменная не является подходящей единицей измерения для данного рынка и лучше использовать другую, связанную с ней переменную. Решение здесь состоит в том, чтобы всегда проверять, уменьшается ли результирующая изменчивость (диапазон указанных значений) после преобразования переменной.

Ненадлежащее обращение с данными. Числовое кодирование многокатегориальных данных.

Еще одна статистическая ошибка возникает при применении числового кодирования к многокатегориальным данным. В качестве примера можно ввести количество промышленных раздвижных дверей в множественной регрессии.

Ошибка заключается в том, что формула множественной регрессии предполагает, что две двери в два раза дороже, чем одна дверь, и что двенадцать дверей в шесть раз лучше, чем две. Линейная зависимость редко подходит. Это зависит от размера и использования объекта недвижимости.

Это общий случай неправильного преобразования номинальных или порядковых данных в интервальные или относительные данные (или наоборот). [31]

Это распространенная проблема, особенно при использовании стандартных регрессионных программ. Некоторые предлагаемые решения заключаются в преобразовании в двоичную переменную; использовании фиктивных переменных; или преобразовании линейных показателей (таких как жилая площадь) в линейную функцию полезности, часто представляемую логарифмическим преобразованием. [32]

Неадекватная обработка отклонений и важных точек данных.

Отклонения также могут существенно изменить любой статистический анализ. Точка данных может быть типографской ошибкой (при вводе), отражать ошибочное измерение или быть включена непреднамеренно.

В результате, каждое отклонение от нормы должно быть исследовано и, при необходимости, удалено, исправлено или объяснено. Для проведения проверяемой работы решение о том, как обращаться с любыми отклонениями от нормы, должно быть задокументировано.

Неправильное обращение с пропущенными наблюдениями.

Статистические ошибки могут возникать при отсутствии наблюдений. Существует три типа отсутствующих данных: полная продажа (весь кейс), конкретное поле данных [33] (столбец атрибутов) или отсутствующая ячейка или элемент данных.

Данные могут отсутствовать из-за того, что некоторые базы данных не включают все продажи в сегменте рынка. Например, в некоторых городах покупатели, как правило, скрывают цены продажи самых дорогих домов.

Таким образом, существует корреляция между пропущенными случаями и очень важной переменной — ценой продажи. Эти пропущенные наблюдения приведут к искажению параметров (среднее значение, медиана, дисперсия и т.д.) и, конечно же, не будут отображены на точечной диаграмме. Пропущенные случаи должны быть оценены или скорректированы иным образом.

Аналогичным образом, необходимо устранить любую отсутствующую, но важную характеристику свойства (поля). Либо она должна быть оценена независимо (даже субъективно), либо должна быть заменена дополнительной (косвенной) переменной [34].

Одним из примеров может быть использование поля «жилец» в качестве замены для мотивированного продавца пустующего дома. Пропущенные поля также можно ввести как среднее значение для других значений, чтобы свести к минимуму их влияние на анализ. В некоторых случаях, возможно, было бы лучше просто удалить все обращение целиком или что-то подобное.

Неправильное использование коэффициента вариации или чрезмерная зависимость от него.

Коэффициенты вариации (CV) могут быть очень полезны для определения сопоставимости рыночных показателей. Однако CV очень чувствительны к ошибкам в среднем значении, особенно если рассчитанное среднее значение близко к нулю. Асимметрия, гетероскедастичность и логарифмическая эластичность спроса характерны для рынков недвижимости. Поэтому CV следует проверять на чувствительность к изменениям в выбранном наборе данных, особенно к любым отклонениям, и использовать CV только для переменных шкалы коэффициентов.

Неспособность должным образом использовать случайность.

При работе с данными случайность может быть как плохой, так и хорошей.

Случайность вредна при выборе набора данных о сегментах рынка, поскольку цель определения полного набора данных состоит в том, чтобы

  • предоставить конкурентные или экономически связанные рыночные данные; и
  • предоставить информацию таким образом, чтобы общая и элементарная привлекательность объекта была заключена «в скобки», где объект находится ближе к центру каждого из них. распространение данных.

Случайность — это хорошо, и она во многом помогает нам, когда сегмент рынка определен и охарактеризован. Случайность в значительной степени гарантирует, что анализ и окончательное суждение на основе показателей будут достаточно точными. Можно даже утверждать, что оценщик не сможет сделать лучше. Это приводит к концепции ведения аудиторского следа с использованием лучших практик оценки, поддающихся аудиту. [35]

Переобучение.

При подгонке кривых к данным всегда можно найти полиномиальное соответствие более высокого порядка. Вы можете увеличивать порядок полинома до тех пор, пока кривая не будет проходить через все точки данных. К сожалению, тогда вы ничему не научитесь. Имейте в виду, что моделирование — это компромисс между потерей информации и ее понятностью. Кривая — это форма усреднения или потери информации. Она приносит в жертву информацию, но помогает понять тенденцию. Определите правильное соответствие на глаз.

Использование только одного значения или измерения.

При статистическом анализе может быть полезно среднее значение (или другой показатель центра). Однако оно может вводить в заблуждение без измерения или понимания других характеристик распределения, таких как изменчивость, асимметрия, нормальность, мультимодальность или эксцесс. [36]

Полезность изолированного показателя может быть сомнительной, особенно при сравнении наборов данных (например, рыночных площадей). Решение состоит в том, чтобы научиться применять другие критерии модели для оценки ее пригодности. О том, является ли модель подходящей сама по себе, нельзя судить исключительно на основе какого-либо одного математического параметра, на самом деле, полезность или уместность модели статистически не поддается проверке. Опять же, решение заключается в рассмотрении других применимых показателей, а также в принятии решений по моделированию, основанных на понимании экономических аспектов ситуации.

Корректировка сопоставимых данных без проверки на предмет уменьшения диапазона показателей.

Цель внесения корректировок, будь то в рамках традиционной таблицы или эконометрического метода, заключается в уменьшении ценового разброса (относительного диапазона) скорректированных цен сопоставимых продаж. Если вариация или диапазон скорректированных цен не уменьшаются, то в повышении точности ничего не достигнуто. Как и прежде, решение состоит в том, чтобы проверить, сужается ли вариация или диапазон значений.

Использования доверительных интервалов, когда требуется интервал прогнозирования.

В контексте оценки целью является оценка фактического значения, а не условного среднего ожидаемого значения.

В статистическом анализе доверительные интервалы в основном относятся к выборочному анализу, в то время как интервалы прогнозирования (prediction intervals) относятся к полным наборам данных и задачам прогнозирования.

Поэтому в большинстве приложений для оценки оценщикам следует использовать интервалы прогнозирования для оценки изменчивости, а не доверительные интервалы, которые оценивают изменчивость выборки. [37]

Заключение

Оценка недвижимости, как правило, требует только простой описательной статистики. Важна концепция эконометрического моделирования. Статистические ошибки редко бывают математическими по своей природе. Вместо этого они, как правило, являются ошибками, связанными со следующим:

  • Неверные допущения, особенно связанные с использованием логического вывода.
  • Настойчивое соблюдение теоретической статистической чистоты, в то время как реальными целями являются понятность и полезность
  • Потеря информации без видимой причины, включая отбрасывание отдельных данных (не используются все доступные рыночные данные) [38] и агрегирование, когда фактические данные непосредственно полезны
  • Игнорирование того, что целью разработки статистической оценки является уменьшение вариативности и повышение точности выводов

В практике оценки существует большая потребность в эконометрической методологии, которая применяет статистические методы для решения экономической проблемы, связанной со стоимостью недвижимости. Оценщики жилья, похоже, имеют преимущество, учитывая характер проблемы. Существует необходимость в анализе общих ключевых переменных для каждого типа недвижимости.

В своей статье в журнале Appraisal Journal «Статистическое понимание стоимости» Kummerow уделяет особое внимание показателям разброса вокруг наиболее вероятной цены продажи и оценкам ошибок в оценках параметров.[39]

Основным преимуществом оценки, основанной на обобщении наборов данных, является возможность объединения старой статистики, прогнозной аналитики, информатики и статистического обучения. Правильное использование этих инструментов и сопутствующие им выгоды принесут обществу как профессиональные оценщики, так и бухгалтерское/финансовое сообщество или коммерческие предприятия.

Наконец, для выживания профессии оценщика в аналитических процессах необходимо учитывать предвзятость человеческого поведения. Люди изначально и естественно предвзяты в суждениях, что проявляется в отчетах об оценке. Пузырь на рынке недвижимости конца 2000-х годов был вызван финансовым и поведенческим перенасыщением, а также структурными проблемами. К сожалению, эти поведенческие проблемы рассматривались как несущественные внешние факторы как во всей отрасли, так и в сфере оценки.

Уделение большего внимания научным методам, критическому мышлению и показателям надежности может революционизировать профессию оценщика и изменить ее назначение. Однако, как предупреждает The Appraisal of Real Estate, оценщикам необходимо

… иметь в виду, что, хотя современное статистическое программное обеспечение является простым в использовании, его использование может способствовать созданию менее чем заслуживающего доверия рабочего продукта, когда не учитываются шаги, необходимые для обеспечения достоверного построения модели. [40]

Мэтью К. Тримбл, Комментарии к «Распространенные статистические ошибки: оценка и надежность». Письмо главному редактору

В недавней статье Джорджа Делла, MAI, SRA, «Распространенные статистические ошибки: оценка и надежность» (осень 2013 г.) утверждается, что генеральная совокупность получается с помощью набора данных, состоящего из всех сопоставимых продаж на рынке [41]. Однако статистическая совокупность никогда не может быть получена, когда оцениваемым параметром является рыночная стоимость конкретного объекта недвижимости.

Тезис г-на Делла

Логические модели, использующие выборочную статистику, не являются необходимыми для оценочной работы. Все, что требуется, — это описательные модели совокупностей

внутренне противоречив.

Описательные модели только описывают, они не предсказывают, не оценивают и не спрогнозируют. Только логические модели делают умозаключения, то есть предсказания, оценки и прогнозы. Совокупность содержит информацию только о самой себе; как только предполагаемая совокупность используется для того, чтобы сделать выводы о неизвестной величине, она становится выборкой, и обязательно предполагается большая совокупность.

Любое исследование начинается с вопроса. При оценке этот вопрос заключается в том, какова рыночная стоимость конкретного объекта недвижимости?

В статистике вопрос, на который необходимо ответить, определяет интересующую нас совокупность. Таким образом, идеальной совокупностью, представляющей интерес при оценке рыночной стоимости, является совокупность всех возможных цен, которые могли бы быть уплачены за оцениваемое имущество (исходя из предположений о рыночной стоимости) на дату оценки стоимости.

Эта идеальная совокупность проиллюстрирована колоколообразной кривой на Рисунке 1 статьи мистера Делла, одним из параметров которой является рыночная стоимость (среднее значение).

Провести прямую выборку этой совокупности невозможно, поскольку для этого потребовалось бы продавать недвижимость снова и снова на дату оценки стоимости. Мы не можем путешествовать во времени, чтобы провести такой эксперимент. Необходимо четко понимать, что эта идеальная целевая совокупность является необходимой концептуальной конструкцией, которую нельзя непосредственно отобрать, не говоря уже о том, чтобы получить, как предлагает г-н Делл.

Статистическое моделирование предполагает, что эта идеальная целевая совокупность существует в более широком контексте или большей совокупности.

(Классической иллюстрацией этой взаимосвязи является серия колоколообразных кривых, центрированных вокруг линии линейной регрессии.)

Независимо от того, насколько большой или полный набор сопоставимых продаж используется в качестве выборки, репрезентирующей большую совокупность.

Путем статистического моделирования большей совокупности можно сделать выводы о параметрах идеальной целевой популяции, т.е. обо всех возможных ценах, которые могли бы быть заплачены за оцениваемое имущество.

Г-н Делл рекомендует оценщикам использовать понятие совокупности вместо выборок и игнорировать такие показатели, как доверительные интервалы и т.д., которые указывают на надежность и точность статистической оценки. Однако все передовые компьютерные методы и статистическая регрессия прочно входят в область логических выводов статистики.

Любая модель или методика, которая оценивает неизвестную величину, является логической. Если набор данных, каким бы большим он ни был, не содержит неизвестной величины, то, по определению, это не совокупность, а выборка.

Это правда, что оценщики не собирают случайные выборки. Оценщики не выбирают продажи случайным образом из набора сопоставимых продаж.

Эта критика г-ном Деллом статистических выводов является отвлекающим маневром. Статистическое моделирование не требует случайной выборки в разговорном смысле этого термина, но оно требует непредвзятой репрезентативной выборки. Если бы мы исследовали элементы производственного процесса, случайная выборка потребовалась бы для защиты от предвзятости и обеспечения репрезентативности. Однако при оценке это не так. Предполагается, что при правильном выборе набор сопоставимых продаж уже является несмещенной выборкой, репрезентативной для моделируемой совокупности. Предполагается, что каждая цена сопоставимой продажи имеет некоторую степень шума, случайности, изменчивости или неопределенности. Математически говоря, каждая цена продажи — это значение, принимаемое базовой случайной величиной. Другими словами, каждая наблюдаемая цена продажи сама по себе является элементом базовой совокупности всех возможных цен, по которым могла быть реализована продажа. Этого достаточно для статистического моделирования.

Непредвзятая репрезентативная выборка является необходимым условием для надежных выводов о параметрах совокупности. Что является репрезентативным, а что нет, определяется прозрачными критериями включения и исключения, основанными на экспертном заключении оценщика. Включение и исключение продажи основано исключительно на прозрачных критериях включения и исключения. До тех пор, пока набор данных оценщика является объективным и представляет сопоставимый сегмент рынка, можно делать надежные статистические выводы. Но этот набор данных всегда рассматривается как выборка и никогда не является базовой математической совокупностью, если мы оцениваем неизвестную величину.

В своей статье мистер Делл предлагает использовать интервалы прогнозирования и регрессию. Оба они, несомненно, основаны на предполагаемой базовой абстрактной, бесконечной и недостижимой совокупности.

Подразумеваемым понятием интервала прогнозирования является совокупность всех возможных цен продажи объекта недвижимости (в соответствии с предположениями о рыночной стоимости) на дату оценки стоимости. Интервал прогнозирования в 95% — это интервал, который, по оценкам, содержит цену продажи оцениваемого имущества на дату оценки в 95% случаев. Это утверждение и понятие интервала прогнозирования не имеют смысла без понятия совокупности, состоящей из всех возможных цен, по которым недвижимость может быть продана. Другими словами, предположения логической статистики абсолютно необходимы для прогнозной оценки.

Математика по своей природе является идеализированной абстракцией. В реальности идеальных треугольников не существует. Предположения статистики ничем не отличаются. Оценщиков не следует обманывать, полагая, что у них есть все данные для оценки рыночной стоимости. Ни у кого никогда не было всей генеральной совокупности в её истинном математическом смысле, и утверждать так много — все равно что утверждать, что кто-то знает, где заканчивается бесконечность. Недостижимый характер целевой совокупности лежит в основе статистического моделирования; это центральная проблема статистики, и ее природа — это то, о чем мы делаем выводы.

В нашей практике мы уже сталкивались со случаями, когда «эксперт» утверждал, что ему не нужно предоставлять никаких доверительных интервалов или других показателей точности для своей статистически полученной оценки, поскольку у него была вся совокупность. Однако оценки всегда содержат неопределенность. Оценки, свободные от всякой неопределенности, называются фактами. Логическая статистика в значительной степени является наукой о неопределенности. Задачи, свободные от случайности или шума, являются детерминированными, и оценка не требуется. Утверждать, что у кого-то есть полная совокупность, равносильно утверждению о совершенстве, свободном от всякой неопределенности. Если оценщики прислушаются к совету, содержащемуся в статье, это станет серьезным шагом назад для профессии и направит оценщиков по пути, полностью противоречащему логическим основам не только статистики, но и самой оценки.

Matthew C. Trimble, MS

Oklahoma City, Oklahoma

Ответ автора

Я хотел бы поблагодарить мистера Тримбла за его комментарии к «Распространенным статистическим ошибкам». Совместный поиск истины полезен для профессии.

Комментарии мистера Тримбла, по-видимому, основаны на предположении, что релевантной совокупностью данных, представляющей интерес, является нечто иное, чем конкурентный сегмент рынка (сопоставимые объекты). Разница в восприятии здесь вполне может заключаться в различии подходов к критическому мышлению — прикладной эконометрики и чистой математики мистера Тримбла. По сути, его опровержение основывается на самой крупной из распространенных ошибок критического мышления, оспариваемых в статье, — необходимости создания фиктивной совокупности для применения сложной и впечатляющей передовой статистики.

Я полагаю, мистер Тримбл неправильно истолковал мой тезис. Мой тезис заключается в том, что логические модели, использующие выборочную статистику, не являются необходимыми для типичной оценочной работы. Хотя он утверждает, что описательные модели «только описывают», в The Appraisal of Real Estate, 14-е издание, говорится: «описательная статистика занимается сбором, представлением и количественной оценкой данных» (стр. 279).

Мистер Тримбл утверждает, что оценщиков интересует абстрактная несовокупная совокупность (unpopulated population), т.е. конкретная совокупность, представляющая интерес при оценке рыночной стоимости, — это «совокупность всех возможных цен, которые могли бы быть заплачены за оцениваемое имущество». Однако то, что определяет совокупность, — это данные, с которыми вам приходится работать, а то, что он описывает, — это распределение зависимой переменной. Его концептуальная совокупность (как он утверждает) не существует. Я согласен. Однако при обсуждении частотного статистического мышления («продажа собственности снова и снова») чистая математическая теория, по-видимому, перевешивает реальность проблемы, и обсуждение иллюстрирует проблемы навязывания решения, основанного на статистических выводах, для одноразового вопроса оценки.

Прикладная экономика активов имеет дело с фактическими данными о продажах, реализованными на реальном рынке, а не с какой-то воображаемой «идеальной целевой группой» или гипотетической суперпопуляцией.

Заявление мистера Тримбла о том, что все передовые компьютерные модели прочно вошли в область логических выводов статистики, игнорирует сегодняшнюю реальность — экспоненциальный рост программного обеспечения для обработки больших данных, прогнозного моделирования, машинного обучения и методов data science с использованием полных наборов данных. Кроме того, утверждение о том, что статистическая регрессия прочно входит в область логических выводов статистики, просто неверно.

Существует три способа использования регрессии:

  • описание условного распределения с учетом характеристик рыночного спроса;
  • предсказание, как при оценке или прогнозировании, где критерием является полезность; и
  • вывод, если сначала применяется базовая модель выборки.

Как выясняется, третье использование является наиболее проблематичным по той самой причине, что в большинстве случаев при оценке сложно фальсифицировать простую случайную выборку.

Как говорится в The Appraisal of Real Estate, 14-е издание, «Регрессионные модели могут быть либо прогностическими, либо структурными. Прогностические модели преобладают в большинстве систем оценки» (стр. 736-737).

Я примерно согласен с его утверждением, что «любая модель или метод, которые оценивают неизвестную величину, являются логическими выводами».

Проблема здесь, опять же, заключается в двусмысленном использовании слова «логический вывод». Для логических рассуждений утверждение верно, для логической статистики — нет. В методах прогнозирования неизвестная величина не может быть частью совокупности. (Если вы знаете ее значение, вам не нужно его оценивать).

Математика логической статистики требует случайной выборки. Мистер Тримбл дважды заявляет, что предполагается, что набор сопоставимых продаж уже является непредвзятой репрезентативной выборкой и поэтому может использоваться для статистических выводов. Однако это просто устраняет надоедливое математическое требование с предположением о соответствии. Есть способ получше.

Проблема оценки двояка:

(1) получить данные о конкурентном рынке и

(2) позиционировать объект на этом рынке.

В науке о данных идентификация сегмента конкурентного рынка — это проблема классификации, а не проблема выборки. (Это сопоставимый объект или нет?)

Оценка стоимости объекта — это проблема прогнозирования. Причина, по которой в статье подчеркивается это различие, заключается в том, чтобы избежать путаницы между двумя отдельными аналитическими методами, необходимыми при оценке: классификацией и прогнозированием.

В «Оценке недвижимости» признается, что оценщики используют образцы суждений (стр. 99-100). Комментарии мистера Тримбла (а также комментарии доктора Вулвертона, которые следуют ниже) предполагают, что такое экспертное заключение достаточно близко, чтобы профессия могла просто притвориться, что математическое требование удовлетворено. Однако использование воображаемой совокупности и воображаемого механизма выборки является одной из проблем для доверия к профессиональной оценке. Образование в области оценки, которое рационализирует это убеждение, усугубляет проблему «мусорной науки» в зале суда и в других местах. Обычные статистические выводы (такие как стандартная ошибка, f-тесты и т.д.) зависят от предположения о случайной выборке. Это не предмет обсуждения, а вопрос математической необходимости. Верно, что в наборе данных присутствует шумовая изменчивость. Здесь возникает путаница между вариабельностью выборки и вариабельностью измерений. При использовании полного набора данных вариабельность выборки отсутствует. И нет необходимости в выводной статистике.

Мистер Тримбл утверждает, что допущения логической статистики «абсолютно необходимы для прогнозирующей оценки» и что прогнозирующие интервалы и регрессия «несомненно основаны на предполагаемой лежащей в основе абстрактной, бесконечной и недостижимой совокупности». Для этого математически противоречивого утверждения не указан источник. Регрессия — это просто математическая формула, не больше и не меньше. Все остальное связано с моделированием решений. Сопоставимые данные о продажах реальны, конечны и доступны. Допущениями прогнозирующей модели обычно являются линейность, аддитивность и распределение. Существует фундаментальная причина, по которой интервалы прогнозирования (в отличие от доверительных интервалов) подходят для таких наборов данных. Они учитывают ранее упомянутый шум данных, включающий погрешность измерений (например, из зон транзакций) [42] и нелинейности, присущие функциям полезности, но не ошибку выборки.

Он делает некоторые обобщения и намеки на чистую математическую теорию, которые кажутся позициями теоретического совершенства, о которых говорилось в моей статье. Важна полезность, а не абстрактная чисто математическая теория о совершенных треугольниках и бесконечности.

В последнем абзаце письма мистера Тримбла продолжается путаница между методами прогнозирования и статистическими выводами — даже несмотря на то, что мы согласны с тавтологией, что «оценки всегда содержат неопределенность». Если вы визуально оцениваете (предсказываете), как далеко летит мяч после хоумранна, существует неопределенность. Однако для этого единственного события недоступна математика, на основе которой можно было бы построить доверительный интервал (поскольку выборки нет). Однако, если вы проинструктируете питчера и отбивающего бросать и наносить удары точно таким же образом, насколько это возможно, сто раз (контролируемая выборка), и используете результаты как случайное совпадение из теоретически бесконечной совокупности попаданий, тогда у вас будет вариация выборки, и вы сможете оценить среднее расстояние через доверительный интервал.

Ошибка прогнозирования (в оценочном анализе) возникает из-за шума измерений. Статистическая ошибка возникает из-за ошибки выборки. Интервал прогнозирования сообщает вам, где ожидать следующую точку данных, Доверительный интервал сообщает вам, насколько хорошо вы оценили среднее значение.

Предположение о том, что каким-то образом к двум компонентам проблемы оценки должны быть применены частотные методы вывода, является всеобъемлющей статистической ошибкой. Это не решает представленную проблему и неверно направляет обучение оценке. Это логическое предположение наносит вред профессии, и его распространенность в литературе по оценке и образовании вызывает сожаление. Моя позиция заключается в том, что когда у вас есть все (или практически все) соответствующие данные о продажах, вам не нужно беспокоиться о выборках. Как сказал Альберт Эйнштейн: «Если вы не можете объяснить это просто, значит, вы недостаточно хорошо это понимаете.»

George Dell, MAI, SRA

San Diego, California

Марвин Л. Вулвертон, Комментарии к «Распространенные статистические ошибки: оценка и надежность». Письмо главному редактору

Подразумевается, что статья Джорджа Делла, MAI, SRA, «Распространенные статистические ошибки: оценка и надежность» (осень 2013 г.) вводит новую парадигму моделирования оценки посредством смелого утверждения о том, что описательные модели популяций достаточны для оценочной работы, что делает ненужными логические модели, основанные на анализе выборок [43]. Это действительно смелый тезис, требующий тщательного обсуждения и проверки.

Я прочитал комментарии мистера Мэттью Тримбла к этой статье и нахожу его позицию соответствующей и теоретически обоснованной. С моей стороны было бы контрпродуктивно заниматься тем же самым. Вместо этого я акцентирую свое внимание на заключительном предостережении мистера Тримбла.

Значительную часть последних нескольких лет я посвятил разработке инструментов и возможностей обучения для оценщиков, направленных на повышение компетентности в использовании описательных и логически выводных статистических методов в их практике оценки. Взаимодействие со студентами и оценщиками на протяжении многих лет продолжает выявлять большое количество трудно опровергаемых заблуждений относительно применения статистических методов. Они охватывают широкий спектр от простого неправильного использования статистической терминологии до более сложных идей, таких как роль случайности, нормальное распределение и заявления о достоверности и/или допустимой погрешности. Статья мистера Делла изобилует многими из этих недоразумений и тем самым увековечивает их.

Например, статья начинается с искажения статистического значения надежности. В первом абзаце указывается, что целью оценщика является вероятностная надежность, говорится, что для того, чтобы быть надежной, «оценка стоимости должна быть одновременно точной и безошибочной».

Хотя это утверждение звучит привлекательно и похвально, оно, по сути, неверно. Значения слов имеют значение, и если кто-то собирается писать о надежности, ожидается, что автор знает значение термина «надежный» в контексте дисциплины, о которой пишется.

Точность и прецезионность не имеют ничего общего с надежностью. Надежность — достойная восхищения цель, но вполне возможно, что мера может быть одновременно надежной и неточной. Действие или измерение являются надежными, если они последовательны и стабильны — самый яркий пример связан со стрельбой по мишеням. Винтовка может быть надежной, если она промахивается мимо цели на одинаковую величину при каждом выстреле (стабильно) и продолжает промахиваться на ту же величину, если ее убрать на хранение и выстрелить снова в другое время (стабильно).

Конечной целью оценки является валидность, которая заключается в точном измерении того, что человек намеревается измерить, и надежность, которая подтверждается последовательной и стабильной валидностью. В контексте оценки валидность зависит как от качества данных о транзакциях, так и от того, как эти данные анализируются.

Вопреки выраженному г-ном Деллом мнению, простых описательных показателей всех недавних сопоставимых сделок обычно недостаточно для обоснованности оценки.

В статье представлен запутанный взгляд на совокупности, выборки и выводы. Автор придерживается позиции, согласно которой набор данных, представляющий перепись проданных объектов недвижимости в районе рынка за определенный период времени, представляет собой совокупность. Хотя такую перепись можно рассматривать как перепись населения, необходимо задаться вопросом, что это за население и как оно соотносится с формированием мнения о стоимости.

На мой взгляд, это можно рассматривать как совокупность продаж недвижимости и как говорится в цитате из статьи доктора Эпли (стр. 334), продажи могут быть математически обработаны как совокупность для разработки параметров, таких как средняя или медианная цена или цена за единицу измерения, стандартные отклонения цен или характеристик недвижимости, диапазоны, квартили и тому подобное.

Хотя такого рода параметры переписи продаж могут быть использованы для описания данных о продажах, сами по себе эти параметры не могут и не должны использоваться для определения рыночной стоимости при назначении оценки. Необходимы обоснованные выводы, чтобы установить связь между переписью проданного имущества и выработкой мнения о рыночной стоимости имущества, которое может быть или не быть элементом переписи.

При статистическом выводе необходимо и уместно математически рассматривать «совокупность» проданного имущества как «выборку».

В статье говорится: «Поскольку доступны полные наборы данных, нет необходимости использовать выборки (стр. 334)».

На самом деле, неуместно рассматривать «полный набор данных» как нечто иное, чем выборку при формировании мнения о рыночной стоимости объекта недвижимости с использованием статистических методов.

Мистер Тримбл в своих комментариях обращается к этому, когда обсуждает концепцию стоимости как ожидаемого значения «всех возможных [рыночных] цен, которые могут быть уплачены за оцениваемое имущество».

Простой принцип, лежащий в основе теории стоимости, касается разницы между ценой и стоимостью. Наборы данных состоят из наблюдаемых цен, которые анализируются для получения представления о ценности, которую невозможно наблюдать. Следовательно, единственной альтернативой является вывод стоимости из данных о ценах. Если аналитик предпочитает полагаться на статистические методы для вывода, то понимание инструмента вывода или инструментов, используемых для достижения этой цели, имеет первостепенное значение.

Напротив, г-н Делл говорит,

Нет необходимости в статистической выборке и всех тестах и приближениях. Нет доверительных интервалов. Нет стандартных ошибок. Нет проверки гипотез. Нет ошибок первого типа. Нет хи-квадрата.

Нет p-значений. Ничего общего с вероятностной выборкой, необходимой для логической статистики (стр. 338).

Ничто не может быть дальше от истины. Его точка зрения подразумевает детерминированные взаимосвязи, не допускающие никакой неопределенности при формировании мнения о стоимости, основанного на наблюдениях за ценами. Более того, последнее предложение в этом отрывке увековечивает миф о том, что логическая статистика требует вероятностной выборки. Обоснованные мнения требуют репрезентативных выборок (наш принцип замещения вытекает из этой линии рассуждений), и случайная выборка является одним, но не единственным способом сбора репрезентативной выборки.

Мистер Делл подразумевает, что наборы данных должны быть нормальными (стр. 340). Это неверно для приложений линейного регрессионного моделирования. Что верно, так это то, что ошибки регрессии считаются нормальными.

В практическом смысле это означает, что некоторые рыночные цены в наборе данных превышают рыночную стоимость, некоторые ниже рыночной стоимости, и эти различия компенсируются (непредвзято). Также это означает, что больше наблюдений близко к центральной тенденции, чем далеко от нее. Это приводит к показанию средней цены, которая сосредоточена на наиболее вероятной цене или вблизи нее, с ошибками оценки регрессионной модели, сгруппированными вокруг среднего значения. Разброс таких ошибок регрессии может быть относительно узким или широким, что приводит к пониманию точности прогнозирования рыночной стоимости модели. (Я не могу себе представить, почему аналитик или клиент не оценили бы понимание относительной точности вывода.)

Важно отметить, что если данные репрезентативны, непредвзяты и достаточны по количеству, то модель линейной регрессии будет генерировать достоверные прогнозы центральной тенденции (при оценке обычно это прогнозы средней цены, определяемые как оценки рыночной стоимости) и достоверные доверительные интервалы, указывающие на точность прогноза (например, пределы ошибка).

Хотя может случиться так, что логические статистические методы подходят не всем, использовать их или нет — это личное дело каждого. Я первый, кто говорит, что опора исключительно на наши традиционные методы может привести к весьма достоверным профессиональным результатам. Однако, если профессионал решает использовать дополнительный аналитический инструмент, он или она обязаны стать опытными в его использовании: интуитивно понятным, вызывающим и трудным или нет.

Marvin L. Wolverton, PhD, MAI (Ret.)

Leander, Texas

Ответ автора

Я рад, что доктор Вулвертон прокомментировал мою статью, поскольку он имел большое отношение к современной передовой аналитической теории, преподаваемой Appraisal Institute. Хотя я признателен доктору Вулвертону за то, что он доверил мне внедрение новой парадигмы моделирования оценки, моя статья опирается на устоявшуюся теорию оценки, подчеркивая при этом потенциал современных инструментов анализа данных. Однако я согласен с тем, что мой тезис о том, что логические модели, использующие выборочную статистику, не являются необходимыми для оценочной работы, требует тщательного обсуждения и изучения.

Доктор Вулвертон утверждает, что позиции мистера Тримбла обоснованны и теоретически обоснованны. Их общее фундаментальное убеждение, по-видимому, заключается в том, что статистический вывод является правильным инструментом анализа данных, необходимым для оценочной работы. Моя позиция заключается в том, что принудительное внедрение этого решения в оценочную работу и образование в области оценки проблематично. Это пренебрегает многочисленными другими доступными в настоящее время инструментами анализа данных. Основой их веры в логическое предположение, по-видимому, является то, что когда у вас есть набор данных (сопоставимых):

  • Это должна быть выборка.
  • Выборка может обеспечить математически обоснованный вывод.
  • Это могут быть некоторые или все фактические продажи на конкурентном рынке.
  • Выборка взята из какой-либо суперпопуляции.
  • Вы можете применить тесты, основанные на вероятности, такие как Хи-квадрат, доверительные интервалы и проверка гипотез.

Однако для применения логической статистики к оценке также требуются следующие убеждения:

  1. Вам не нужна случайность выборки. Выборка суждений — это то же самое.
  2. Совокупность — это своего рода воображаемый или гипотетический более крупный набор рыночных данных.
  3. Предполагаемый научный механизм отбора проб таинственным образом уже сработал.

Семантические проблемы присутствуют в обсуждениях в обоих письмах, с невниманием и двусмысленностью критического термина для вывода и его различных коннотаций.

Логический вывод в логическом или научном контексте — это заключение, основанное на доказательствах и аргументации.

Логический вывод в статистическом контексте — это особый способ характеристики совокупности на основе случайной выборки (случайный отбор или случайное присвоение).

В обсуждении нет четкого представления о том, какая совокупность анализируется. Доктор Вулвертон, похоже, согласен с тем, что конкурентный сегмент рынка может быть релевантным, но также признает обоснованность альтернативных характеристик совокупности г-на Тримбла, в которых говорится, что

… статистическая совокупность никогда не может быть получена, когда оцениваемым параметром является рыночная стоимость …

…. предполагается, что набор сопоставимых продаж уже является объективным показателем, выборкой, репрезентативной для моделируемой совокупности.

Эти позиции несовместимы и создают запутанную основу для понимания лежащих в их основе убеждений.

Я согласен с тем, что в этой теме часто используется неправильная терминология. В моей статье предпринята попытка устранить такое недопонимание, используя простой язык. Доктор Вулвертон утверждает, что автор должен знать значение термина «надежный» в контексте дисциплины, о которой он пишет. Я согласен. Дисциплина здесь — это оценка в The Appraisal Journal, а не в Inferential Statistics Journal. Я использую слово «надежность» в его общепринятом словарном определении, как оно используется в Единых стандартах профессиональной оценочной практики и в оценке недвижимости, где надежность означает способность полагаться на кого-либо или зависеть от кого-либо; точность или предоставление правильного результата.

Во введении к статистике для оценщиков доктор Вулвертон утверждает, что

… надежная модель будет давать результаты, которые можно считать последовательными, надежными и предсказуемыми, [44]

но при этом точность и прецизионность не имеют ничего общего с надежностью.

Это создает семантическую проблему.

Клиенты и рецензенты зависят от точности (true-правдивость) и безошибочности (sureness — достоверность).

(Обратите внимание, что Рисунок 1 в моей статье озаглавлен «Обоснованность оценки стоимости».)

Путаница заключается в том, что существует различие (в науке о данных) между надежностью данных/измерений и надежностью анализа/заключения.

Доктор Вулвертон прав в том, что (например) усохшая рулетка (или поврежденный прицел винтовки) может быть постоянно завышена, но при этом оставаться надежной. Напротив, оценщик, который постоянно завышает оценку, не считается надежным в своей профессии.

Интересная аналогия с мишенью. Да, винтовка надежна, даже если она постоянно стреляет слишком высоко вправо. Проблема в том, что мы не заботимся о надежности этой винтовки. Нам важно, куда попадет пуля. Именно такое переосмысление понятия «надежный» вызывает проблемы с доверием к оценщикам и профессии в целом.

Это создает проблемы в зале суда, когда, например, статистик/оценщик объясняет присяжным, что его статистические выводы «в высшей степени надежны», но полностью не соответствуют поставленной цели.

Вулвертон утверждает, что простых описательных показателей недавних сопоставимых сделок обычно недостаточно для обоснованности оценки. Я согласен. Но они являются основным инструментом для характеристики, классификации и анализа рынка.

Вопреки комментарию доктора Вулвертона, в статье дается четкое представление о совокупности, выборках и выводах.

Совокупность и выборку определить несложно. Совокупность — это набор данных, предоставляющий информацию. Для оценщиков это данные о продажах в конкурентном сегменте рынка.

Выборка — это любое подмножество генеральной совокупности.

Однако доктор Вулвертон использует логический вывод поочередно в двух вариантах:

  • как логический/аналитический вывод и
  • как статистический вывод.

Это различие важно. Например, он утверждает, что листинг (продаваемых объектов недвижимости в районе рынка) может рассматриваться как совокупность. Но если вы хотите применить логическую статистику, то вы должны рассматривать эту совокупность как выборку.

(Предположительно, выборку из некоторой воображаемой сверхсовокупности).

Я согласен с тем, что одних только описательных параметров сегмента рынка недостаточно для определения стоимости (в логическом/аналитическом смысле этого слова). Я также согласен с тем, что при статистическом анализе необходимо и уместно математически рассматривать совокупность проданных объектов недвижимости как выборку. [45]

Выборка становится генеральной совокупностью тогда, когда мы располагаем полным набором данных. Таким образом, отсутствует неопределенность, связанная с выборкой. Остается только неопределенность в отношении самого измерения исходных данных (см. Рис. 5, Источники ошибок).

Как предполагает доктор Вулвертон, допустимо рассматривать совокупность как выборку. Просто помните, что ошибки в выборке не остается. Все это исчезло. Пуф! Он также утверждает, что это миф о том, что логическая статистика требует вероятностной выборки. Если это так, то этот «миф», по-видимому, широко распространен. Ниже приведены характерные отрывки из многочисленных текстов по статистике и эконометрике, посвященных этому вопросу.

Выборка данных, полученная из совокупности, должна быть составлена случайным образом … Только путем изучения выборок, составленных случайным образом, можно ожидать, что на основе анализа данных можно будет сделать обоснованные выводы обо всей совокупности. [46]

Логические выводы основаны на случайной выборке из более широкой совокупности. [47]

По сути, логическая статистика предполагает оценку параметра совокупности с использованием выборочных данных или заключение относительно одной или нескольких групп совокупности на основе выборочных данных. … Мера точности определяет степень неопределенности, связанную с выводом. … Однако неопределенность не может быть определена количественно, если выборка является невероятностной. [48]

Выборки можно условно разделить на две категории — вероятностные выборки и невероятностные выборки.

Статистические выводы, полученные в результате анализа вероятностных выборок, являются предпочтительными, поскольку выводы, сделанные на основе невероятностных выборок, могут быть ненадежными и неточными. [49]

Невероятностные выборки: Информация, полученная из выборочных данных, может быть неприменима к большей совокупности, поскольку нет гарантии, что выборочные данные являются репрезентативными для всей совокупности. [50]

Государственное бухгалтерское управление США также комментирует этот вопрос:

Логическая статистика: Статистический показатель, используемый для описания совокупности с использованием информации, полученной в результате наблюдений только за вероятностной выборкой случаев из совокупности. [51]

Группа случаев также может рассматриваться как пакет, группа, созданная в результате процесса, в отношении которого мы не делаем вероятностных предположений. Например, эксперты по оценке могут использовать свое суждение, а не вероятность, для отбора … случаев для изучения. …

Таким образом, могут применяться методы описательной статистики, но не логической статистики. Таким образом, выводы о совокупности, частью которой является партия, не могут основываться на статистических правилах вывода. [52]

Результаты статистических выборок объективны и их можно обосновать. …

Однако математическая теория не может защитить выборки суждений не потому, что сделанные выводы неверны, а потому, что нет способа объективно определить, верны они или нет. [53]

Наконец, судебная система явно отходит от подхода «доверься мне» к научно обоснованным доказательствам:

Именно случайность в техническом смысле обеспечивает гарантию непредвзятых оценок на основе рандомизированного контролируемого эксперимента или вероятностной выборки.

Случайность в техническом смысле также оправдывает расчеты стандартных ошибок, доверительных интервалов и p-значений. [54]

Если данные собираются на основе вероятностной выборки или рандомизированного эксперимента, то будут созданы соответствующие статистические модели, и выводы, основанные на этих моделях, будут надежными. В противном случае расчеты, как правило, основаны на аналогии. [55]

Представляется, что традиционный отбор сопоставимых объектов, вероятно, будет рассматриваться как основанный на аналогии — целенаправленная выборка, основанная на опыте и образовании оценщика. Целенаправленная выборка имеет место, но не в рамках логической статистической теории. Сегодня нам не нужно полагаться на аналогичный анализ. Мы можем сосредоточиться на отборе полных данных. С этой целью мы должны отказаться от логического вывода и сосредоточиться на разработке более строгого научного определения того, что такое конкурентный рынок, т.е. что такое прямо или косвенно сопоставимые продажи. Когда оценщики смогут это делать — строго определять рынки, — профессия сможет воспользоваться огромными возможностями и еще раз лучше послужить общественному благу.

Я не могу согласиться с доктором Вулвертоном в том, что статистические выводы — это личный выбор. Это профессиональный вопрос, связанный с масштабом/проблемой, которую необходимо решить, профессиональной компетентностью и лучшими практиками. Задача оценки проста, но состоит из двух частей:

  • определить рынок и
  • позиционировать объект на этом рынке.

Просто нет смысла применять статистическое логическое допущение к задаче, для решения которой оно плохо подходит.

George Dell, MAI, SRA

San Diego, California


[1] Dell G. (2013), Common statistical errors and mistakes: valuation and reliability, Appraisal Journal, Sep 22, https://www.thefreelibrary.com/Common+statistical+errors+and+mistakes%3a+valuation+and+reliability.-a0354182486. Джордж Делл (George Dell), MAI, SRA, в настоящее время работает консультантом/ разработчиком методов прогнозирования и обработки данных в компаниях AVM, а также экспертом-консультантом, специализирующимся на непараметрических методах оценки компонентов и частичных долей участия и аналитике портфеля. Более пятнадцати лет он пишет о современных технологически оснащенных методах оценки и обучает их. Он работал в Appraisal Institute на региональном и национальном уровнях, в том числе в национальном совете директоров, в комитетах по учебной программе, технологиям, конференциям и проектам, а также в редакционном совете The Appraisal Journal. В 2011 году он стал лауреатом премии The Appraisal Journal за выдающиеся заслуги, а в 2010 году получил Президентскую премию за свою рукопись «Проверяемость оценки: профессиональное решение мировых проблем» («Auditability of Valuation: A Professional Solution to World Needs»). Контакт: dell@aznet.net

[2] Appraisal Institute, The Appraisal of Real Estate, 14th ed. (Chicago: Appraisal Institute, 2013), 401.

[3] Ibid., 736-737.

[4] Ibid., 98.

[5] Donald R. Epley, «Areas in the Current Appraisal Body of Knowledge That Need Revision» (The Appraisers Research Foundation, 2011), available at http://www.appraiserresearch.org/research-results/appraisal-practice/body-of-knowledge-issues.html .

[6] George Dell, «Data Analysis Technology and Appraisal Fraud,» The Appraisal Journal (Summer 2002): 326.

[7] The Appraisal of Real Estate, 14th ed., 98-99.

[8] David A. Braun, «Market Delineation,» The Appraisal Journal (Spring 2012): 326. Braun заслуживает похвалы за решение этого сложного вопроса. В статье разъясняется разница между кварталом, районом, субрынком и сегментом, а также демонстрируется эффект каскадирования субрынков.

[9] Joseph S. Rabianski, «Apartment Market Area Delineation,» The Appraisal Journal (Winter 2006): 33-42.

[10] Max Kummerow, «Error Trade-Offs in Selection of Comparable Sales for Residential Valuations» (working paper, Curtin University, Perth Australia), available at http://www.prres.net/papers/Kummerow_Error_Trade offs in Selection_of_Comparable_Sales_for_Residential_Valuations.pdf.

[11] Max Kummerow, «Protocols for Valuations, The Appraisal Journal (Fall 2006): 358-366.

[12] Richard U. Ratcliff, Valuation for Real Estate Decisions (Santa Cruz, California: Democrat Press, 1972).

[13] Appraisal Standards Board, Uniform Standards of Professional Appraisal Practice, 2014-2015 ed. (Washington, DC: The Appraisal Foundation), SR 1-4(a).

[14] В речи президента Appraisal Institute Вуди Хэнсона, произнесенной на встрече Института оценки в Лас-Вегасе в июле 2000 года, говорилось о необходимости реинжиниринга процесса оценки с учетом изменений в технологии обработки данных.

[15] The Appraisal of Real Estate, 14th ed., 390.

[16] Ex-ante прогнозирование означает изменение тенденций от прошлого к сегодняшнему дню, например, использование сопоставимой сделки купли-продажи, скорректированной по времени на текущую дату оценки. Ex-post  прогнозирование означает изменение тенденций в будущем, как при задании на перспективную оценку.

[17] Кратким определением информатики было бы «прикладная информатика». Она включает в себя, по крайней мере, три дисциплины: (1) технологии и их применение; (2) организация и структура информации; и (3) поведение человека и связанные с ним коммуникации.

[18] Richard Berk, Regression Analysis, A Constructive Critique (Thousand Oaks, CA: Sage Publications, Inc., 2004). Berk предлагает доступное и критическое изложение «логической ошибки», особенно в том, что касается многомерной регрессии.

[19] Megan R. Hall and Ginger Holmes Rowell, «Introductory Statistics Education and the National Science Foundation,» Journal of Statistics Education 16, no. 2 (2008), available at http://www.amstat.org/publications/jse/v16n2/rowell1.html

[20] Эконометрика представляет собой смесь математики, статистики и экономики. Сегодня мир экономистов в подавляющем большинстве случаев является эконометрическим по своей природе.

[21] Berk, Regression Analysis. Вся эта книга, хотя и посвящена регрессионному анализу, представляет собой превосходное изложение причин и неблагоприятных результатов традиционного преподавания статистики, поскольку она имеет отношение ко многим практическим приложениям. Эта книга однозначно рекомендуется всем, кто серьезно относится к решениям в области эконометрии активов, и особенно тем, кто занимается преподаванием оценочной статистики.

[22] Потеря информации может быть определена как снижение уровня детализации или сокрытие полезных данных, либо по неосторожности, либо с определенной целью, например, для повышения понятности отчета.

[23] В большинстве публикаций по оценке этот инструмент называется сравнением групп пар.

[24] Форма доступна на https://www.fanniemae.com/content/guide_form/1004mc.pdf.

[25] The Appraisal of Real Estate, 14th ed., 163-165. В этом обсуждении четко разграничиваются рыночная зона, микрорайон и район. Микрорайон определяется как группа взаимодополняющих видов землепользования. Таким образом, остается неясным, следует ли включать в анализ даже автозаправочные станции или отдельные дома. В профессиональном понимании было бы бессмысленно анализировать стоимость района, не ограничившись сначала конкретным (конкурентным) видом землепользования. Но тогда это не район, а тип недвижимости в данном районе.

[26] Fannie Mae Form 1004MC, «Market Conditions Addendum.»

[27] Однако это будет правильным только по совпадению для любого рынка, который не меняет своего тренда в течение по крайней мере шестимесячного периода (например, если рынок остается на прежнем уровне в течение шести месяцев, предшествующих дате определения стоимости, медиана между двумя показателями останется неизменной периоды). Уровень рынка будет подтвержден примерно через шесть месяцев после его начала.

[28] George Dell, Introduction to Real Estate Econometrics (San Diego: Real Estate Econometrics, 2002), 40-42.

[29] Выбор формы кривой — будь то полиномиальная кривая, линейный сплайн или другая функциональная форма — зависит от моделирования. Для этого есть рекомендации по моделированию, приведенные в разделе Valuemetrics.info семинары; но они выходят за рамки данной статьи. Линейная зависимость — это прямая линия. Линейная сплайновая модель объединяет две прямые линии с соединением или узлом. Полиномиальная кривая допускает один, два или более изгибов, в зависимости от уровня наибольшей мощности базовой формулы, которая создает кривую. Например, ([x3] + [4x2] — 7x + 8) будет многочленом третьего порядка.

[30] George Dell, Stats and Graphs 1 (San Diego: Valuemetrics, Inc., 2006), 32.

[31] Chris Chatfield, Problem Solving, A Statistician’s Guide, 2nd ed. (Boca Raton, FL: Chapman & Hall/CRC, 1995), 39.

[32] Объяснение этих трех методов выходит за рамки данной статьи, но его можно найти на вводных и промежуточных (прикладных) курсах эконометрики

[33] Термин «поле», как правило, относится к компьютерной терминологии/ электронным таблицам/базам данных, в то время как термин «характеристика» больше относится к недвижимости или эконометрике. Характеристика — это полезная составляющая стоимости.

[34] Прокси- или суррогатная переменная будет иметь высокую корреляцию с необходимой (но недоступной) переменной и низкую корреляцию со всем остальным.

[35] George Dell, «Auditable Appraisal Best Practices» (seminar presented at ASA International Conference, Las Vegas, July 27, 2010).

[36] Вариабельность варьируется в широких пределах. Асимметрия проявляется в уменьшении или увеличении высоты. Нормальность имеет форму колокола. Мультимодальность означает наличие нескольких режимов или группировок. Эксцесс — это плоская / заостренная вершина или утолщение хвостов.

[37] В The Appraisal of Real Estate, 14th ed., 737, говорится: «Обычно используются две формы прогностических моделей. … Основное различие заключается в том, что доверительный интервал для оценки среднего результата уже, чем доверительный интервал для оценки одного конкретного результата».

[38] В USPAP, Standards Rule 1-1(b) в нем говорится: «оценщик должен… не допускать существенных ошибок, упущений или комиссионных, которые существенно влияют на оценку», а в Standards Rule 1-4 говорится: «Оценщик должен собирать, проверять и анализировать всю информацию, необходимую для получения достоверных результатов оценки». Appraisal Standards Board, [Ital]Uniform Standards of Professional Appraisal Practice[end Ital], 201411/n]-2015 ed. (Washington, DC: The Appraisal Foundation), Lines 501-502 and Lines 582-583.

[39] Max Kummerow, «A Statistical Definition of Value,» The Appraisal Journal (October 2002): 318.

[40] The Appraisal of Real Estate, 14th ed., 751.

[41] Trimble M.C. (2014), Comments on «common statistical errors and mistakes: valuation and reliability». Letter to the editor, Appraisal Journal, Mar 22, https://www.thefreelibrary.com/Comments+on+%22common+statistical+errors+and+mistakes%3a+valuation+and…-a0372956676

[42] Richard U. Ratcliff, Valuation for Real Estate Decisions (Santa Cruz, California: Democrat Press, 1972).

[43] Wolverton M.L. (2014), Comments on «common statistical errors and mistakes: valuation and reliability». Letter to the editor, Appraisal Journal, Mar 22, https://www.thefreelibrary.com/Comments+on+%22common+statistical+errors+and+mistakes%3a+valuation+and…-a0372956677

[44] Marvin L. Wolverton, An Introduction to Statistics for Appraisers (Chicago: Appraisal Institute, 2009), 145.

[45] Выборка может быть настолько большой, насколько того хочет оценщик, и может/должна включать всю совокупность, но не должна быть больше. Это устраняет вариативность статистической выборки и необходимость в статистических выводах. Это самый сильный (но не единственный) аргумент в пользу использования всех имеющихся на рынке конкурентоспособных объектов недвижимости.

[46] Joaquim P Marques de S3, Applied Statistics Using SPSS, STATiSTICA, MATLAB and R, 2nd ed. (Berlin: Springer, 2007), 5-6.

[47] Clint Ballinger, «Why Inferential Statistics Are Inappropriate for Development Studies and How the Same Data Can Be Better Used» (February 2011), 2; http://papers.ssrn.com/sol3/pa pers.cfm?abstract_id=1775002

[48] Appraisal Institute, The Appraisal of Real Estate, 14th ed. (Chicago: Appraisal Institute, 2013), 279.

[49] Wolverton, An Introduction to Statistics, 147.

[50] Ibid., 152.

[51] Eleanor Chelimsky, ed., «Glossary» in Quantitative Data Analysis: An Introduction (Washington, DC: US General Accounting Office, May 1992), 123; http://www.gao.gov/special.pubs/pe10111.pdf. Я рекомендую это бесплатное государственное онлайн-руководство, поскольку оно содержит одни из самых понятных объяснений, доступных непрофессионалу с минимальным опытом работы с данными.

[52] Ibid., 27.

[53] Eleanor Chelimsky, ed., Using Statistical Sampling (Gaithersburg, MD: US General Accounting Office, May 1992), 118; http://www.gao.gov /assets/80/76112.pdf.

[54] Federal Judicial Center and National Research Council, «Reference Guide on Statistics» in Reference Manual on Scientific Evidence 3rd ed. (Washington, DC: National Academies of Sciences, 2011), 230; http://www.fjc.gov/public/pdf.nsf/lookup/SciMan3D07.pdf/$file/SciMan3D07.pdf .

[55] Ibid., 241.