Определить однородна ли совокупность. Случайная величина ε, или возмущение, включает влияние не учтенных в модели факторов, случайных ошибок и особенностей измерения

Одной из отличительных черт бурного развития науки является широкое применение статистических методов и вычислительной техники в освоении информации. В настоящее время невозможно представить себе дисциплину, которая не пользовалась бы в процессе познания методами численного выражения закономерностей, связей, зависимости, измерения тенденции и т. д. Это, в частности, относится и к экономическим наукам.

В статистической литературе большое внимание уделяется изучению и применению отдельных статистических методов и приемов, но совсем недостаточно освещены вопросы целесообразности и последовательности использования того или иного статистического метода, их комплексного применения, сочетания различных методов. Абсолютизация того или иного метода исследования ничего, кроме вреда, не приносит. Только сочетание различных методов может дать заметный эффект. Именно с этих позиций и нужно оценивать роль и место статистического моделирования в системе познания различных процессов и явлений. В данной работе предпринята попытка систематизировать методику комплексного применения статистических методов в экономических исследованиях, рассмотрена целесообразность и последовательность использования статических методов и приемов при анализе статических и динамических процессов.

Первым этапом исследования является накопление (сбор) необходимых сведений об изучаемом объекте. Если наблюдений не очень много, то можно провести упорядочение, расположив их в порядке возрастания или убывания, т. е. построить ранжированные ряды. Если же наблюдений много, то приходится прибегать к их группировке. Статистические ряды носят самый разнообразный характер, имеют различное назначение и в разных целях могут использоваться в экономическом анализе. Одни статистические ряды являются вариационными рядами распределения. Эти ряды показывают распределение единиц изучаемой совокупности по отдельным группам, выделенным по какому-либо признаку. Другой разновидностью статистических рядов является последовательность чисел, отражающих величину того или иного показателя во времени. Это так называемые ряды динамики. Они позволяют анализировать изменение любых явлений во времени, об этом речь пойдет позже. Не умаляя значения временных рядов, следует отметить, что вариационным рядам распределения в статистическом анализе принадлежит особое место, ибо только при помощи распределения сложных совокупностей на качественно однородные группы можно изучать их структуру, соотношение между частями целого и т. п., без чего немыслим никакой экономический анализ. Ряды распределения могут строиться по качественным (атрибутивным) и по количественным признакам, по одному признаку и по нескольким, предоставляя тем самым широкие возможности исследователям при изучении сложных экономических явлений. Ряды распределения могут быть представлены либо в табличной форме, либо в геометрической, т. е. графической. Статистическая совокупность, представленная в виде ранжированного ряда распределения, графически изображается в виде огивы. Она строится так: на оси абсцисс наносятся номера элементов совокупности по ранжиру, а на оси ординат откладываются значения признака. Огива наглядно показывает интенсивность изменения изучаемого признака. Вариационные ряды распределения изображаются графически в виде полигонов и гистограмм. В виде полигонов обычно изображаются дискретные вариационные ряды распределения. При этом значения признака откладывают на оси абсцисс, а частоты (или частости) – на оси ординат. Вершины ординат соединяют прямыми линиями, в результате чего получают полигон (многоугольник). В виде полигона можно представить и интервальные вариационные ряды. Для этого за отдельные значения признака принимаются средние значения интервалов. Интервальные же вариационные ряды чаще всего изображают в виде гистограммы, в которой частоты выражают в виде прямоугольников соответствующей длины, а основания прямоугольников, опирающиеся на ось абсцисс, соответствуют интервалу значения признака (рис. 1).

Рис. 1. Гистограмма и полигон распределения

Различают одновершинные и многовершинные распределения. Многовершинность распределения, как правило, является признаком неоднородности изучаемой совокупности. Из разнообразия форм одновершинных кривых распределений можно выделить следующие наиболее характерные типы: симметричные, умеренно асимметричные, крайне асимметричные.

В практике обычно редко встречаются идеально симметричные распределения, чаще умеренно асимметричные, в которых частоты с одной стороны от центра рассеивания уменьшаются заметно быстрее, чем с другой. Асимметричное распределение в пределе становится крайне асимметричным – в этом случае наибольшая частота расположена на одном из концов распределения.

При решении некоторых вопросов удобнее пользоваться накопленными частотами распределения. Кривая накопленных частот распределения носит название «кумулята распределения». При построении кумуляты на оси абсцисс откладываются значения признака, на оси ординат – накопленные частоты. Построение вариационного ряда распределения и его графическое изображение позволяют получить первое представление о его наиболее характерных общих чертах. В то же время статистическое изучение совокупности не может ограничиться лишь простым упорядочением наблюдаемых величин. К тому же ряды распределения и их графики бывают довольно громоздкими, так как включают в себя всю исходную информацию. Поэтому наиболее рациональным путем статистического описания распределения будет вычисление определенных числовых характеристик, отражающих реальные свойства совокупности. К таким характеристикам прежде всего относятся характеристики центральной тенденции ряда распределения, т. е. нахождение его центрального значения; рассеивания значений признака относительно центра распределения; асимметрии и островершинности распределения. Изучение статистических характеристик распределений целесообразно начать с рассмотрения наиболее простых и в то же время чаще всего используемых в статистическом анализе, т. е. с изучения средних величин; затем научиться измерять вариацию, изучить меры скошенности и островершинности. Все эти показатели тех или иных особенностей распределения составляют единую систему статистических характеристик.

Однако применение тех или иных статистических методов предполагает прежде всего однородность изучаемой совокупности: нельзя, например, анализировать совокупность, состоящую из разных категорий хозяйств, включающую предприятия разной специализации и т. д. Для успешного решения задач необходимо глубокое понимание сущности изучаемого процесса или явления. Учитывая сложность, неоднородность экономических явлений и процессов, необходимо производить анализ таким образом, чтобы наиболее существенные различия между отдельными группами явлений не затушевывались, а выделялись для более успешного их изучения. В то же время объединение в группы сходных однотипных явлений помогает выявить их черты и особенности, которые при изучении каждого явления отдельно могут оставаться незамеченными. Выделение в каждой совокупности общественно/экономических типов явлений – главное условие ее научного анализа. А это можно осуществить, только применяя метод типологических группировок.

Массовые явления хозяйственной деятельности предприятий, являющиеся объектом статистического изучения, имеют сложный характер, обладают качественной общностью, свойственной данному явлению, но в то же время имеют и различия. Так, производством какой-либо продукции занимаются сельскохозяйственные предприятия и фермерские хозяйства и т. д. Стало быть, при характеристике производства данного вида продукции в регионе следует исходить из учета качественных особенностей предприятий, производящих эту продукцию, – в противном случае выводы будут неточными, а принимаемые на основании таких выводов решения – неэффективными.

Типологическая группировка данных – основной прием изучения экономических явлений, обеспечивающий качественную сопоставимость единиц совокупности и дающий возможность получения обобщенного количественного значения признака.

1.2. Методы измерения обобщающих характеристик совокупности

Метод группировок позволяет изучить состояние и взаимосвязи экономических явлений, если группы будут охарактеризованы показателями, раскрывающими наиболее существенные стороны изучаемого явления.

При анализе и планировании необходимо опираться не на случайные факты, а на показатели, выражающие основное, типичное, коренное. Такую характеристику дают различные виды средних величин, а также мода и медиана.

Вопрос об однородности совокупности не должен решаться формально по форме ее распределения. Его, как и вопрос о типичной средней, нужно решать, исходя из причин и условий, формирующих совокупность. Однородной является такая совокупность, единицы которой формируются под воздействием общих главных причин и условий, определяющих общий уровень данного признака, характерный для всей совокупности.

Согласно теории типологических группировок, решающее значение в оценке однородности совокупности принадлежит не форме распределения, а размеру вариации и условиям ее формирования. Для качественно однородной совокупности характерна вариация в определенных пределах, после чего начинается новое качество. Вместе с тем к этим границам для оценки качественной однородности совокупности надо подходить с точки зрения существа дела, а не формально, так как одно и то же количество в разных условиях выражает новое качество. Например, при одной и той же численности рабочих предприятия одних отраслей промышленности являются крупными, а других – мелкими.

Для всестороннего и углубленного изучения явлений, для объективной характеристики типов явлений, их взаимоотношений и процессов, обусловленных развитием системы как целого, необходимо сочетать групповые средние с общими средними. Сочетание таких средних и является одним из основных элементов анализа сложных систем. Это сочетание связывает в одно целое два органически дополняющих друг друга статистических метода: метод средних величин и метод группировки. При расчете средней индивидуальные варьирующие по группе значения заменяются одним средним значением. При этом случайные отклонения значения признака по отдельным единицам в сторону увеличения или уменьшения взаимно уравновешиваются и погашают друг друга, а в величине средней проявляется типичный размер признака, свойственный данной группе. Средняя величина служит характеристикой совокупности и в то же время относится к отдельному ее элементу – носителю качественных особенностей явления. Значение средней вполне конкретно, но одновременно и абстрактно; оно получено путем абстрагирования от случайного индивидуального по каждой единице с целью выявления того общего, типичного, что свойственно всем единицам и что формирует данную совокупность. При расчете средней величины численность единиц совокупности должна быть достаточно большой. Величина средней определяется как отношение общего объема явлений к числу единиц совокупности в группе. Для несгруппированных данных это будет средняя арифметическая простая:

а для сгруппированных данных, где каждое значение признака имеет свою частоту, – средняя арифметическая взвешенная:

где X i – значение признака; f i – частота этих значений признака.

Поскольку средняя арифметическая рассчитывается как отношение суммы значений признака к общей численности, она никогда не выходит за пределы этих значений. Средняя арифметическая обладает рядом свойств, которые широко используются в целях упорядочения расчетов.

1. Сумма отклонений индивидуальных значений признака от средней величины всегда равна нулю:

Доказательство. n

Разделив левую и правую часть на

2. Если значения признака (X i) изменить в k раз, то средняя арифметическая также изменится в x раз.

Доказательство.

Среднюю арифметическую из новых значений признака обозначим X, тогда:

Постоянную величину 1/k можно вынести за знак суммы, и тогда получим:

3. Если из всех значений признака X i вычесть или прибавить одно и то же постоянное число, то средняя арифметическая уменьшится или увеличится на эту величину.

Доказательство.

Средняя из отклонений значений признака от постоянного числа будет равна:

Точно так же доказывается это и в случае прибавления постоянного числа.

4. Если частоты всех значений признака уменьшить или увеличить в n раз, то средняя не изменится:

При наличии данных об общем объеме и известных значениях признака, но неизвестных частотах для определения среднего показателя используют формулу среднеарифметической взвешенной.

Например, имеются данные о ценах реализации капусты и общей выручке за различные сроки реализации (табл. 1).

Таблица 1.

Цена реализации капусты и общая выручка за различные сроки реализации


Так как средняя цена представляет отношение общей выручки к общему объему реализованной капусты, то вначале следует определить количество реализованной капусты по разным срокам реализации как отношение выручки к цене, а затем уже определить среднюю цену реализованной капусты.

В нашем примере средняя цена будет:

Если рассчитать в данном случае среднюю цену реализации по средней арифметической простой, то получим иной результат, который исказит истинное положение и завысит среднюю цену реализации, так как не будет учтен тот факт, что большая доля в реализации приходится на позднюю капусту с более низкой ценой.

Иногда требуется определить среднюю величину, когда значения признака даются в виде дробных чисел, т. е. обратных целым числам (например, при изучении производительности труда через обратный его показатель, трудоемкость). В таких случаях целесообразно использовать формулу средней гармонической:

Так, среднее время, необходимое для изготовления единицы продукции, есть средняя гармоническая. Если Х 1 = 1/4 часа, Х 2 = 1/2 часа, Х 3 = 1/3 часа, то средняя гармоническая этих чисел есть:

Для расчета средней величины из отношений двух одноименных показателей, например темпов роста, применяется средняя геометрическая, рассчитанная по формуле:

где Х 1 ? Х 2 … ? … Х 4 – отношение двух одноименных величин, например цепных темпов роста; n – численность совокупности отношений темпов роста.

Рассмотренные средние величины обладают свойством маорантности:

Пусть, например, имеем следующие значения Х (20; 40), тогда рассмотренные ранее виды средних величин будут равны:

При изучении состава совокупности о типичном размере признака можно судить по так называемым структурным средним – моде и медиане.

Модой называется наиболее часто встречающееся значение признака в совокупности. В интервальных вариационных рядах сначала находят модальный интервал. В найденном модальном интервале мода рассчитывается по формуле:

где Х 0 – нижняя граница модального интервала; d – величина интервала; f 1 , f 2 , f 3 – частоты предмодального, модального и послемодаль-ного интервалов.

Значение моды в интервальном ряду довольно просто можно отыскать на основе графика. Для этого в самом высоком столбце гистограммы от границ двух смежных столбцов проводят две линии. Из точки пересечения этих линий опускают перпендикуляр на ось абсцисс. Значение признака на оси абсцисс и будет модой (рис. 2).


Рис. 2

Для решения практических задач наибольший интерес представляет обычно мода, выраженная в виде интервала, а не дискретным числом. Объясняется это назначением моды, которая должна выявить наиболее распространенные размеры явления.

Средняя – величина, типичная для всех единиц однородной совокупности. Мода – тоже типичная величина, но она определяет непосредственно размер признака, свойственный хотя и значительной части, но все же не всей совокупности. Она имеет большое значение для решения некоторых задач, например для прогнозирования того, какие размеры обуви, одежды должны быть предназначены для массового производства, и т. д.

Медиана – значение признака, находящееся посредине ранжированного ряда. Она указывает на центр распределения единиц совокупности и делит ее на две равные части.

Медиана является лучшей характеристикой центральной тенденции, когда границы крайних интервалов открыты. Медиана является более приемлемой характеристикой уровня распределения и в том случае, если в ряду распределения имеются чрезмерно большие или чрезмерно малые значения, которые оказывают сильное влияние на среднюю величину, а на медиану – нет. Медиана, кроме того, обладает свойством линейного минимума: сумма абсолютных значений отклонений величины признака у всех единиц совокупности от медианы минимальная, т. е.

Это свойство имеет большое значение для решения некоторых практических задач – например, для расчета самого короткого из всех возможных расстояний для разных видов транспорта, для размещения станций техобслуживания таким образом, чтобы расстояние до всех обслуживаемых данной станцией машин было минимальным, и т. п.

При отыскании медианы сначала определяется ее порядковый номер в ряду распределения:

Далее, соответственно порядковому номеру, по накопленным частотам ряда находят саму медиану. В дискретном ряду – без всякого расчета, а в интервальном ряду, зная порядковый номер медианы, по накопленным частотам отыскивается медианный интервал, в котором путем простейшего приема интерполяции определяется уже значение медианы. Расчет медианы осуществляется по формуле:

где Х 0 – нижняя граница медианного интервала; d – величина интервала; f _ 1 – частота, накопленная до медианного интервала; f – частота медианного интервала.

Рассчитаем среднюю величину, моду и медиану на примере интервального распределения. Данные приведены в табл. 2.


Таким образом, в качестве центра распределения могут быть использованы различные показатели: средняя величина, мода и медиана,


и каждая из этих характеристик имеет свои особенности. Так, для средней величины характерно то, что все отклонения от нее отдельных значений признака взаимно погашаются, т. е.

Для медианы характерно то, что сумма отклонений индивидуальных значений признака от нее (без учета знаков) является минимальной. Мода же характеризует наиболее часто встречающееся значение признака. Поэтому в зависимости от того, какая из особенностей интересует исследователя, и должна выбираться одна из рассмотренных характеристик. В отдельных случаях рассчитываются все характеристики.

Их сравнение и выявление соотношений между ними помогает выяснить особенности распределения того или иного вариационного ряда. Так, в симметричных рядах, как в нашем случае, все три характеристики (средняя, мода и медиана) примерно совпадают. Чем больше расхождение между модой и средней величиной, тем более асимметричен ряд. Установлено, что для умеренно асимметричных рядов разность между модой и средней арифметической примерно в три раза превышает разность между медианой и средней арифметической:

Это соотношение можно использовать для определения одного показателя по двум известным. Из этого следует, что сочетание моды, медианы и средней важно и для характеристики типа распределения.

1.3. Методы исследования вариации и формы распределения признаков в однородной совокупности

Статистическое описание совокупности было бы неполным, если ограничиться лишь показателями центральной тенденции, т. е. средними величинами, модой и медианой, которые являются равнодействующими ряда изменяющихся значений признака. В одних случаях значение признака концентрируется возле некоторого центра очень тесно, в других случаях наблюдается значительное рассеивание, хотя средняя величина может быть одинаковой. В связи с этим средняя величина как показатель центральной тенденции не дает исчерпывающей характеристики изучаемой совокупности. Возникает необходимость изучения характера рассеивания признака. Хотя отклонения от средней и регулируются общими для всех единиц совокупности причинами, формирующими среднюю, но в то же время они обусловлены и индивидуальными причинами. Например, отклонения производительности труда отдельных рабочих, работающих в одной бригаде, а стало быть, находящихся в одинаковых условиях труда, вызваны не общими условиями и причинами, а индивидуальными обстоятельствами рабочих и их квалификацией, состоянием здоровья, настроением, сообразительностью и т. д. Поэтому изучение отклонений от средней их размеров и закономерности распределения представляет большой интерес для исследователя. Это важно прежде всего для оценки однородности совокупности, которую характеризует данная средняя величина, так как для качественно однородной совокупности характерна вариация в определенных границах. Стало быть, чем меньше вариация, тем качественно однороднее совокупность, тем типичнее и объективнее средняя величина, характеризующая ее.

Измерение вариации имеет большое значение и для изучения устойчивости изучаемых экономических явлений и процессов. Так, для сельского хозяйства очень важно не только получить среднюю урожайность сельскохозяйственных культур, но и обеспечить ее устойчивость во времени и пространстве, а для этого надо научиться рассчитывать показатели устойчивости, научиться измерять вариацию изучаемых явлений? ? 1,25а .

Для оценки вариации признака статистика знает и использует несколько показателей. Простейшим из них является размах вариации, рассчитываемый по формуле: X max – X min , т. е. как разность между максимальным и минимальным значением признака. Однако этот показатель далеко не совершенен, так как при его построении участвуют лишь крайние значения признака, которые могут быть случайными.

Более точно можно определить вариацию признака при помощи показателя, учитывающего отклонения всех значений признака от средней. Это так называемые абсолютные показатели: среднее линейное отклонение а и среднее квадратическое отклонение?. Среднее линейное отклонение – это средняя арифметическая из абсолютных значений отклонений отдельных значений признака от средней величины. Но сумма отклонений от средней

всегда равна нулю (одно из свойств средней величины), поэтому для расчета среднего линейного отклонения суммируют абсолютные отклонения без учета его знака:


Среднее квадратическое отклонение также может быть простое и взвешенное:

Среднее квадратическое отклонение является наиболее распространенным показателем вариации, оно несколько больше среднего линейного отклонения. Установлено, что в симметричных или умеренно асимметричных распределениях соотношение между ними можно записать в виде:

1,25а .

Следует иметь также в виду, что среднее линейное отклонение будет минимальным, если оно рассчитано от медианы, т. е.:

Среднее квадратическое отклонение минимально при вычислении его от средней арифметической, это же относится и к дисперсии, которая представляет собой квадрат среднего квадратического отклонения.

Дисперсия

широко применяется в дисперсионном анализе, но не как мера вариации, так как ее размерность не соответствует размерности признака.

Рассмотрим вычисление среднего линейного и среднего квадрати-ческого отклонения на примере данных, приведенных в табл. 3.

Таблица 3.

Анализ времени обработки деталей рабочими двух бригад


Средняя величина времени обработки детали составляет в обеих бригадах 124 мин. Для первой бригады Х 1 =992/8 = 124ми н. и для второй – Х 2 = 1240/10 = 124 мин.

Медианные значения также одинаковы в обеих бригадах. Так, для первой бригады Хме = (116+132)/2 = 124 мин. Для второй бригады – Хме = (122+126)/2 + 124 мин

Модальные значения в данном случае не могут быть определены, так как каждое из значений признаков не повторяется.

Исходя из полученных результатов, можно сделать вывод, что обе совокупности характеризуются одинаковыми показателями центра распределения, но они могут отличаться по характеру рассеяния отдельных значений признака вокруг этих центров.

Для характеристики рассеяния рассчитаем среднее линейное отклонение. Для первой бригады:


Сопоставление среднего линейного и среднего квадратического отклонений говорит о том, что вариации времени обработки деталей в первой бригаде значительно выше, чем во второй бригаде.

Следует также отметить, что среднее квадратическое отклонение в обоих случаях несколько больше, чем среднее линейное отклонение:

1 = 1,22а 1 ;

2 = 1,20а 2 .

Это говорит о том, что мы имеем дело с умеренно асимметричным распределением.

Рассмотренные показатели вариации (размах вариации, среднее линейное отклонение, среднее квадратическое отклонение) дают возможность сравнить степень однородности нескольких совокупностей, но в отношении лишь одного признака, поскольку это именованные величины, имеющие единицы измерения те же, что и сам признак.

Однако часто исследователю приходится сравнивать вариации различных признаков, а стало быть, эти показатели вариации не могут быть использованы.

Для характеристики вариации различных признаков рассчитывают относительные показатели вариации, приведенные к одному основанию, т. е. выраженные в процентах (доли размаха вариации, среднего линейного отклонения и среднего квадратического отклонения) от средней величины изучаемого признака.

Это так называемые коэффициент осцилляции, относительное отклонение и коэффициент вариации.

Коэффициент осцилляции рассчитывается по формуле:


В нашем примере эти показатели составляют:


Все рассчитанные относительные показатели вариации свидетельствуют также о более сильной вариации времени обработки деталей рабочими первой бригады по сравнению со второй, где среднее время обработки является более объективной, более типичной характеристикой работы данной бригады в целом, т. е. вторая бригада как совокупность более однородна.

Относительные показатели вариации, как уже было отмечено, позволяют сравнивать степень вариации признаков, имеющих одинаковые единицы измерения, но разные уровни средних. Например, урожайность зерновых культур и картофеля хотя и имеют одинаковые единицы измерения, но по абсолютным показателям вариации этих признаков сравнивать было бы неправильно, так как сами уровни урожайности зерновых и картофеля резко отличаются. Так, например, в регионе среднеквадратическое отклонение составило: по урожайности ржи – 5 центнеров с гектара (ц/га) и по урожайности картофеля – 20 ц/га, а сама урожайность ржи составила 25 ц/га, а картофеля – 200 ц/га. Коэффициент же вариации соответственно равен:

Это означает, что по урожайности картофеля совокупность хозяйств данной области более однородна, чем по урожайности ржи, т. е. урожайность картофеля более устойчива, чем урожайность ржи.

Сравнение абсолютных показателей вариации одного и того же признака разных совокупностей иногда приводит к иному выводу, чем при сопоставлении относительных показателей вариации.

Так, если в одной совокупности абсолютный показатель вариации больше, чем в другой, и средний уровень изучаемого признака в ней также значительно больше, чем в другой, то относительный показатель вариации может быть ниже.

Так, например, если среднее квадратическое отклонение урожайности ржи в одном районе составило 5 ц, в другом – 3 ц, а сама средняя урожайность, соответственно, составила 25 и 10 ц/га, то относительные показатели вариации приводят к иному выводу.

Следовательно, рост урожайности, связанный с некоторым повышением абсолютного показателя вариации, может и не снизить ее устойчивости.

Относительные показатели вариации необходимы также и для сравнения вариации различных признаков, имеющих разные единицы измерения, поскольку абсолютные показатели вариации в этом случае не могут быть использованы как мера вариации.

Например, при сравнении вариации урожайности и себестоимости той или иной культуры нельзя использовать абсолютные показатели вариации, так как они будут иметь разные единицы измерения: ц/га и руб. за 1 т. В этом случае целесообразно среднее квадратическое отклонение использовать для расчета так называемого нормированного отклонения:

характеризующее отклонение индивидуальных значений признака от средней (Xi ?X ) и приходящееся на единицу среднего квадратического отклонения. Нормированное отклонение позволяет сопоставлять между собой отклонения, выраженные в различных единицах измерения. Практически нормированные отклонения изменяются в пределах от 0 до 3.

Однако в совокупности могут встречаться отдельные единицы, у которых t > 3. Это будет свидетельствовать о неоднородности совокупности, и такие единицы совокупности целесообразно исключить как аномальные, нетипичные для данной совокупности.

Если совокупность мала (3 ? n ? 8), то однородность совокупности, т. е. проверку годности первичных данных, можно осуществить следующим образом. Вычисляют показатель, характеризующий отношение разности между сомнительным и соседним значениями ранжированного в порядке возрастания ряда к разности между крайними значениями, т. е.:

если вызывает сомнение первое в ряду значение признака, и:

если вызывает сомнение последнее в ряду значение признака.

Вычисленную величину Q сопоставляют с табличным ее значением для данного числа наблюдений и уровня вероятности. Если Q ф > Q табл, то сомнительное значение следует исключить из обработки. Если же Q ф < Q табл, то сомнительное значение не отбрасывается. Рассмотрим эту методику на примере.

Допустим, получены следующие результаты содержания золы в образцах корма в процентах: 2,25; 2,19; 2,11; 2,38; 2,32 и 3,21.

Располагаем данные анализа в порядке возрастания их значений: 2,11; 2,19; 2,25; 2,32; 2,38; 3,21.

Вычисляем:

Таблица 4. Значения Q в зависимости от степени надежности (p)

и общего числа значений признака (n)

Величина Q табл = 0,70. Следовательно, значение 3,21 должно быть исключено как нетипичное для данной совокупности.

При числе значений признака больше трех (и больше восьми) можно использовать другую методику определения пригодности первичных данных. По всем значениям признака в совокупности сначала рассчитывают среднюю величину (Х) и среднее квадратическое отклонение (?), затем на основании разницы (без учета знака) между максимально отклоняющимся значением (X max) и средней величиной находят величину критерия R max по формуле:

Значение R max сопоставляют с табличным его значением при данном числе значений признака для вероятности p = 0,99 (табл. 5).

Если R max > R табл, то сомнительное значение (X) следует исключить, если же R max < R табл, то значение (X max) следует принимать в расчет.

При n > 20 показатель R max ? 3 и условие пригодности имеет вид:

Таблица 5. Значения R max для степени надежности p = 0,99 в зависимости

от числа единиц совокупности n


Обратимся к предыдущему примеру и вычислим:


При расчете средней величины и среднего квадратического отклонения используют все значения признака. Затем рассчитываем:

Для n = 6, R табл _ 2,13; так как 2,22 > 2,13, то сомнительное значение 3,21 необходимо отбросить из статистической обработки. Если сомнение вызывает не одно, а несколько значений, то сначала производят указанные выше расчеты только для одного из них (наиболее отклоняющегося). После его исключения повторяют расчет для следующего сомнительного значения, вычисляя заново X и?.

При проверке годности данных с использованием любой методики может быть исключено не более одной трети единиц совокупности.

Если исключению подлежит более одной трети всех единиц совокупности, то данная совокупность считается неоднородной.

При изучении экономических явлений статистика встречается с разнообразной вариацией признаков, характеризующих отдельные единицы совокупностей. Величины признаков варьируют под воздействием различных причин и условий. Чем разнообразнее условия, влияющие на размер признака, тем больше его вариация.

Рассмотренные показатели центральной тенденции и показатели вариации представляют собой частные случаи некоторой единой системы статистических характеристик распределения. Такая единая система характеристик может быть представлена моментами статистического распределения. Если при вычислении моментов за произвольную постоянную принимается средняя арифметическая, то такие моменты называются центральными.

Общая формула центральных моментов k-го порядка имеет вид:

Иначе говоря, центральные моменты k-го порядка представляют собой среднюю арифметическую из k – x степеней отклонений значений признака от средней арифметической.

1. Центральный момент нулевого порядка равен единице при k = 0:

2. Центральный момент первого порядка равен нулю при k = 1:

3. Центральный момент второго порядка представляет собой дисперсию данного распределения при k = 2:

4. Центральный момент третьего порядка имеет вид:

Если распределение симметричное, то нетрудно видеть, что центральный момент третьего порядка равен нулю, так как минусовые отклонения (X i – X ) 3 в левой ветви распределения будут уравновешиваться положительными отклонениями в правой части. Такое взаимное погашение отклонений в симметричных рядах распределения сохраняет силу для всех нечетных центральных моментов.

Лекция 1.3

РАЗВЕДОЧНЫЙ АНАЛИЗ ДАННЫХ

Основные узловые моменты разведочного анализа

Слайд 2

Цель разведочного анализа – представить наблюдаемые данные компактной и простой форме, позволяющей выявить имеющиеся в них закономерности и связи. Разведочный анализ включает преобразование данных и способы наглядного их представления, выявление аномальных значений, грубую оценку типа распределения, сглаживание.

Термин разведочный анализ применяется также в более широком смысле, чем предварительная обработка данных. Например, в многомерных процедурах, таких как факторный анализ, многомерное шкалирование данных, цель разведочного анализа, кроме анализа первичных данных, заключается в определении минимального числа факторов, которые удовлетворительно воспроизводят ковариационную (корреляционную) матрицу или матрицу близостей наблюдаемых переменных

Слайд 3

Согласно предыдущей лекции считаем, что у исследователя имеются наблюдения в виде матрицы «объект-признак» или вектора признака и частичное или полное отсутствие априорной информации о причинно-следственном механизме этих данных. При анализе обычно возникают следующие вопросы

1. Какой обработке подвергнуть наблюдения?

2. Какую модель выбрать?

3. Какие заключения можно сделать?

Для выбора способа обработки необходима модель наблюдаемых данных. Прежде чем произвести наблюдение необходимо указать природу и свойства измеряемой величины, т.е. использовать априорную информацию. Чем полнее априорная информация, тем точнее и с меньшими затратами можно получить необходимые результаты. Поэтому большое значение имеет формализация методов сбора, обработки и использования априорной информации. На основе анализа этой информации строится модель исследуемого явления, выбирается аппаратура, разрабатывается методика проведения эксперимента.

Слайд 4

Для получения более полной информации об изучаемом явлении проводится первичный анализ данных, получивший название разведочного анализа (Exploratory data analysis). Разведочный анализ необходим во всех случаях, за исключением лишь очень простых задач. Например, выбору семейства моделей исследуемого явления в большинстве случаев должен предшествовать предварительный и графический анализ данных. Для иллюстрации сказанного рассмотрим модель простой одномерной линейной регрессии. В соответствии с этой моделью предполагается, что наблюдения n пар (x 1 ,Y 1), …, (x n ,Y n ) можно описать уравнением



В качестве минимального предварительного анализа можно рассматривать график рассеяния точек (x j ,Y j ). В результате анализа графиков можно сделать заключение о постоянстве дисперсии Y i , о целесообразности преобразования переменных, выявить наличие аномальных наблюдений, для исключения которых необходимы специальные исследования. После такой обработки данных, предполагая, что верна модель (1), необходимо оценить параметры b 0 , b 1 и провести графический анализ остатков между наблюдаемыми и оцененными значениями Y i . На основе этого анализа можно подтвердить или предложить другую модель.

Слайд 5

Рассмотрим простейшие процедуры разведочного анализа, относящиеся к предварительной обработке данных . Они дополняют методы, изложенные в первой лекции при рассмотрении конкретных форм представления данных. Поясним необходимость проведения разведочного анализа на конкретных вопросах оценивания.

Оценка среднего . Рассмотрим простейший пример оценки истинного среднего m независимой случайной величины x по выборкеобъема n . Если вычислена оценка среднего, то возникает вопрос: «насколько сильно отличается оценка от ненаблюдаемого истинного значения?» Так как истинное значение m недоступно, то определяется доверительный интервал , который с заданной вероятностью накрывает истинное значение.

Отношение имеет t- распределение Стьюдента. Очень часто строят 95%-е доверительные интервалы, считая, что величина t распределена нормально. Для нормального распределения величина t будет равна 1,96, тогда как для t- распределения при числе степеней свободы v (v = n – 1), равных 1; 3 и 12, величина t , соответственно, равна 12,7; 4,3 и 2,18. Поэтому при малых объемах выборок использование нормального распределения вместо t- распределения приводит к большим ошибкам в интервальной оценке. Большое различие интервальных оценок связано с различием t- распределения от нормального в хвостах распределения.

Слайд 6

Хвосты реальных распределений имеют, как правило, больший разброс, чем у нормального распределения. Природа отличия реального распределения от нормального может быть различной:

1. Большинство измерений проводится в конкретных единицах, например, в миллиграммах, микронах, и их значения ограничены. Для нормального же закона распределения значения изменяются от – ¥ до + ¥.

2. Резкая асимметрия некоторых распределений (например,c 2 , F ) при малых выборках, обрывистые края у равномерного распределения.

3. Поведение на «хвостах» распределения. Одно или несколько резко выделяющихся значений от основной массы наблюдений могут существенно изменить среднее и катастрофически дисперсию. Неправдоподобные значения почти неизбежны в экспериментальных данных. Количество таких значений в медицинских данных достигает до 30%, а в специально поставленных экспериментах оно составляет около 1% от всех данных.

Оценка среднего среднеарифметическим имеет большие достоинства: несмещенность для генеральных совокупностей, имеющих математическое ожидание, достаточность, полнота и, соответственно, полная эффективность для нормального, пуассоновского, гамма-распределений и при достаточно широких условиях удобное асимптотически нормальное распределение, которое во многих случаях приближенно достигается уже при средних объемах выборок n . Имеются и недостатки такой оценки: эффективность ее равна нулю для равномерного распределения, а для некоторых выборок уже одно неправдоподобно большое наблюдение может сделать среднеарифметическую оценку бесполезной.

Слайд 7

Если нормальность распределения нарушается резко выделяющимися данными, то желательно применять робастные (robust – крепкий, здоровый, дюжий) оценки . Примером робастной оценки среднего, терпимой к отклонению хвостов распределения от нормального является медиана распределения. Она, как срединное значение наблюдений, не зависит от одного или нескольких неправдоподобно больших измерений.

Медиана, как робастная, не является эффективной оценкой относительно среднеарифметической оценки для нормального распределения.

Слайд 8

Мера разброса . На практике для характеристики величины разброса данных используются следующие меры: среднеквадратическое отклонение s или его квадрат – дисперсия s 2 , а также размах R. Оценки этих величин обозначают соответственно S , S 2 , R . Оценка разброса по S широко применяется, и оно полезно при линейных преобразованиях типа Y = b + aX. Для некоторых распределений s 2 = ∞, а размах применим; неправдоподобно большие отклонения в наблюдениях также могут сделать оценку дисперсии очень большой, что приводит к типу распределения, отличному от истинного.

Оценка разброса по выборочному размаху относится к быстрым процедурам. В связи с появлением быстродействующих ЭВМ вычислительные преимущества R по сравнению с S становятся все менее важными, но остаются преимущества, связанные с простотой вычисления R и возможностью для неспециалистов применять эту статистику. Так, размах практически совсем вытеснил S из систем контроля качества, в которых выборки малых объемов берутся через короткие интервалы времени и по средним значениям и размахам строятся контрольные карты.

Следует отметить, что размах можно использовать для распознавания больших неправдоподобных ошибок в вычислениях S для выборок из любой генеральной совокупности. Это следует из ограниченности отношения S/R .

Слайд 9

Подводя итог рассмотренным оценкам, необходимо сделать вывод, что имеются причины, чтобы не обрабатывать все данные одинаково. Прежде чем приступить к обработке наблюдений, необходимо проверить однородность выборки и, если она неоднородна, то разделить на слои. Наличие резко выделяющихся наблюдений также нарушает однородность выборки. В этом случае один из подходов базируется на обнаружении и удалении этих выделяющихся данных.

Удаление резко выделяющихся наблюдений обеспечивает безопасность оценки, однако обеспечивает эффективность только в случае определения четкой границы между удаленными и не удаленными данными. К явным резко выделяющимся данным примыкает зона «сомнительных» данных (рис. 1), которые не всегда можно распознать. Здесь легко допустить неправильные удаления и необоснованные сохранения, полной эффективности ожидать не приходится даже в идеале после удаления. Эти трудности можно преодолеть, применяя робастные методы оценивания. Робастные алгоритмы обеспечивают безопасность и эффективность оценивания при наличии резко выделяющихся и сомнительных данных.

Рис. 1. Плотность распределения. Разбиение данных на три группы.

Слайд 10

О качестве результатов Цель исследования – дать ответ на вопрос: можно полученные результаты применять на практике. Пригодность полученных результатов можно оценить методами перепроверок. Наиболее часто используются методики простой и двойной перепроверок.

Простая перепроверка. Проверка полученной модели проводится на данных, отличных от тех, по которым рассчитаны параметры модели. В этом случае можно выборку наблюдений делить на две (или больше) части. Одну часть используют для обработки, а другую – для проверки. После этого части можно менять местами, что может дать несколько больше информации, хотя здесь имеются определенные трудности, вытекающие из-за связи между двумя оценками качества модели.

Такую перепроверку можно осуществить и для многократного деления данных, например, можно выборку разделить на 10 равных частей. На любых 9 из них провести оценку модели, а на оставшейся одной части осуществить проверку. После этого повторить процедуру 9 раз, беря каждый раз новые 9 частей. В ряде случаев процедуру усложняют. Расчет осуществляют по всем данным без одного наблюдения, а проверку – на отброшенном значении. Расчеты повторяют для каждого из наблюдений выборки. Не следует обольщаться результатами простой проверки, так как контрольная выборка всегда будет больше похожа на рабочую, чем на выборку объектов, для которой будут использоваться результаты исследований.

Двойная перепроверка. Производится проверка на данных отличных, как от тех, по которым строилась модель, так и от тех, которые были использованы для расчета параметров модели. Медики такой метод проверки называют «дважды слепым». «Свежие данные» для перепроверки можно собирать после выбора модели и расчета параметров. Если получение таких данных невозможно, то можно обратиться к архивным данным при условии, что они оставались неизвестными, пока строилась модель и рассчитывались параметры этой модели. При двойной перепроверке важно, чтобы данные, используемые для проверки, являлись отличными от тех, по которым проводились оценки. Можно использовать данные разных лет, если они могут быть отнесены к одному времени, или данные других исследователей.

Слайд 11

Неоднородные выборки

Стандартные методы оценивания любой статистики выборочных данных построены на предположении, что выборка взята из однородной совокупности с простой структурой закона распределения. Между тем на практике выборки часто формируются под влиянием различных причин и условий, и они могут быть представлены в виде объединения некоторого множества однородных выборок, каждая из которых имеет простую структуру. Например, нельзя считать однородными доходы богатых и других граждан государства, так как они имеют различную экономическую основу; объекты различной стоимости, отличающиеся по народнохозяйственным последствиям . Примерами могут служить неоднородные последовательности динамических моделей в задачах анализа вибраций в машиностроении; сейсмограмм в геофизике; кардиограмм с нарушениями частоты биения сердца.

Природа неоднородности может быть различной. Например, возможны объединения из совокупностей с различными средними и дисперсиями или с одинаковыми средними, но с различными дисперсиями. Важный класс неоднородных выборок образуют также выборки, содержащие одно или несколько неправдоподобно больших или малых измерений . Обработка неоднородных

Пусть наблюдения состоят из трех однородных слоев, каждый из которых можно описать простой одномерной регрессией. Эти зависимости показаны на рис. 2, где прямые – линии регрессий каждой совокупности. Если обработать объединенную выборку этих совокупностей, то получим регрессионную зависимость, изображенную на рис. 2 пунктирной прямой. Очевидно, что регрессия по объединенным данным лишена всякого смысла.

Для определения однородности выборки необходим подробный содержательный анализ исследуемой совокупности. Этот анализ должен базироваться на существенном не случайном признаке, по которому исходная совокупность может быть представлена в виде объединения нескольких однородных совокупностей. Например, налоговые декларации можно разбить на группы по объемам доходов; учреждения – по числу служащих; фермы – по общей площади земель и валовым доходам. При разделении выборки на слои требуется ответить на вопросы, по какому признаку лучше производить расслоение, как определить границы между слоями, сколько должно быть слоев.

Слайд 12

Разделение неоднородной совокупности на однородные

Пусть выборка изучаемой совокупности x 1 , …, x n , содержит элементы двух независимых случайных величин с плотностями распределений f(x,q 1) и f(x,q 2). Обозначим через А – множество элементов выборки, принадлежащих к первой случайной величине, В – множество элементов выборки из второй совокупности. Требуется найти оценки 1 , 2 неизвестных параметров q 1 , q 2 и множества А и В. Для оценки этих четырех неизвестных используем метод максимума правдоподобия. Неизвестные q 1 , q 2 и А и В найдем из условия покоординатной максимизации функции правдоподобия

На каждом шаге максимизируется величина функции правдоподобия по одному из неизвестных . 1) < f(x i , 2),. Если f(x i , 1) = f(x i , 2), то оба варианта одинаково правдоподобны, что для непрерывных распределений является маловероятным событием. Далее берем следующий элемент и относим его в то или иное множество. Полученные множества сравниваем с множествами на предыдущем шаге. Если они отличаются, то переходим к шагу 2, в противном случае алгоритм останавливается, и задача считается решенной.

Недостатком алгоритма является то, что он останавливается на первом локальном максимуме функции правдоподобия. Частично этого недостаток можно избежать, решая задачу при различных начальных разбиениях на подмножества А и В. Если конечные результаты для нескольких начальных условий различны, то берется то решение, для которого значение функции правдоподобия больше. Отсюда следует, что приведенный алгоритм применим и для выборок, содержащих более двух слоев.

Статистическая совокупность — множество единиц, обладающих массовостью, типичностью, качественной однородностью и наличием вариации.

Статистическая совокупность состоит из материально существующих объектов (Работники, предприятия, страны, регионы), является объектом .

Единица совокупности — каждая конкретная единица статистической совокупности.

Одна и та же статистическая совокупность может быть однородна по одному признаку и неоднородна по другому.

Качественная однородность — сходство всех единиц совокупности по какому-либо признаку и несходство по всем остальным.

В статистической совокупности отличия одной единицы совокупности от другой чаще имеют количественную природу. Количественные изменения значений признака разных единиц совокупности называются вариацией.

Вариация признака — количественное изменение признака (для количественного признака) при переходе от одной единицы совокупности к другой.

Признак — это свойство, характерная черта или иная особенность единиц, объектов и явлений, которая может быть наблюдаема или измерена. Признаки делятся на количественные и качественные. Многообразие и изменчивость величины признака у отдельных единиц совокупности называется вариацией .

Атрибутивные (качественные) признаки не поддаются числовому выражению (состав населения по полу). Количественные признаки имеют числовое выражение (состав населения по возрасту).

Показатель — это обобщающая количественно качественная характеристика какого-либо свойства единиц или совокупности в целом в конкретных условиях времени и места.

Система показателей — это совокупность показателей всесторонне отражающих изучаемое явление.

Например, изучается зарплата:
  • Признак — оплата труда
  • Статистическая совокупность — все работники
  • Единица совокупности — каждый работник
  • Качественная однородность — начисленная зарплата
  • Вариация признака — ряд цифр

Генеральная совокупность и выборка из нее

Основу составляет множество данных, полученных в результате измерения одного или нескольких признаков. Реально наблюдаемая совокупность объектов, статистически представленная рядом наблюдений случайной величины , является выборкой , а гипотетически существующая (домысливаемая) — генеральной совокупностью . Генеральная совокупность может быть конечной (число наблюдений N = const ) или бесконечной (N = ∞ ), а выборка из генеральной совокупности — это всегда результат ограниченного ряда наблюдений. Число наблюдений , образующих выборку, называется объемом выборки . Если объем выборки достаточно велик (n → ∞ ) выборка считается большой , в противном случае она называется выборкой ограниченного объема . Выборка считается малой , если при измерении одномерной случайной величины объем выборки не превышает 30 (n <= 30 ), а при измерении одновременно нескольких (k ) признаков в многомерном пространстве отношение n к k не превышает 10 (n/k < 10) . Выборка образует вариационный ряд , если ее члены являются порядковыми статистиками , т. е. выборочные значения случайной величины Х упорядочены по возрастанию (ранжированы), значения же признака называются вариантами .

Пример . Практически одна и та же случайно отобранная совокупность объектов — коммерческих банков одного административного округа Москвы, может рассматриваться как выборка из генеральной совокупности всех коммерческих банков этого округа, и как выборка из генеральной совокупности всех коммерческих банков Москвы, а также как выборка из коммерческих банков страны и т.д.

Основные способы организации выборки

Достоверность статистических выводов и содержательная интерпретация результатов зависит от репрезентативности выборки, т.е. полноты и адекватности представления свойств генеральной совокупности, по отношению к которой эту выборку можно считать представительной. Изучение статистических свойств совокупности можно организовать двумя способами: с помощью сплошного и несплошного . Сплошное наблюдение предусматривает обследование всех единиц изучаемой совокупности , а несплошное (выборочное) наблюдение — только его части.

Существуют пять основных способов организации выборочного наблюдения:

1. простой случайный отбор , при котором объектов случайно извлекаются из генеральной совокупности объектов (например с помощью таблицы или датчика случайных чисел), причем каждая из возможных выборок имеют равную вероятность. Такие выборки называются собственно-случайными ;

2. простой отбор с помощью регулярной процедуры осуществляется с помощью механической составляющей (например, даты, дня недели, номера квартиры, буквы алфавита и др.) и полученные таким способом выборки называются механическими ;

3. стратифицированный отбор заключается в том, что генеральная совокупность объема подразделяется на подсовокупности или слои (страты) объема так что . Страты представляют собой однородные объекты с точки зрения статистических характеристик (например, население делится на страты по возрастным группам или социальной принадлежности; предприятия — по отраслям). В этом случае выборки называются стратифицированными (иначе, расслоенными, типическими, районированными );

4. методы серийного отбора используются для формирования серийных или гнездовых выборок . Они удобны в том случае, если необходимо обследовать сразу "блок" или серию объектов (например, партию товара, продукцию определенной серии или население при территориально-административном делении страны). Отбор серий можно осуществить собственно-случайным или механическим способом. При этом проводится сплошное обследование определенной партии товара, или целой территориальной единицы (жилого дома или квартала);

5. комбинированный (ступенчатый) отбор может сочетать в себе сразу несколько способов отбора (например, стратифицированный и случайный или случайный и механический); такая выборка называется комбинированной .

Виды отбора

По виду различаются индивидуальный, групповой и комбинированный отбор. При индивидуальном отборе в выборочную совокупность отбираются отдельные единицы генеральной совокупности, при групповом отборе — качественно однородные группы (серии) единиц, а комбинированный отбор предполагает сочетание первого и второго видов.

По методу отбора различают повторную и бесповторную выборку.

Бесповторным называется отбор, при котором попавшая в выборку единица не возвращается в исходную совокупность и в дальнейшем выборе не участвует; при этом численность единиц генеральной совокупности N сокращается в процессе отбора. При повторном отборе попавшая в выборку единица после регистрации возвращается в генеральную совокупность и таким образом сохраняет равную возможность наряду с другими единицами быть использованной в дальнейшей процедуре отбора; при этом численность единиц генеральной совокупности N остается неизменной (метод в социально-экономических исследованиях применяется редко). Однако, при большом N (N → ∞) формулы для бесповторного отбора приближаются к аналогичным для повторного отбора и практически чаще используются последние (N = const ).

Основные характеристики параметров генеральной и выборочной совокупности

В основе статистических выводов проведенного исследования лежит распределение случайной величины , наблюдаемые же значения (х 1 , х 2 , … , х n) называются реализациями случайной величины Х (n — объем выборки). Распределение случайной величины в генеральной совокупности носит теоретический, идеальный характер, а ее выборочный аналог является эмпирическим распределением. Некоторые теоретические распределения заданы аналитически, т.е. их параметры определяют значение функции распределения в каждой точке пространства возможных значений случайной величины . Для выборки же функцию распределения определить трудно, а иногда невозможно, поэтому параметры оценивают по эмпирическим данным, а затем их подставляют в аналитическое выражение, описывающее теоретическое распределение. При этом предположение (или гипотеза ) о виде распределения может быть как статистически верным, так и ошибочным. Но в любом случае восстановленное по выборке эмпирическое распределение лишь грубо характеризует истинное. Важнейшими параметрами распределений являются математическое ожидание и дисперсия .

По своей природе распределения бывают непрерывными и дискретными . Наиболее известным непрерывным распределением является нормальное . Выборочными аналогами параметров идля него являются: среднее значение и эмпирическая дисперсия . Среди дискретных в социально-экономических исследованиях наиболее часто применяется альтернативное (дихотомическое) распределение. Параметр математического ожидания этого распределения выражает относительную величину (или долю ) единиц совокупности, которые обладают изучаемым признаком (она обозначена буквой ); доля совокупности, не обладающая этим признаком, обозначается буквой q (q = 1 — p) . Дисперсия же альтернативного распределения также имеет эмпирический аналог .

В зависимости от вида распределения и от способа отбора единиц совокупности по-разному вычисляются характеристики параметров распределения. Основные из них для теоретического и эмпирического распределений приведены в табл. 1.

Долей выборки k n называется отношение числа единиц выборочной совокупности к числу единиц генеральной совокупности:

k n = n/N .

Выборочная доля w — это отношение единиц, обладающих изучаемым признаком x к объему выборки n :

w = n n /n .

Пример. В партии товара, содержащей 1000 ед., при 5% выборке доля выборки k n в абсолютной величине составляет 50 ед. (n = N*0,05); если же в этой выборке обнаружено 2 бракованных изделия, то выборочная доля брака w составит 0,04 (w = 2/50 = 0,04 или 4%).

Так как выборочная совокупность отлична от генеральной, то возникают ошибки выборки .

Таблица 1. Основные параметры генеральной и выборочной совокупностей

Ошибки выборки

При любом (сплошном и выборочном) могут встретиться ошибки двух видов: регистрации и репрезентативности. Ошибки регистрации могут иметь случайный и систематический характер. Случайные ошибки складываются из множества различных неконтролируемых причин, носят непреднамеренный характер и обычно по совокупности уравновешивают друг друга (например, изменения показателей прибора при температурных колебаниях в помещении).

Систематические ошибки тенденциозны, так как нарушают правила отбора объектов в выборку (например, отклонения в измерениях при изменении настройки измерительного прибора).

Пример. Для оценки социального положения населения в городе предусмотрено обследовать 25% семей. Если при этом выбор каждой четвертой квартиры основан на ее номере, то существует опасность отобрать все квартиры только одного типа (например, однокомнатные), что обеспечит систематическую ошибку и исказит результаты; выбор же номера квартиры по жребию более предпочтителен, так как ошибка будет случайной.

Ошибки репрезентативности присущи только выборочному наблюдению, их невозможно избежать и они возникают в результате того, что выборочная совокупность не полностью воспроизводит генеральную. Значения показателей, получаемых по выборке, отличаются от показателей этих же величин в генеральной совокупности (или получаемых при сплошном наблюдении).

Ошибка выборочного наблюдения есть разность между значением параметра в генеральной совокупности и ее выборочным значением. Для среднего значения количественного признака она равна: , а для доли (альтернативного признака) — .

Ошибки выборки свойственны только выборочным наблюдениям. Чем больше эти ошибки, тем больше эмпирическое распределение отличается от теоретического. Параметры эмпирического распределения и являются случайными величинами, следовательно, ошибки выборки также являются случайными величинами, могут принимать для разных выборок разные значения и поэтому принято вычислять среднюю ошибку .

Средняя ошибка выборки есть величина , выражающая среднее квадратическое отклонение выборочной средней от математического ожидания. Эта величина при соблюдении принципа случайного отбора зависит прежде всего от объема выборки и от степени варьирования признака: чем больше и чем меньше вариация признака (следовательно, и значение ), тем меньше величина средней ошибки выборки . Соотношение между дисперсиями генеральной и выборочной совокупностей выражается формулой:

т.е. при достаточно больших можно считать, что . Средняя ошибка выборки показывает возможные отклонения параметра выборочной совокупности от параметра генеральной. В табл. 2 приведены выражения для вычисления средней ошибки выборки при разных методах организации наблюдения.

Таблица 2. Средняя ошибка (m) выборочных средней и доли для разных видов выборки

Где - средняя из внутригрупповых выборочных дисперсий для непрерывного признака;

Средняя из внутригрупповых дисперсий доли;

— число отобранных серий, — общее число серий;

,

где — средняя -й серии;

— общая средняя по всей выборочной совокупности для непрерывного признака;

,

где — доля признака в -й серии;

— общая доля признака по всей выборочной совокупности.

Однако о величине средней ошибки можно судить лишь с определенной, вероятностью Р (Р ≤ 1). Ляпунов А.М. доказал, что распределение выборочных средних , a следовательно, и их отклонений от генеральной средней, при достаточно большом числе приближенно подчиняется нормальному закону распределения при условии, что генеральная совокупность обладает конечной средней и ограниченной дисперсией.

Математически это утверждение для средней выражается в виде:

а для доли выражение (1) примет вид:

где - есть предельная ошибка выборки , которая кратна величине средней ошибки выборки , а коэффициент кратности — есть критерий Стьюдента ("коэффициент доверия"), предложенный У.С. Госсетом (псевдоним "Student"); значения для разного объема выборки хранятся в специальной таблице.

Значения функции Ф(t) при некоторых значениях t равны:

Следовательно, выражение (3) может быть прочитано так: с вероятностью Р = 0,683 (68,3%) можно утверждать, что разность между выборочной и генеральной средней не превысит одной величины средней ошибки m (t = 1) , с вероятностью Р = 0,954 (95,4%) — что она не превысит величины двух средних ошибок m (t = 2) , с вероятностью Р = 0,997 (99,7%) — не превысит трех значений m (t = 3) . Таким образом, вероятность того, что эта разность превысит трехкратную величину средней ошибки определяет уровень ошибки и составляет не более 0,3% .

В табл. 3 приведены формулы для вычисления предельной ошибки выборки.

Таблица 3. Предельная ошибка (D) выборки для средней и доли (р) для разных видов выборочного наблюдения

Распространение выборочных результатов на генеральную совокупность

Конечной целью выборочного наблюдения является характеристика генеральной совокупности. При малых объемах выборки эмпирические оценки параметров ( и ) могут существенно отклоняться от их истинных значений ( и ). Поэтому возникает необходимость установить границы, в пределах которых для выборочных значений параметров ( и ) лежат истинные значения ( и ).

Доверительным интервалом какого-либо параметра θгенеральной совокупности называется случайная область значений этого параметра, которая с вероятностью близкой к 1 (надежностью ) содержит истинное значение этого параметра.

Предельная ошибка выборки Δ позволяет определить предельные значения характеристик генеральной совокупности и их доверительные интервалы , которые равны:

Нижняя граница доверительного интервала получена путем вычитания предельной ошибки из выборочного среднего (доли), а верхняя — путем ее добавления.

Доверительный интервал для средней использует предельную ошибку выборки и для заданного уровня достоверности определяется по формуле:

Это означает, что с заданной вероятностью Р , которая называется доверительным уровнем и однозначно определяется значением t , можно утверждать, что истинное значение средней лежит в пределах от ,а истинное значение доли — в пределах от

При расчете доверительного интервала для трех стандартных доверительных уровней Р = 95%, Р = 99% и Р = 99,9% значение выбирается по . Приложения в зависимости от числа степеней свободы . Если объем выборки достаточно велик, то соответствующие этим вероятностям значения t равны: 1,96, 2,58 и 3,29 . Таким образом, предельная ошибка выборки позволяет определить предельные значения характеристик генеральной совокупности и их доверительные интервалы:

Распространение результатов выборочного наблюдения на генеральную совокупность в социально-экономических исследованиях имеет свои особенности, так как требует полноты представительности всех ее типов и групп. Основой для возможности такого распространения является расчет относительной ошибки :

где Δ % - относительная предельная ошибка выборки; , .

Существуют два основных метода распространения выборочного наблюдения на генеральную совокупность: прямой пересчет и способ коэффициентов .

Сущность прямого пересчета заключается в умножении выборочного среднего значения!!\overline{x} на объем генеральной совокупности .

Пример . Пусть среднее число детей ясельного возраста в городе оценено выборочным методом и составило человека. Если в городе 1000 молодых семей, то число необходимых мест в муниципальных детских яслях получают умножением этой средней на численность генеральной совокупности N = 1000, т.е. составит 1200 мест.

Способ коэффициентов целесообразно использовать в случае, когда выборочное наблюдение проводится с целью уточнения данных сплошного наблюдения.

При этом используют формулу:

где все переменные — это численность совокупности:

Необходимый объем выборки

Таблица 4. Необходимый объем (n) выборки для разных видов организации выборочного наблюдения

При планировании выборочного наблюдения с заранее заданным значением допустимой ошибки выборки необходимо правильно оценить требуемый объем выборки . Этот объем может быть определен на основе допустимой ошибки при выборочном наблюдении исходя из заданной вероятности , гарантирующей допустимую величину уровня ошибки (с учетом способа организации наблюдения). Формулы для определения необходимой численности выборки n легко получить непосредственно из формул предельной ошибки выборки. Так, из выражения для предельной ошибки:

непосредственно определяется объем выборки n :

Эта формула показывает, что с уменьшением предельной ошибки выборки Δ существенно увеличивается требуемый объем выборки , который пропорционален дисперсии и квадрату критерия Стьюдента .

Для конкретного способа организации наблюдения требуемый объем выборки вычисляется согласно формулам, приведенным в табл. 9.4.

Практические примеры расчета

Пример 1. Вычисление среднего значения и доверительного интервала для непрерывного количественного признака.

Для оценки скорости расчета с кредиторами в банке проведена случайная выборка 10 платежных документов. Их значения оказались равными (в днях): 10; 3; 15; 15; 22; 7; 8; 1; 19; 20.

Необходимо с вероятностью Р = 0,954 определить предельную ошибку Δ выборочной средней и доверительные пределы среднего времени расчетов.

Решение. Среднее значение вычисляется по формуле из табл. 9.1 для выборочной совокупности

Дисперсия вычисляется по формуле из табл. 9.1.

Средняя квадратическая погрешность дня.

Ошибка средней вычисляется по формуле:

т.е. среднее значение равно x ± m = 12,0 ± 2,3 дней .

Достоверность среднего составила

Предельную ошибку вычислим по формуле из табл. 9.3 для повторного отбора, так как численность генеральной совокупности неизвестна, и для Р = 0,954 уровня достоверности.

Таким образом, среднее значение равно `x ± D = `x ± 2m = 12,0 ± 4,6, т.е. его истинное значение лежит в пределах от 7,4 до16,6 дней.

Использование таблицы Стьюдента. Приложения позволяет заключить, что для n = 10 — 1 = 9 степеней свободы полученное значение достоверно с уровнем значимости a £ 0,001, т.е. полученное значение среднего достоверно отличается от 0.

Пример 2. Оценка вероятности (генеральной доли) р.

При механическом выборочном способе обследования социального положения 1000 семей выявлено, что доля малообеспеченных семей составила w = 0,3 (30%) (выборка была 2% , т.е. n/N = 0,02 ). Необходимо с уровнем достоверности р = 0,997 определить показатель р малообеспеченных семей во всем регионе.

Решение. По представленным значениям функции Ф(t) найдем для заданного уровня достоверности Р = 0,997 значение t = 3 (см. формулу 3). Предельную ошибку доли w определим по формуле из табл. 9.3 для бесповторного отбора (механическая выборка всегда является бесповторной):

Предельная относительная ошибка выборки в % составит:

Вероятность (генеральная доля) малообеспеченных семей в регионе составит р=w±Δ w , а доверительные пределы р вычисляются исходя из двойного неравенства:

w — Δ w ≤ p ≤ w — Δ w , т.е. истинное значение р лежит в пределах:

0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.

Таким образом, с вероятностью 0,997 можно утверждать, что доля малообеспеченных семей среди всех семей региона составляет от 28,6% до 31,4%.

Пример 3. Вычисление среднего значения и доверительного интервала для дискретного признака, заданного интервальным рядом.

В табл. 5. задано распределение заявок на изготовление заказов по срокам их выполнения предприятием.

Таблица 5. Распределение наблюдений по срокам появления

Решение. Средний срок выполнения заявок вычисляется по формуле:

Средний срок составит:

= (3*20 + 9*80 + 24*60 + 48*20 + 72*20)/200 = 23,1 мес.

Тот же ответ получим, если используем данные о р i из предпоследней колонки табл. 9.5, используя формулу:

Заметим, что середина интервала для последней градации находится путем искусственного ее дополнения шириной интервала предыдущей градации равной 60 — 36 = 24 мес.

Дисперсия вычисляется по формуле

где х i - середина интервального ряда.

Следовательно!!\sigma = \frac {20^2 + 14^2 + 1 + 25^2 + 49^2}{4}, а средняя квадратическая погрешность .

Ошибка средней вычисляется по формуле мес., т.е. среднее значение равно!!\overline{x} ± m = 23,1 ± 13,4.

Предельную ошибку вычислим по формуле из табл. 9.3 для повторного отбора, так как численность генеральной совокупности неизвестна, для 0,954 уровня достоверности:

Таким образом, среднее значение равно:

т.е. его истинное значение лежит в пределах от 0 до 50 мес.

Пример 4. Для определения скорости расчетов с кредиторами N = 500 предприятий корпорации в коммерческом банке необходимо провести выборочное исследование методом случайного бесповторного отбора. Определить необходимый объем выборки n, чтобы с вероятностью Р = 0,954 ошибка среднего значения выборки не превышала 3-х дней, если пробные оценки показали, что среднее квадратическое отклонение s составило 10 дней.

Решение . Для определения числа необходимых исследований n воспользуемся формулой для бесповторного отбора из табл. 9.4:

В ней значение t определяется из для уровня достоверности Р = 0,954. Оно равно 2. Среднее квадратическое значение s = 10, объем генеральной совокупности N = 500, а предельная ошибка среднего значения Δ x = 3. Подставляя эти значения в формулу, получим:

т.е. выборку достаточно составить из 41 предприятия, чтобы оценить требуемый параметр — скорость расчетов с кредиторами.

  • Эконометрика – отрасль науки, цель которой состоит в том, чтобы придать количественные меры экономическим отношениям.
  • Статистические методы являются существенным элементом в социальных науках, и в основном именно с помощью этих методов социальные учения могут подняться до уровня наук.
  • Ставя цель дать количественное описание взаимосвязей между экономическими переменными, эконометрика прежде всего связана с методами регрессии и корреляции.
  • Любое эконометрическое исследование начинается со спецификации модели, т.Е. С формулировки вида модели исходя из соответствующей теории связи между переменными.
  • Из всего круга факторов, влияющих на результативный признак (у), прежде всего необходимо выделить наиболее существенно влияющие факторы.
  • Уравнение простой регрессии характеризует связь между двумя переменными, которая проявляется как некоторая закономерность лишь в среднем по совокупности наблюдений.
  • В уравнении регрессии корреляционная по сути связь признаков представляется в виде функциональной связи, выраженной соответствующей математической функцией.
  • Случайная величина ε, или возмущение, включает влияние не учтенных в модели факторов, случайных ошибок и особенностей измерения.
  • Предполагая, что ошибки измерения сведены к минимуму, основное внимание в экономических исследованиях уделяется ошибкам спецификации модели.
  • При изучении зависимости между двумя признаками графический метод подбора вида уравнения регрессии достаточно нагляден. Он базируется на поле корреляции.
  • Основные типы трендов, используемые при количественной оценке связей между двумя переменными: логарифмический, линейный, степенной, полиномиальный, экспоненциальный.
  • Аналитический метод выбора типа уравнения регрессии основан на изучении материальной природы связи исследуемых признаков.
  • Чем ближе коэффициент детерминации к единице, тем в большей степени уравнение регрессии пригодно для прогнозирования на следующий год.
  • Примером нелинейной регрессии по включенным в нее объясняющим переменным могут служить следующие функции: равносторонняя гипербола, полиномы разных степеней.
  • К нелинейным регрессиям по оцениваемым параметрам относятся функции: степенная, показательная, экспоненциальная.
  • Предполагая, что ошибки измерения сведены к минимуму, основное внимание в экономических исследованиях уделяется ошибкам спецификации модели.
  • При изучении зависимости между двумя признаками графический метод подбора вида уравнения регрессии достаточно нагляден. Он базируется на поле корреляции.
  • Основные типы трендов, используемые при количественной оценке связей между двумя переменными: логарифмический, линейный, степенной, полиномиальный, экспоненциальный.
  • Аналитический метод выбора типа уравнения регрессии основан на изучении материальной природы связи исследуемых признаков.
  • Чем ближе коэффициент детерминации к единице, тем в большей степени уравнение регрессии пригодно для прогнозирования на следующий год.
  • Примером нелинейной регрессии по включенным в нее объясняющим переменным могут служить следующие функции: равносторонняя гипербола, полиномы разных степеней.
  • К нелинейным регрессиям по оцениваемым параметрам относятся функции: степенная, показательная, экспоненциальная.
  • Предполагая, что ошибки измерения сведены к минимуму, основное внимание в экономических исследованиях уделяется ошибкам спецификации модели.
  • При изучении зависимости между двумя признаками графический метод подбора вида уравнения регрессии достаточно нагляден. Он базируется на поле корреляции.
  • Основные типы трендов, используемые при количественной оценке связей между двумя переменными: логарифмический, линейный, степенной, полиномиальный, экспоненциальный.
  • Аналитический метод выбора типа уравнения регрессии основан на изучении материальной природы связи исследуемых признаков.
  • Чем ближе коэффициент детерминации к единице, тем в большей степени уравнение регрессии пригодно для прогнозирования на следующий год.
  • Примером нелинейной регрессии по включенным в нее объясняющим переменным могут служить следующие функции: равносторонняя гипербола, полиномы разных степеней.
  • К нелинейным регрессиям по оцениваемым параметрам относятся функции: степенная, показательная, экспоненциальная.
  • Предполагая, что ошибки измерения сведены к минимуму, основное внимание в экономических исследованиях уделяется ошибкам спецификации модели.
  • При изучении зависимости между двумя признаками графический метод подбора вида уравнения регрессии достаточно нагляден. Он базируется на поле корреляции.
  • Основные типы трендов, используемые при количественной оценке связей между двумя переменными: логарифмический, линейный, степенной, полиномиальный, экспоненциальный.
  • Аналитический метод выбора типа уравнения регрессии основан на изучении материальной природы связи исследуемых признаков.
  • Полином любого порядка сводится к линейной регрессии с ее методами оценивания параметров и проверки гипотез.
  • Поскольку в расчете индекса корреляции используется соотношение факторной и общей суммы квадратов отклонений, то r2 имеет тот же смысл, что и коэффициент детерминации.
  • Ошибки аппроксимации для каждого наблюдения принято определять в процентах по модулю.
  • Парная регрессия может дать хороший результат при моделировании, если влиянием других факторов, воздействующих на объект исследования, можно пренебречь
  • Множественная регрессия широко используется в решении проблем спроса, доходности акций, при изучении функции издержек производства, в макроэкономических расчетах.
  • Теоретический анализ часто не позволяет однозначно ответить на вопрос о количественной взаимосвязи рассматриваемых признаков и целесообразности включения фактора в модель.
  • Полином любого порядка сводится к линейной регрессии с ее методами оценивания параметров и проверки гипотез.
  • Среди нелинейной полиномиальной регрессии чаще всего используется парабола второй степени; в отдельных случаях – полином третьего порядка.
  • Поскольку в расчете индекса корреляции используется соотношение факторной и общей суммы квадратов отклонений, то r2 имеет тот же смысл, что и коэффициент детерминации.
  • Ошибки аппроксимации для каждого наблюдения принято определять в процентах по модулю.
  • Парная регрессия может дать хороший результат при моделировании, если влиянием других факторов, воздействующих на объект исследования, можно пренебречь.
  • Множественная регрессия широко используется в решении проблем спроса, доходности акций, при изучении функции издержек производства, в макроэкономических расчетах.
  • Теоретический анализ часто не позволяет однозначно ответить на вопрос о количественной взаимосвязи рассматриваемых признаков и целесообразности включения фактора в модель.
  • Полином любого порядка сводится к линейной регрессии с ее методами оценивания параметров и проверки гипотез.
  • Среди нелинейной полиномиальной регрессии чаще всего используется парабола второй степени; в отдельных случаях – полином третьего порядка.
  • Поскольку в расчете индекса корреляции используется соотношение факторной и общей суммы квадратов отклонений, то r2 имеет тот же смысл, что и коэффициент детерминации.
  • Ошибки аппроксимации для каждого наблюдения принято определять в процентах по модулю.
  • Парная регрессия может дать хороший результат при моделировании, если влиянием других факторов, воздействующих на объект исследования, можно пренебречь.
  • Множественная регрессия широко используется в решении проблем спроса, доходности акций, при изучении функции издержек производства, в макроэкономических расчетах.
  • Полином любого порядка сводится к линейной регрессии с ее методами оценивания параметров и проверки гипотез.
  • Среди нелинейной полиномиальной регрессии чаще всего используется парабола второй степени; в отдельных случаях – полином третьего порядка.
  • Поскольку в расчете индекса корреляции используется соотношение факторной и общей суммы квадратов отклонений, то r2 имеет тот же смысл, что и коэффициент детерминации.
  • Ошибки аппроксимации для каждого наблюдения принято определять в процентах по модулю.
  • Парная регрессия может дать хороший результат при моделировании, если влиянием других факторов, воздействующих на объект исследования, можно пренебречь.
  • Множественная регрессия широко используется в решении проблем спроса, доходности акций, при изучении функции издержек производства, в макроэкономических расчетах.
  • Теоретический анализ часто не позволяет однозначно ответить на вопрос о количественной взаимосвязи рассматриваемых признаков и целесообразности включения фактора в модель.
  • Чем сильнее мультиколлинеарность факторов, тем менее надежна оценка распределения суммы объясненной вариации по отдельным факторам с помощью метода наименьших квадратов.
  • Предполагая, что ошибки измерения сведены к минимуму, основное внимание в экономических исследованиях уделяется ошибкам спецификации модели.
  • При изучении зависимости между двумя признаками графический метод подбора вида уравнения регрессии достаточно нагляден. Он базируется на поле корреляции.
  • Основные типы трендов, используемые при количественной оценке связей между двумя переменными: логарифмический,линейный, степенной, полиномиальный, экспоненциальный.
  • Аналитический метод выбора типа уравнения регрессии основан на изучении материальной природы связи исследуемых признаков.
  • Чем ближе коэффициент детерминации к единице, тем в большей степени уравнение регрессии пригодно для прогнозирования на следующий год.
  • Полином любого порядка сводится к линейной регрессии с ее методами оценивания параметров и проверки гипотез.
  • Среди нелинейной полиномиальной регрессии чаще всего используется парабола второй степени; в отдельных случаях – полином третьего порядка.
  • Поскольку в расчете индекса корреляции используется соотношение факторной и общей суммы квадратов отклонений, то r2 имеет тот же смысл, что и коэффициент детерминации.
  • Среди нелинейной полиномиальной регрессии чаще всего используется парабола второй степени; в отдельных случаях – полином третьего порядка.
  • Поскольку в расчете индекса ковариации используется соотношение факторной и общей суммы квадратов отклонений, то r2 имеет тот же смысл, что и коэффициент детерминации.
  • Ошибки аппроксимации не для каждого наблюдения принято определять в процентах по модулю.
  • Парная регрессия может дать хороший результат при моделировании, если влиянием других факторов, воздействующих на объект исследования, можно пренебречь.
  • Множественная регрессия широко используется в решении проблем спроса, доходности акций, при изучении функции издержек производства, в макроэкономических расчетах.
  • Теоретический анализ часто не позволяет однозначно ответить на вопрос о количественной взаимосвязи рассматриваемых признаков и целесообразности включения фактора в модель.
  • Чем сильнее мультиколлинеарность факторов, тем менее надежна оценка распределения суммы объясненной вариации по отдельным факторам с помощью метода наименьших квадратов.
  • Случайная величина ε, или возмущение, включает влияние учтенных в модели факторов, случайных ошибок и особенностей измерения.

    Случайная величина ε, или возмущение, включает влияние не учтенных в модели факторов, не случайных ошибок и особенностей измерения.

    9.Какими источниками обусловлено присутствие в модели регрессионного уравнения случайной величины ε?

    Ее присутствие в модели обусловлено двумя источниками: спецификацией модели, выборочным характером исходных данных.

    Ее присутствие в модели обусловлено двумя источниками: выборочным характером исходных данных, особенностями измерения переменных.

    Ее присутствие в модели обусловлено двумя источниками: спецификацией модели, особенностями измерения переменных.

  1. Ее присутствие в модели обусловлено тремя источниками: спецификацией модели, выборочным характером исходных данных, особенностями измерения переменных.

  2. Ее присутствие в модели не обусловлено тремя источниками: спецификацией модели, выборочным характером исходных данных, особенностями измерения переменных.

10.Относится ли недоучет в уравнении регрессии какого-либо существенного фактора к ошибкам спецификации?

    К ошибкам спецификации не будет относиться не только неправильный выбор той или иной математической функции, но и недоучет в уравнении регрессии какого-либо существенного фактора, например использование парной регрессии вместо множественной.

    К ошибкам спецификации будет относиться только неправильный выбор той или иной математической функции, но и недоучет в уравнении регрессии какого-либо существенного фактора, например использование парной регрессии вместо множественной.

    К ошибкам спецификации будет относиться не только неправильный выбор той или иной математической функции, но и обязательный учет в уравнении регрессии какого-либо существенного фактора, например использование парной регрессии вместо множественной.

    К ошибкам спецификации будет относиться не только неправильный выбор той или иной математической функции, но и недоучет в уравнении регрессии какого-либо существенного фактора, например использование парной регрессии вместо множественной.

    К ошибкам спецификации будет относиться не только неправильный выбор той или иной математической функции, но и недоучет в уравнении регрессии какого-либо существенного фактора, например неиспользование парной регрессии вместо множественной.

11.Когда уравнение регрессии не имеет практического смысла и что делают, чтобы получить практический смысл от уравнения регрессии?

    Если совокупность данных неоднородна, то уравнение регрессии не имеет практического смысла. Для получения хорошего результата обычно исключают из совокупности данные с аномальными значениями исследуемых признаков.

    Если совокупность данных неоднородна, то уравнение регрессии не имеет практического смысла. Для получения хорошего результата обычно исключают из совокупности данные с аномальными значениями исследуемых признаков.

    Если совокупность данных неоднородна, то уравнение регрессии имеет практический смысл. Для получения хорошего результата обычно исключают из совокупности данные с аномальными значениями исследуемых признаков.

    Если совокупность данных неоднородна, то уравнение регрессии не имеет практического смысла. Для получения плохого результата обычно исключают из совокупности данные с аномальными значениями исследуемых признаков.

    Если совокупность данных неоднородна, то уравнение регрессии не имеет практического смысла. Для получения хорошего результата обычно не исключают из совокупности данные с аномальными значениями исследуемых признаков.

12.Какую опасность в практическом использовании методов регрессии представляют ошибки измерения?

"
error: