Ремонт компьютеров, ноутбуков
Вызвать мастера
Звонок, визит, диагностика - бесплатно!

Восстановление пропусков в данных методом барлетта

E-mal: Paper revews the current state the problem of statstcal analyss wth mssng data and the methods of t decson. The usng of resamplng for ths task s offered. The ams of the work are the demonstraton of possbltes resamplng for ths task and nvestgaton the effectveness of resamplng method and classcal methods: Bartlett and means for regresson analyss wth mssng data n dependent varable. Keywords: mssng data, regresson analyss. Введение При проведении статистического анализа на практике ограничиваются анализом не всей генеральной совокупности в целом, а лишь некоторого выборочного числа наблюдений.

Лабораторная работа № 1 «Алгоритмы заполнения пропущенных значений в таблицах данных»

В работе предложен метод восстановления многомерных данных, полученных в ходе социально-экономических исследований. Основное преимущество метода заключается в использовании восстанавливающих признаков различной природы, что существенно расширяет диапазон применения метода. Предложены методы оценки качества восстановления, основанные на использовании процедуры скользящего экзамена.

Рассмотренный метод реализован программно и прошел апробацию на модельных и реальных данных. In work the method of restoration of the multidimensional data received during social and economic researches is offered.

The basic advantage of a method consists in use of restoring signs of the various nature that essentially expands a range of application of a method. Methods of an estimation of quality of restoration the procedures of sliding examination based on use are offered.

The considered method is realised by means of the computer program and has passed approbation on the modelling and real data. Ключевые слова и словосочетания: данные с пропусками, методы восстановления данных, многомерный статистический анализ, качественные данные, моделирование данных.

Большинство исследователей, которые проводят исследования социально-экономических процессов, сталкиваются с проблемой пропуска данных или неответа в таблицах объект-свойство [12]. Иначе еще эту проблему называют проблемой неполноты данных [3].

Часто выбросы тоже можно рассматривать как пропущенные данные. К выбросам можно отнести данные, которые явно противоречат данным всей выборки. Причем, противоречие может возникать не только со значениями одного признак, но и со значениям прочих признаков одного наблюдения. В обоих случаях перед исследователем стоит дилемма: либо отбросить всю строку таблицы данных? Часть противоречий ошибок может быть выявлена и исправлена на предварительных этапах анализа данных путем логического анализа противоречий в многомерных данных.

Для этого можно использовать специальные средства [9]. При большом количестве исследуемых признаков количество пропусков может быть значительным. Часто отбрасывать данные нежелательно по той причине, что на основании многомерных данных решается множество задач, в которых используются либо одномерные признаки частотные ряды , либо часть признаков многомерных наблюдений.

В одной задаче все признаки задействуются крайне редко. Если го-. Многообразие ситуаций и причин возникновения пропусков в данных породило множество исследований в этой области.

Особенно много работ, посвященных исследованию данной проблемы, в зарубежных источниках. Обширный список таких работ можно найти в отдельных работах отечественных ученых [2, 14]. Большое количество методов потребовало систематизации подходов и разработки классификации методов [1, 3, 4, 5].

Многие авторы за основу принимают схему классификации, представленную в работах [13, 15] рис. В указанных выше работах приводятся основные принципы распространенных методов восстановления данных. Можно отметить, что новые разрабатываемые методы, как правило, вписываются в представленную схему классификации. Можно утверждать, что теория восстановления пропущенных данных постоянно развивается, и соответственно появляются новые алгоритмы и модернизируются известные.

Это связано с тем, что не может быть разработано абсолютного алгоритма, который был бы применим и давал наилучшие результаты во всех ситуациях. Многие исследователи, доказывая преимущество того или иного подхода или метода, демонстрируют достоинства метода на конкретном примере.

Но примеры тоже является частными случаями и не доказывают полного превосходства одного метода над другим. Несмотря на существование большого коли-. То есть, задача восстановления данных сейчас во многом носит исследовательский характер и используется специалистами, более менее представляющими механизм работы используемых алгоритмов. Сохраняется как теоретическая проблема оценки точности результатов, полученных в результате применения алгоритмов восстановления. В данной работе предлагается к рассмотрению метод восстановления данных, который может использоваться в ситуации, когда большинство известных методов не применимо.

В большинстве методов восстановления данных используются признаки, измеренные в шкале отношений. При исследовании социально-экономических процессов часто получают данные, представленные в различных шкалах. Мы предлагаем алгоритм, которые позволяют работать с различными признаками. Конечно, предложенный алгоритм тоже не всегда гарантирует получения требуемой точности. Возможности алгоритма всегда ограничены имеющимися данными и их латентной структурой. В дополнение к алгоритму предлагается несколько процедур оценки точности результатов, что позволяет исследователю самому принять решение о приемлемости полученного результата.

Алгоритм основан на предположении случайности возникновения пропусков данных в таблице объект-свойство. Для такого предположения часто используется аббревиатура MCAR missing completely at random.

Это предположение принимается в большинстве известных алгоритмов. Чаще всего предположение выполняется и его можно проверить с помощью известных статистических методов.

В таблице данных допускается присутствие данных, измеренных в различных шкалах. Таблицу данных представим в форме отсортированной таблицы рис. Первые т столбцов X, Х2 Xi Хт содержат значения признаков, не имеющих пропусков. Эти признаки будем называть восстанавливающими признаками. Столбец У содержит признак, в котором допущены пропуски. Этот признак будем называть восстанавливаемым признаком. Первые щ содержат наблюдения без пропусков.

Следующие т строк имеют пропуски в признаке У. То есть, необходимо восстановить т значений признака У. Процедура более эффективно работает при восстановлении числовых признаков, но при достаточно большом количестве данных не менее тысячи можно пытаться восстанавливать и данные других типов. Для простоты будем считать, что данные числовые. Рассмотрим работу алгоритма по этапам.

Первый этап. Осуществляется преобразование всех числовых значений признаков к ранговым значениям операция ранжирования. Признаки номинальные и ранговые не преобразуются. При этом номинальные признаки должны иметь небольшое количество значений желательно меньше Иначе номинальные признаки нужно подвергнуть предварительной обработке, приводя их к структурированному виду.

Для этого применяются процедуры обработки качественных данных, описанные в работе [5]. Процедура ранжирования заключается в разбиении значений признака на равные интервалы и замене исходных значений ранговыми номерами интервалов. Количество интервалов г должно быть не очень большим рекомендуется 5 , иначе могут появиться интервалы без значений, что нежелательно но ситуация допустимая.

Ранговые признаки ранжировать нет необходимости, и можно использовать имеющуюся. Далее выборка таблица данных разбивается на две части, которые далее рассматриваются по отдельности.

Второй этап. Пусть признак У имеет к рангов классов. Отсортированная выборка представлена на рис. Классифицированная таблица ранговых значений признаков Третий этап. По данным каждого столбца Xрассчитывается таблицы абсолютных условных частотных рядов признаков по классам. Тогда сумма элементов строк каждой таб-. Нормированные таблицы представлены на рис. Эти частотные ряды представляют собой выборочные условные распределения переменных X при заданных значениях У.

Четвертый этап. Эталон состоит из т частей по количеству признаков X. Макет эталона представлен на рис. Рассмотрим правило расчета элементов эталона. Каждая часть эталона рассчитывается по соответствующей таблице, представленной на рис. Общее количество столбцов во всех таблицах также равна гхт. Соответственно размерность эталона тоже гхт. Для расчета каждого элемента используются данные одного столбца таблицы.

По данным каждого столбца определяется максимальное значение и номер строки номер класса присваивается соответствующему, элементу эталона. Процедуре расчета элементов эталона можно дать геометрическую интерпретацию.

На рис. Все остальные части рассчитываются аналогично. При расчете пятого элемента эталона для примера, приведенного на рис. Неопределенность состоит в том, что максимум достигается сразу в двух строках -. В этом случае предпочтение отдается тому классу строке таблицы условных распределений , в котором количество элементов класса 5С больше. Пятый этап. Формируется вспомогательный вектор выбора А. Подсчитываются рейтинги классов, как количество оценок по каждому классу в векторе оценок классов В;.

На четвертом шаге опять может возникнуть неопределенность. Она возникает, когда максимум рейтинга класса достигается сразу для нескольких классов.

Это заключительный этап. Рассмотренный алгоритм в соответствии с классификацией, представленной на рис. Этот алгоритм относится к классу сложных не в силу сложности расчетов и множества этапов расчета, а в силу того, что при использовании алгоритма при решении конкретной задачи перед исследователем стоит проблема выбора.

Сегодня создано множество методов восстановления пропусков, однако единая методология обработки подобных данных отсутствует, несмотря на ее. ство методов восстановления пропусков);. 3) существенные пропуски данных​, если их веро- методом) и двумя сложными методами (Барлетта и.

В работе предложен метод восстановления многомерных данных, полученных в ходе социально-экономических исследований. Основное преимущество метода заключается в использовании восстанавливающих признаков различной природы, что существенно расширяет диапазон применения метода. Предложены методы оценки качества восстановления, основанные на использовании процедуры скользящего экзамена. Рассмотренный метод реализован программно и прошел апробацию на модельных и реальных данных.

Вычислительная техника": С проблемой обработки пропусков в массивах данных приходится сталкиваться при проведении разнообразных социологических, экономических и статистических исследований [1].

Разработка и исследование новых версий алгоритма zet заполнения пробелов в эмпирических таблицах. Новосибирск — Введение……… ………..

СТАТИСТИЧЕСКИЕ МЕТОДЫ ВОССТАНОВЛЕНИЯ ПРОПУЩЕННЫХ ДАННЫХ

Часто в данных, с которыми необходимо работать, присутствуют пропуски, в результате чего аналитик оказывается перед выбором: игнорировать, отбросить или же заполнить пропущенные значения. Заполнение пропусков зачастую, и вполне обоснованно, кажется более предпочтительным решением. Однако это не всегда так. Неудачный выбор метода заполнения пропусков может не только не улучшить, но и сильно ухудшить результаты. В данной части статьи рассмотрены простые методы обработки пропусков, получившие широкое применение на практике, их преимущества и недостатки. Исключение и игнорирование строк с пропущенными значениями стало решением по умолчанию в некоторых популярных прикладных пакетах, в результате чего у начинающих аналитиков может возникнуть представление, что данное решение — правильное.

Цель работы: ознакомиться с основными алгоритмами заполнения пропущенных значений в эмпирических таблицах данных. Исследовать, программно реализовать и оценить работу алгоритмов многомерной линейной регрессии, среднего арифметического и ЕМ-алгоритма. Изучить и программно реализовать любая среда разработки алгоритмы многомерной линейной регрессии, среднего арифметического и ЕМ-алгоритм. Занести в таблицу табл. Ход работы код программы основные модули , таблицы с результатами экспериментов, оценка качества работы алгоритмов в зависимости от объема пропущенных значений. На какие группы можно разделить алгоритмы заполнения пропущенных значений? Дайте краткую характеристику каждой из них. Охарактеризуйте простую группу алгоритмов заполнения пропусков. Метод k ближайших соседей.

Похожие публикации
Яндекс.Метрика