Математические модели описания статистических характеристик ошибок в программах

Обновлено: 21.11.2024

Понимание предвзятости и дисперсии, уходящих корнями в статистику, важно для специалистов по данным, занимающихся машинным обучением. Смещение и дисперсия используются в машинном обучении с учителем, в котором алгоритм учится на обучающих данных или выборочном наборе данных известных величин. Правильный баланс смещения и дисперсии жизненно важен для создания алгоритмов машинного обучения, которые обеспечивают точные результаты на основе своих моделей.

Во время разработки все алгоритмы имеют определенный уровень систематической ошибки и дисперсии. Модели могут быть скорректированы для одного или другого, но каждый аспект не может быть сведен к нулю, не вызывая проблем для другого. Именно здесь становится важной концепция компромисса смещения и дисперсии. Специалисты по обработке и анализу данных должны понимать противоречия в модели и найти правильный компромисс, чтобы сделать систематическую ошибку или дисперсию более заметной.

Важность предвзятости и дисперсии

Алгоритмы машинного обучения используют математические или статистические модели с неотъемлемыми ошибками двух категорий: устранимая и неустранимая ошибка. Неустранимая ошибка или присущая неопределенность возникает из-за естественной изменчивости внутри системы. Для сравнения, уменьшаемая ошибка более контролируема и должна быть сведена к минимуму, чтобы обеспечить более высокую точность.

Смещение и дисперсия являются составляющими уменьшаемой ошибки. Для уменьшения ошибок необходимо выбирать модели с соответствующей сложностью и гибкостью, а также подходящие обучающие данные. Специалисты по данным должны хорошо понимать разницу между предвзятостью и дисперсией, чтобы уменьшить количество ошибок и построить точные модели.

Что такое предвзятость?

Смещение, также называемое "ошибкой из-за квадрата смещения", представляет собой величину, на которую прогноз модели отличается от целевого значения по сравнению с данными обучения. Ошибка смещения является результатом упрощения допущений, используемых в модели, чтобы целевые функции было легче аппроксимировать. Смещение может быть введено путем выбора модели. Специалисты по данным проводят повторную выборку, чтобы повторить процесс построения модели и получить среднее значение прогнозируемых значений. Повторная выборка данных — это процесс извлечения новых выборок из набора данных для получения более точных результатов. Существует множество способов повторной выборки данных, в том числе:

  • K-кратная повторная выборка, при которой заданный набор данных разбивается на K-кратное количество разделов или кратностей, где каждая кратность используется в качестве тестового набора.
  • Самозагрузка, которая включает повторную выборку набора данных с заменой.

Повторная выборка может повлиять на систематическую ошибку. Если средние значения прогноза значительно отличаются от истинного значения на основе выборочных данных, модель имеет высокий уровень систематической ошибки.

Каждый алгоритм начинается с определенного уровня смещения, потому что смещение возникает из-за допущений в модели, которые упрощают изучение целевой функции. Высокий уровень смещения может привести к недообучению, которое происходит, когда алгоритм не может уловить соответствующие отношения между функциями и целевыми выходными данными. Модель с высоким смещением обычно включает больше предположений о целевой функции или конечном результате. Модель с низким смещением включает меньше предположений о целевой функции.

Линейный алгоритм часто имеет высокую предвзятость, что способствует быстрому обучению. В линейном регрессионном анализе смещение относится к ошибке, которая возникает при аппроксимации реальной проблемы, которая может быть сложной, гораздо более простой моделью. Хотя линейный алгоритм может внести смещение, он также упрощает понимание их результатов. Чем проще алгоритм, тем большую предвзятость он, вероятно, внес. Напротив, нелинейные алгоритмы часто имеют малое смещение.

Что такое дисперсия?

Дисперсия показывает, насколько изменится оценка целевой функции, если будут использоваться другие обучающие данные. Другими словами, дисперсия описывает, насколько случайная величина отличается от ее ожидаемого значения. Дисперсия основана на одном тренировочном наборе. Дисперсия измеряет несогласованность разных прогнозов с использованием разных обучающих наборов, а не меру общей точности.

Дисперсия может привести к переоснащению, при котором небольшие колебания в обучающей выборке усиливаются. Модель с высокой дисперсией может отражать случайный шум в обучающем наборе данных вместо целевой функции. Модель должна быть в состоянии идентифицировать основные связи между входными данными и переменными вывода.

Модель с низкой дисперсией означает, что выборочные данные близки к предсказанным моделью. Модель с высокой дисперсией приведет к значительным изменениям прогнозов целевой функции.

Алгоритмы машинного обучения с низкой дисперсией включают линейную регрессию, логистическую регрессию и линейный дискриминантный анализ. Те, у кого высокая дисперсия, включают деревья решений, метод опорных векторов и k-ближайших соседей.

Компромисс смещения и дисперсии

Ученые, работающие с данными, создающие алгоритмы машинного обучения, вынуждены принимать решения об уровне систематической ошибки и дисперсии в своих моделях. В конечном счете, компромисс хорошо известен: увеличение систематической ошибки уменьшает дисперсию, а увеличение дисперсии уменьшает систематическую ошибку. Специалисты по данным должны найти правильный баланс.

При построении алгоритма машинного обучения с учителем цель состоит в том, чтобы добиться минимальной систематической ошибки и дисперсии для наиболее точных прогнозов. Специалисты по данным должны делать это, помня о недообучении и переоснащении. Модель с малой дисперсией и большим смещением будет не соответствовать целевому значению, а модель с высокой дисперсией и небольшим смещением будет соответствовать целевому значению больше.

Модель с высокой дисперсией может точно представлять набор данных, но может привести к переподгонке зашумленных или иным образом нерепрезентативных обучающих данных. Для сравнения, модель с высоким смещением может не соответствовать обучающим данным из-за того, что более простая модель не учитывает закономерности в данных.

Проблема компромисса зависит от типа рассматриваемой модели. Линейный алгоритм машинного обучения будет демонстрировать высокое смещение, но низкую дисперсию. С другой стороны, нелинейный алгоритм будет демонстрировать низкое смещение, но высокую дисперсию. Использование линейной модели с нелинейным набором данных внесет в модель смещение. Модель будет недооценивать целевые функции по сравнению с набором обучающих данных. Верно и обратное: если вы используете нелинейную модель для линейного набора данных, нелинейная модель будет соответствовать целевой функции.

Чтобы решить эти проблемы, связанные с поиском компромисса, специалист по обработке и анализу данных должен создать алгоритм обучения, достаточно гибкий для правильного соответствия данным. Однако, если алгоритм имеет слишком большую встроенную гибкость, он может быть слишком линейным и давать результаты с высокой дисперсией для каждого набора обучающих данных.

Определяя компромисс между смещением и дисперсией, специалист по данным будет использовать стандартные показатели машинного обучения, такие как ошибка обучения и ошибка теста, чтобы определить точность модели. Среднеквадратичная ошибка (MSE) может использоваться в модели линейной регрессии с обучающим набором для обучения модели с использованием большой части доступных данных и выступать в качестве тестового набора для анализа точности модели с меньшей выборкой данных. данные. Небольшую часть данных можно зарезервировать для окончательного теста, чтобы оценить ошибки в модели после ее выбора.

Всегда существует противоречие между предвзятостью и расхождением. На самом деле, сложно создать модель с низким уровнем смещения и дисперсии. Целью является модель, которая отражает линейность обучающих данных, но также будет чувствительна к невидимым данным, используемым для прогнозов или оценок. Специалисты по данным должны понимать разницу между предвзятостью и дисперсией, чтобы они могли идти на необходимые компромиссы для построения модели с приемлемо точными результатами.

Общая ошибка

Общая ошибка модели машинного обучения представляет собой сумму ошибки смещения и ошибки дисперсии.

Цель состоит в том, чтобы сбалансировать систематическую ошибку и дисперсию, чтобы модель не занижала и не переполняла данные. По мере увеличения сложности модели дисперсия будет увеличиваться, а систематическая ошибка — уменьшаться. В простой модели, как правило, наблюдается более высокий уровень систематической ошибки и меньшая дисперсия. Чтобы построить точную модель, специалист по данным должен найти баланс между смещением и дисперсией, чтобы модель сводила к минимуму общую ошибку.

Узнайте больше о карьере в науке о данных

Научиться находить компромисс между смещением и дисперсией и понять разницу между смещением и дисперсией — это один из примеров проблем, с которыми сталкиваются специалисты по обработке и анализу данных. Если вас заинтриговали сложности предвзятости и дисперсии, тогда карьера в области науки о данных может вам подойти. Чтобы узнать больше о карьере в науке о данных, изучите ресурсы, доступные на программе Master’s in Data Science.

Лондонский университет

Бакалавриат по науке о данных и бизнес-аналитике онлайн

Большинство статистических инструментов, используемых в этой книге, имеют одну важную особенность: они основаны на той или иной математической модели. Именно потому, что на заднем плане скрывается математическая модель, этот особый вид статистики называется параметрической статистикой. Слово «параметрический» в этом контексте означает, что поведение математической модели зависит от одной или нескольких величин, известных как «параметры».

Мы не собираемся изучать математические детали этих моделей. Однако важно понимать допущения, лежащие в основе статистической модели. Предположения — это аспекты системы, которые мы принимаем как истинные или, по крайней мере, почти истинные. Если наши предположения не являются разумными, мы не можем быть уверены, что результаты нашего анализа (например, статистического теста) будут надежными. Нам всегда нужно оценивать допущения анализа, чтобы определить, доверяем ли мы ему.

В конечном счете, мы хотим приблизительно понять, как модель и ее предположения приводят к определенному статистическому тесту.Мы уже исследовали аспекты этого процесса в последних нескольких главах, такие как вариации выборки, нулевые распределения и p-значения. Размышляя о моделях и их предположениях, мы можем начать связывать эти абстрактные идеи с практической стороной «ведения статистики». Наша цель в этой главе — представить еще несколько понятий, необходимых для установления этих связей.

11.2 Математические модели

Математическая модель – это описание системы с использованием языка и концепций математики. Эта «система» может быть более или менее чем-то, что изучают ученые, — движением планет в солнечных системах, углеродным циклом нашей планеты, изменениями численности и распространения видов, развитием органов или распространением плазмид. придание устойчивости к антибиотикам.

Статистическая модель — по крайней мере, в частотном мире — это тип математической модели, описывающий, как генерируются выборки данных из гипотетической совокупности. Мы собираемся рассмотреть только небольшое подмножество огромного множества статистических моделей, которые люди обычно используют. Концептуально параметрические модели, которые мы используем в этой книге, описывают данные с точки зрения систематического компонента и случайного компонента:

Систематический компонент модели описывает структуру или отношения в данных. Когда люди ссылаются на «модель», это то, что их обычно волнует.

Это лучше всего понять на примере. В дальнейшем мы собираемся пометить отдельные значения в образце \(y_i\) . \(i\) в этой метке индексирует отдельные значения; он принимает значения 1, 2, 3, 4, … и так далее. Мы можем думать о наборе \(y_i\) как о переменной, которая нас интересует.

Самая простая модель, которую мы можем рассмотреть, — это модель, описывающая одну переменную. Модель для этих данных может быть записана: \(y_i = a + \epsilon_i\) . В этой модели:

Систематическая составляющая определяется как \(a\) . Обычно это считается средним значением населения.

Случайный компонент задается \(\epsilon_i\) термином, который описывает, как отдельные значения отклоняются от среднего.

Более сложная модель — это модель, в которой рассматривается взаимосвязь между значениями \(y_i\) и другой переменной. Мы назовем эту вторую переменную \(x_i\) . Модель для этих данных может быть записана как: \(y_i = a + b \times x_i + \epsilon_i\) . В этой модели:

Систематическим компонентом является бит \(a + b \times x_i\). Это просто уравнение прямой линии с точкой пересечения \(a\) и наклоном \(b\) .

Случайный компонент задается \(\epsilon_i\) . Теперь этот термин описывает, как отдельные значения отклоняются от линии.

Эти два описания еще не полностью определили наши примеры моделей. Нам нужно сделать еще одно предположение, чтобы завершить их. Значения \(\epsilon_i\) отличаются от одного наблюдения к другому, потому что они описывают шум в системе. По этой причине \(\epsilon_i\) рассматривается как статистическая переменная, что означает, что нам также необходимо указать ее распределение.

Поэтому в нашем описании до сих пор отсутствовало утверждение о распределении \(\epsilon_i\) — нам нужно формально указать, какие типы значений разрешено принимать и насколько вероятны эти разные значения. являются. В этой книге это предположение о распределении почти всегда одинаково: мы предполагаем, что \(\epsilon_i\) взяты из нормального распределения.

11.3 Нормальное распределение

Большинство людей в тот или иной момент сталкивались с нормальным распределением, даже если в то время они этого не осознавали. Вот гистограмма из 100 000 значений, полученных из нормального распределения:

Рисунок 11.1: Распределение большой выборки нормально распределенной переменной

Это выглядит знакомо? Нормальное распределение иногда называют «распределением Гаусса» или, в просторечии, «колоколообразной кривой». В этой книге у нас нет времени подробно изучать это распределение. Вместо этого мы просто перечислим некоторые ключевые факты о нормальном распределении, относящиеся к статистическим моделям, которые мы будем использовать позже:

Нормальное распределение подходит для числовых переменных, измеряемых по шкале интервалов или отношений. Строго говоря, переменная также должна быть непрерывной, хотя нормальное распределение может обеспечить достойную аппроксимацию для некоторых видов дискретных числовых данных.

Нормальное распределение полностью описывается средним значением (показатель «центральной тенденции») и стандартным отклонением (показатель «разброса»). Если мы знаем эти две величины для определенного нормального распределения, мы знаем все, что нужно знать об этом распределении.

Если переменная имеет нормальное распределение, то около 95% ее значений попадут в интервал шириной 4 стандартных отклонения: верхняя граница равна \(\text + 2 \times \text\) ; нижняя граница равна \(\text - 2 \times \text\) .

Когда мы добавляем или вычитаем две нормально распределенные переменные, чтобы создать новую переменную, результирующая переменная также будет нормально распределена. Точно так же, если мы умножим нормально распределенную на число, чтобы создать новую переменную, результирующая переменная по-прежнему будет иметь нормальное распределение.

Математические свойства нормального распределения хорошо изучены. Это позволило математикам выяснить, как ведет себя выборочное распределение средних и дисперсий, когда базовые переменные распределены нормально. Эти знания лежат в основе многих статистических тестов, которые мы используем в этой книге.

11.3.1 Стандартная ошибка среднего

Давайте рассмотрим простой пример. Мы хотим оценить стандартную ошибку, связанную со средним значением выборки. Если мы рады предположить, что выборка была взята из нормального распределения, то нет необходимости прибегать к дорогостоящим вычислительным методам, таким как бутстрэппинг, чтобы выяснить это.

Существует хорошо известная формула для расчета стандартной ошибки, если мы предполагаем нормальность. Если \(s^2\) — это дисперсия выборки, а \(n\) — размер выборки, стандартная ошибка определяется как:

Вот и все, если мы знаем дисперсию и размер выборки, легко оценить стандартную ошибку ее среднего значения, если мы будем рады предположить, что выборка получена из нормально распределенной переменной 1 .

11.3.2 Распределение t

это часто возникает как следствие так называемой "центральной предельной теоремы" и

многие другие важные распределения так или иначе связаны с нормальным распределением.

Мы не будем беспокоиться о центральной предельной теореме. Однако нам необходимо рассмотреть еще одно распределение. Одним из наиболее важных из этих «других распределений» является t-распределение Стьюдента 2 .

Это распределение возникает всякий раз, когда…

мы берем выборку из нормально распределенной переменной,

оценить среднее значение генеральной совокупности по выборке,

а затем разделить среднее значение на его стандартную ошибку (т. е. вычислить: среднее / стандартное отклонение).

Выборочное распределение этой новой величины имеет особую форму. Оно соответствует t-распределению Стьюдента.

Студенческое t-распределение все время возникает по отношению к средствам. Например, что произойдет, если мы возьмем образцы из пары нормальных распределений, вычислим разницу между их оценочными средними значениями, а затем разделим эту разницу на ее стандартную ошибку? Выборочное распределение масштабированной разницы между средними значениями также соответствует t-распределению Стьюдента.

Поскольку среднее значение масштабируется по стандартной ошибке, форма t-распределения зависит только от одного: размера выборки. Это может показаться не очень важным результатом, но это действительно так, потому что он позволяет нам построить простые статистические тесты для оценки различий между средними значениями. Мы будем полагаться на этот результат в следующих двух главах, когда будем изучать так называемые t-тесты.

На самом деле, уравнение для стандартной ошибки среднего значения применяется, когда у нас есть большая выборка, даже если эта выборка не была получена из нормально распределенной переменной. Этот результат является следствием «центральной предельной теоремы», упомянутой в этой главе.↩︎

Адам Хейс, доктор философии, CFA, финансовый писатель с более чем 15-летним опытом торговли деривативами на Уолл-Стрит. Помимо своего обширного опыта торговли деривативами, Адам является экспертом в области экономики и поведенческих финансов. Адам получил степень магистра экономики в Новой школе социальных исследований и докторскую степень. из Университета Висконсин-Мэдисон по социологии. Он является обладателем сертификата CFA, а также лицензий FINRA Series 7, 55 и 63. В настоящее время он занимается исследованиями и преподает экономическую социологию и социальные исследования финансов в Еврейском университете в Иерусалиме.

Пегги Джеймс – дипломированный бухгалтер с более чем 9-летним опытом работы в сфере бухгалтерского учета и финансов, в том числе в сфере корпоративных, некоммерческих и личных финансов. В последнее время она работала в Университете Дьюка и является владельцем Peggy James, CPA, PLLC, обслуживающей малый бизнес, некоммерческие организации, индивидуальных предпринимателей, фрилансеров и частных лиц.

Сюзанна – исследователь, писатель и специалист по проверке фактов. Она имеет степень бакалавра финансов в государственном университете Бриджуотер и работала над печатным контентом для владельцев бизнеса, национальных брендов и крупных изданий.

Что такое термин ошибки?

Погрешность — это остаточная переменная, созданная статистической или математической моделью, которая создается, когда модель не полностью отражает фактическую связь между независимыми переменными и зависимыми переменными.В результате этой неполной взаимосвязи погрешность представляет собой величину, на которую уравнение может отличаться во время эмпирического анализа.

Погрешность также называется остатком, помехой или остатком и по-разному представляется в моделях буквами e, ε или u.

Ключевые выводы

  • Погрешность появляется в статистической модели, например в регрессионной модели, для обозначения неопределенности модели.
  • Погрешность – это остаточная переменная, объясняющая отсутствие идеального соответствия.
  • Гетероскедастичность означает состояние, при котором дисперсия остаточного члена или ошибочного члена в регрессионной модели сильно различается.

Понятие об ошибке

Погрешность представляет собой предел погрешности в статистической модели; это относится к сумме отклонений в пределах линии регрессии, которая объясняет разницу между теоретической ценностью модели и фактическими наблюдаемыми результатами. Линия регрессии используется в качестве точки анализа при попытке определить корреляцию между одной независимой переменной и одной зависимой переменной.

Ошибка использования термина в формуле

Ошибка по существу означает, что модель не совсем точна и приводит к различным результатам в реальных приложениях. Например, предположим, что существует функция множественной линейной регрессии, которая принимает следующую форму:

Если фактический Y отличается от ожидаемого или предсказанного Y в модели во время эмпирического тестирования, тогда член ошибки не равен 0, что означает, что есть другие факторы, влияющие на Y.

О чем нам говорят термины с ошибками?

В модели линейной регрессии, отслеживающей изменение цены акции во времени, погрешность представляет собой разницу между ожидаемой ценой в определенный момент времени и ценой, которая была фактически наблюдаемой. В случаях, когда цена точно соответствует ожидаемой в определенный момент времени, цена упадет на линию тренда, а погрешность будет равна нулю.

Точки, которые не попадают непосредственно на линию тренда, демонстрируют тот факт, что на зависимую переменную, в данном случае на цену, влияет не только независимая переменная, отражающая течение времени. Погрешность обозначает любое влияние, оказываемое на ценовую переменную, например, изменения рыночных настроений.

Две точки данных с наибольшим расстоянием от линии тренда должны находиться на одинаковом расстоянии от линии тренда, что представляет наибольшую погрешность.

Если модель является гетероскедастичной, что является распространенной проблемой при правильной интерпретации статистических моделей, это относится к состоянию, при котором дисперсия члена ошибки в регрессионной модели сильно различается.

Линейная регрессия, термин ошибки и биржевой анализ

Линейная регрессия – это форма анализа, связанная с текущими тенденциями, наблюдаемыми в отношении конкретной ценной бумаги или индекса, путем определения взаимосвязи между зависимой и независимой переменными, такими как цена ценной бумаги и течение времени, в результате чего формируется тенденция. линия, которую можно использовать в качестве прогностической модели.

Линейная регрессия демонстрирует меньшую задержку, чем при использовании скользящего среднего, поскольку линия соответствует точкам данных, а не основана на средних значениях данных. Это позволяет линии изменяться быстрее и значительно, чем линия, основанная на численном усреднении доступных точек данных.

Разница между условиями ошибки и остатками

Хотя термин "ошибка" и "остаток" часто используются как синонимы, существует важное формальное различие. Член ошибки, как правило, ненаблюдаем, а остаток можно наблюдать и вычислить, что значительно упрощает количественную оценку и визуализацию. По сути, в то время как погрешность представляет собой то, как наблюдаемые данные отличаются от фактической совокупности, остаток представляет собой то, как наблюдаемые данные отличаются от выборочных данных генеральной совокупности.

Это исследование включает в себя текущую разработку методов, полезных в нескольких довольно распространенных приложениях, включая данные о редких событиях, небольшие размеры выборки, агрегированные и смешанные распределения. Недавние примеры включают разработку и исследование основанных на геометрии методов управления статистическими процессами, использование альтернативных моделей дискретной вероятности, экономическую оптимизацию диаграмм, влияние агрегирования данных на производительность методов SPC атрибутов, методы с поправкой на риск для неоднородных событий, и разработка исследовательского кода для контрольных карт запуска. В смежных исследованиях были разработаны модели теоретической вероятности с использованием сложных, кластерных и смешанных распределений для различных физических явлений, встречающихся в различных приложениях, таких как полупроводниковые интегральные схемы и неоднородные хирургические пациенты. Для облегчения построения и изучения этих методов было разработано несколько фрагментов кода исследовательского уровня. Веб-программы Java также были разработаны для исследования оптимального дизайна g-диаграммы.

Методы статистического контроля качества для проблем систем здравоохранения (NSF)

В рамках этого исследования разрабатываются и оцениваются новые методы статистического контроля качества нежелательных явлений, связанных со здоровьем, таких как ошибки при приеме лекарств и лабораторных анализов, внутрибольничные инфекции, травмы от укола иглой и т. д. Разрабатываются новые методы мониторинга редких событий, основанные на обратной биномиальной выборке и смеси неидентичных распределений, для включения логистической регрессии и других подходов в общую структуру поправки на риск и для учета агрегации неоднородных пациентов. Численные программы и алгоритм поиска оптимизации разрабатываются для исследования статистической эффективности этих методов и определения их оптимальных экономических и статистико-экономических планов. Выявляются условия, при которых эти результаты дают лучшие результаты, чем при использовании традиционных методов эпиднадзора, и разрабатываются рекомендации по дизайну и отбору. Преимущества этого исследования приведут к совершенствованию методов эпиднадзора для контроля и сокращения возникновения предотвратимых неблагоприятных событий в области здравоохранения, которые, по оценкам, приводят к травмам от 770 000 до 2 миллионов пациентов, к смерти от 45 000 до 98 000 и к расходам в размере 8,8 млрд долларов США ежегодно по всей стране. Разработанные методы проходят эмпирическую проверку с использованием больших баз данных в нескольких академических больницах в США и за рубежом. Результаты также помогут решить аналогичные проблемы контроля качества в высокодоходном производстве и других отраслях.

Геометрические статистические методы контроля качества

В этом исследовании изучаются подходы к контролю качества для процессов с низким уровнем брака, таких как высокодоходные производственные системы и неблагоприятные события в области здравоохранения, с особым акцентом на событиях между контрольными диаграммами g и h, основанными на обратной выборке из геометрического и отрицательного биномиального распределений. Было показано, что несколько интересных свойств и модификаций дизайна этих новых диаграмм значительно улучшают статистические рабочие характеристики по сравнению с обычными методами, особенно для нечастых событий и низкого уровня дефектов. Исследовательский код был разработан для анализа производительности диаграммы, определения оптимального дизайна диаграммы по нескольким критериям и сравнения результатов с другими подходами. Важные медицинские применения включают внутрибольничные инфекции, осложнения после операции на сердце, инфекции, связанные с катетером, инфекции в области хирургического вмешательства, контаминированные уколы иглой и другие исходы, вызванные внутрибольничным кровотечением.

Планирование экспериментов (DOE)

Недавняя работа в этой области включает исследование статистической эффективности альтернативных методов обнаружения эффектов дисперсии в повторяющихся факторных промышленных экспериментах и ​​подходов математического программирования к одновременной оптимизации средних значений отклика и дисперсии в запланированных экспериментах. Результаты применялись в различных проектах по производству печатных плат, порошковых металлов и полупроводников.

Оптимизация нескольких ответов

Постоянная работа над методами оптимизации процесса с множественными откликами, особенно в контексте разработанных экспериментов, включая нелинейное математическое программирование, подходы с использованием функции желательности и многомерные функции потерь. Эта работа привела к разработке нескольких новых функций вероятности потерь, которые затем используются в процедурах оптимизации и для получения дисперсий и высших моментов стандартных квадратичных функций потерь.

Математические модели процессов производства металлических порошков

Производство деталей методом порошковой металлургии (P/M) становится распространенным производственным процессом, используемым для изготовления деталей, близких к заданной форме, требующих точного контроля над их микроструктурой. Вместо того, чтобы разжижать и отливать сырье, P/M перерабатывает порошковый металл в желаемые детали, предлагая альтернативу литью титана и других металлических сплавов, которые являются абразивными в расплавленном состоянии. Это исследование включает в себя разработку системы сбора данных для процесса изготовления металлического порошка и проведение статистического анализа влияния различных производственных параметров на выход и качество. Эти результаты можно использовать для управления производством, статистического описания процессов производства P/M и просеивания, а также для оптимизации выхода. Первоначальный план экспериментов позволил разработать модели полиномиального предсказания первого и второго порядка среднего размера частиц и стандартного отклонения при различных условиях эксплуатации (в первую очередь, скорости вращения и силе тока). Хотя простые линейные модели были довольно точными тестами на кривизну, они указывают на то, что с помощью моделей более высокого порядка возможны скромные улучшения.

Безопасность сотрудников и пациентов в зонах повышенной опасности

В настоящее время проводятся исследования по применению методов проектирования и оценки качества для изучения безопасности сотрудников и пациентов.Методы SPC разрабатываются для приложений безопасности, в которых возникновение редких событий не связано с одним однородным процессом. Методы охвата данных и оценки стохастической границы используются для изучения производства безопасности сотрудников и пациентов в разрезе отраслей высоких технологий и здравоохранения.

Ошибка проверки

Исследования ошибок визуального контроля в различных отраслях, включая производство, управление, финансы, здравоохранение и другие. Эта работа включала разработку и применение вероятностных моделей, экономических моделей и методов оптимизации для максимального повышения качества исходящего продукта при минимальных общих затратах. Результаты включают статистические и экономические модели планов приемочного контроля, использование нескольких 100% (несовершенных) проверок и создание соответствующих моделей минимальной стоимости. Распространение подобных проблем, возникающих в здравоохранении, включает ошибки скрининга рака шейки матки и груди, ошибки лабораторной диагностики, ошибки приема лекарств и другие.

Модели онкологического и клинического лабораторного скрининга

Это исследование посвящено общей чувствительности, специфичности и стоимости лабораторных процессов для скрининга мазков Папаниколау на ранние признаки рака шейки матки или его предшественников с особым акцентом на политику, требуемую Законом о внесении поправок в клинические лаборатории (CLIA). . Были разработаны математические и экономические модели, которые доказывают, что ХЛИА никогда не бывает оптимальным по каким-либо критериям и всегда увеличивает общие затраты, общая чувствительность при ХЛИА никогда не может быть улучшена сверх определенных математических пределов, никакое количество частичных скринингов никогда не является оптимальным, и многократные оценки каждого мазка в некоторых случаях является оптимальным. Предлагаемое использование автоматизированной технологии повторного скрининга, недавно одобренной FDA, также может значительно увеличить общие затраты без существенного повышения чувствительности, несмотря на широко распространенную рекламу производителей, направленную на обратное.

Анализ пограничной оценки

Существующие и новые методы оценки границ используются в двух отдельных исследованиях для изучения эффективности производства качества здравоохранения и производства безопасности, включая использование анализа охвата данных и стохастической оценки границ. Эта работа включает в себя анализ нескольких крупномасштабных наборов данных о здравоохранении в США, введение математической статистики в методы анализа охвата данных и сравнение существующих и новых методов для определения подходящей стратификации всех подразделений, принимающих решения, в равных наборах производительности.

Северо-восточный университет · 360 Huntington Ave., Boston, Massachusetts 02115 · 617.373.5662

Читайте также: