Отсутствующие значения для данных оракула

Обновлено: 21.11.2024

При запросе куба Essbase с помощью многомерных выражений можно использовать ключевые слова NON EMPTY в начале спецификации оси, чтобы ячейки, не содержащие значений, не включались в результат запроса.

Следующий синтаксис спецификации оси с NON EMPTY:

Например, если хотя бы одно значение в строке не является пустым, возвращается вся строка. Включение NON EMPTY в начало спецификации оси строк исключит следующий фрагмент строки из набора, возвращаемого запросом:

Avg, при котором отсутствующие значения исключаются из средних значений, если вы не используете необязательный флаг IncludeEmpty

Только для агрегированных баз данных хранения функция NonEmptyCount оптимизирована таким образом, что вычисление количества уникальных элементов для всех ячеек может быть выполнено путем сканирования базы данных только один раз. Без этой оптимизации база данных сканируется столько раз, сколько ячеек соответствует количеству различных ячеек. Оптимизация NonEmptyCount запускается, когда формула члена схемы имеет следующий синтаксис:

Параметр exclude_missing поддерживает оптимизацию NonEmptyCount для агрегированных баз данных за счет повышения производительности запроса, который запрашивает метрики, выполняющие вычисление отдельного количества.

Используйте одно предложение свойства NONEMPTYMEMBER в начале вычисляемого элемента или выражения формулы, чтобы указать Essbase, что значение формулы или вычисляемого элемента пусто, когда любой из элементов, указанных в nonempty_member_list, пуст.

Используйте одно предложение свойства NONEMPTYTUPLE в начале вычисляемого элемента или выражения формулы, чтобы указать Essbase, что значение формулы или вычисляемого элемента пусто, когда значение ячейки в кортеже, указанном в nonempty_member_list, пусто.

Для входного набора функция NonEmptySubset MDX возвращает подмножество этого входного набора, в котором все кортежи оцениваются как непустые. Необязательное выражение значения может быть указано для непустой проверки. Эта функция может помочь оптимизировать запросы, основанные на большом наборе, для которого известно, что набор непустых комбинаций мал. NonEmptySubset уменьшает размер набора при наличии метрики; например, вы можете запросить непустое подмножество потомков для определенных Единиц.

Oracle Data Mining различает разреженные данные и данные, содержащие случайные пропущенные значения. Последнее означает, что некоторые значения атрибутов неизвестны. Разреженные данные, с другой стороны, содержат значения, которые считаются известными, хотя они не представлены в данных.

Типичным примером разреженных данных являются данные потребительской корзины. Из сотен или тысяч доступных позиций в отдельном кейсе (корзине или сделке) присутствуют лишь некоторые. Все значения товаров известны, но не все они включены в корзину. Текущие значения имеют количество, а непредставленные элементы являются разреженными (с известным количеством, равным нулю).

Oracle Data Mining интерпретирует отсутствующие данные следующим образом:

Пропущено случайно: пропущенные значения в столбцах с простым типом данных (не вложенные) считаются пропущенными случайным образом.

Разреженность: отсутствие значений во вложенных столбцах указывает на разреженность.

3.6.1 Примеры: пропущенные значения или разреженные данные?

Примеры в этом разделе иллюстрируют, как Oracle Data Mining определяет данные как разреженные или случайно отсутствующие.

3.6.1.1 Разреженность в таблице продаж

Таблица продаж содержит данные о точках продаж для группы продуктов, которые продаются в нескольких магазинах разным покупателям за определенный период времени. Конкретный клиент покупает только несколько продуктов. Продукты, которые клиент не покупает, не отображаются в виде строк в таблице продаж.

Если бы вам нужно было вычислить сумму денег, которую покупатель потратил на каждый продукт, предполагаемая сумма некупленных продуктов равна нулю. Значение не является случайным или неизвестным; он равен нулю, хотя в таблице нет ни одной строки.

Обратите внимание, что данные о продажах имеют размерность (по продуктам, магазинам, покупателям и времени) и часто представляются в виде вложенных данных для анализа.

Поскольку отсутствующие значения во вложенном столбце всегда указывают на разреженность, вы должны убедиться, что эта интерпретация подходит для данных, которые вы хотите исследовать. Например, при попытке извлечь набор данных о случаях с несколькими записями, содержащий рейтинги фильмов от пользователей большой базы данных фильмов, отсутствующие рейтинги неизвестны (отсутствуют случайным образом), но Oracle Data Mining обрабатывает данные как разреженные и делает вывод о рейтинге ноль вместо отсутствующего значения.

3.6.1.2 Отсутствующие значения в таблице данных клиента

Таблица данных о клиентах содержит демографические данные о клиентах. Столбец идентификатора обращения — это идентификатор клиента. Атрибутами являются возраст, образование, профессия, пол, размер домохозяйства и так далее. Не все данные доступны для каждого клиента. Любые отсутствующие значения считаются отсутствующими случайным образом.Например, если в данных нет возраста покупателя 1 и профессии покупателя 2, эта информация просто неизвестна. Это не указывает на разреженность.

Обратите внимание, что данные о клиентах не измеряются. Между случаем и каждым из его атрибутов существует однозначное соответствие. Ни один из атрибутов не является вложенным.

3.6.2 Обработка пропущенных значений в Oracle Data Mining

Обработка пропущенных значений зависит от алгоритма и характера данных (категориальные или числовые, разреженные или случайно отсутствующие). Обработка отсутствующих значений представлена ​​в следующей таблице.

Oracle Data Mining выполняет одну и ту же обработку пропущенных значений независимо от того, используется ли автоматическая подготовка данных.

Таблица 3-3 Обработка пропущенных значений по алгоритму

ЧИСЛОВОЕ пропущено случайным образом

Алгоритм заменяет отсутствующие числовые значения средним значением.

Для максимизации ожидания (EM) замена происходит только в столбцах, смоделированных с помощью распределения Гаусса.

Алгоритм m естественным образом обрабатывает отсутствующие значения как отсутствующие случайным образом.

Алгоритм интерпретирует все отсутствующие данные как разреженные.

КАТЕГОРИЧЕСКАЯ пропущена случайным образом

Обобщенные линейные модели (GLM), неотрицательная матричная факторизация (NMF), k-средние и метод опорных векторов (SVM) заменяют отсутствующие категориальные значения режимом.

Разложение по единственному значению (SVD) не поддерживает категориальные данные.

EM не заменяет отсутствующие категориальные значения. EM обрабатывает значения NULL как отдельные значения со своим частотным счетчиком.

Алгоритм естественным образом обрабатывает отсутствующие значения как отсутствующие случайные.

Алгоритм интерпретирует все отсутствующие данные как разреженные.

Алгоритм заменяет разреженные числовые данные нулями.

O-Cluster не поддерживает вложенные данные и, следовательно, не поддерживает разреженные данные. Дерево решений (DT), Минимальная длина описания (MDL) и Наивный байесовский алгоритм (NB) и замена разреженных числовых данных нулями.

Алгоритм обрабатывает разреженные данные.

Все алгоритмы, кроме SVD, заменяют разреженные категориальные данные нулевыми векторами. SVD не поддерживает категориальные данные.

O-Cluster не поддерживает вложенные данные и, следовательно, не поддерживает разреженные данные. DT, MDL и NB заменяют разреженные категориальные данные специальным значением DM$SPARSE .

Алгоритм обрабатывает разреженные данные.

3.6.3 Изменение обработки отсутствующих значений

Преобразовать отсутствующие данные как разреженные или отсутствующие случайным образом.

Если вы хотите, чтобы Oracle Data Mining рассматривал отсутствующие данные как разреженные, а не как случайные, или как случайные, а не как разреженные, преобразуйте их перед построением модели.

Если вы хотите, чтобы отсутствующие значения рассматривались как разреженные, но Oracle Data Mining интерпретирует их как отсутствующие случайным образом, вы можете использовать функцию SQL, например NVL, для замены пустых значений значением, например "NA". Oracle Data Mining не обрабатывает отсутствующие значения при наличии указанного значения.

Если вы хотите, чтобы отсутствующие вложенные атрибуты рассматривались как отсутствующие случайным образом, вы можете преобразовать вложенные строки в физические атрибуты в отдельных столбцах — до тех пор, пока таблица прецедентов не выходит за ограничение в 1000 столбцов, установленное базой данных. Заполните все возможные имена атрибутов и укажите их как нулевые. Либо вставьте строки во вложенный столбец для всех отсутствующих элементов и назначьте каждому из них значение, например среднее или моду.

Oracle Data Mining различает разреженные данные и данные, содержащие случайные пропущенные значения. Последнее означает, что некоторые значения атрибутов неизвестны. Разреженные данные, с другой стороны, содержат значения, которые считаются известными, хотя они не представлены в данных.

Типичным примером разреженных данных являются данные потребительской корзины. Из сотен или тысяч доступных позиций в отдельном кейсе (корзине или сделке) присутствуют лишь некоторые. Все значения товаров известны, но не все они включены в корзину. Текущие значения имеют количество, а непредставленные элементы являются разреженными (с известным количеством, равным нулю).

Oracle Data Mining интерпретирует отсутствующие данные следующим образом:

Пропущено случайно: пропущенные значения в столбцах с простым типом данных (не вложенные) считаются пропущенными случайным образом.

Разреженность: отсутствие значений во вложенных столбцах указывает на разреженность.

29.6.1 Примеры: пропущенные значения или разреженные данные?

Примеры в этом разделе иллюстрируют, как Oracle Data Mining определяет данные как разреженные или случайно отсутствующие.

29.6.1.1 Разреженность в таблице продаж

Таблица продаж содержит данные о точках продаж для группы продуктов, которые продаются в нескольких магазинах разным покупателям за определенный период времени. Конкретный клиент покупает только несколько продуктов. Продукты, которые клиент не покупает, не отображаются в виде строк в таблице продаж.

Если бы вам нужно было вычислить сумму денег, которую покупатель потратил на каждый продукт, предполагаемая сумма некупленных продуктов равна нулю. Значение не является случайным или неизвестным; он равен нулю, хотя в таблице нет ни одной строки.

Обратите внимание, что данные о продажах имеют размерность (по продуктам, магазинам, покупателям и времени) и часто представляются в виде вложенных данных для анализа.

Поскольку отсутствующие значения во вложенном столбце всегда указывают на разреженность, вы должны убедиться, что эта интерпретация подходит для данных, которые вы хотите исследовать. Например, при попытке извлечь набор данных о случаях с несколькими записями, содержащий рейтинги фильмов от пользователей большой базы данных фильмов, отсутствующие рейтинги неизвестны (отсутствуют случайным образом), но Oracle Data Mining обрабатывает данные как разреженные и делает вывод о рейтинге ноль вместо отсутствующего значения.

29.6.1.2 Отсутствующие значения в таблице данных клиента

Таблица данных о клиентах содержит демографические данные о клиентах. Столбец идентификатора обращения — это идентификатор клиента. Атрибутами являются возраст, образование, профессия, пол, размер домохозяйства и так далее. Не все данные доступны для каждого клиента. Любые отсутствующие значения считаются отсутствующими случайным образом. Например, если в данных нет возраста покупателя 1 и профессии покупателя 2, эта информация просто неизвестна. Это не указывает на разреженность.

Обратите внимание, что данные о клиентах не измеряются. Между случаем и каждым из его атрибутов существует однозначное соответствие. Ни один из атрибутов не является вложенным.

29.6.2 Обработка пропущенных значений в Oracle Data Mining

Обработка пропущенных значений зависит от алгоритма и характера данных (категориальные или числовые, разреженные или случайно отсутствующие). Обработка отсутствующих значений представлена ​​в следующей таблице.

Oracle Data Mining выполняет одну и ту же обработку пропущенных значений независимо от того, используется ли автоматическая подготовка данных.

Таблица 29-3 Обработка пропущенных значений по алгоритму

ЧИСЛОВОЕ пропущено случайным образом

Алгоритм заменяет отсутствующие числовые значения средним значением.

Для максимизации ожидания (EM) замена происходит только в столбцах, смоделированных с помощью распределения Гаусса.

Алгоритм m естественным образом обрабатывает отсутствующие значения как отсутствующие случайным образом.

Алгоритм интерпретирует все отсутствующие данные как разреженные.

КАТЕГОРИЧЕСКАЯ пропущена случайным образом

Обобщенные линейные модели (GLM), неотрицательная матричная факторизация (NMF), k-средние и метод опорных векторов (SVM) заменяют отсутствующие категориальные значения режимом.

Разложение по единственному значению (SVD) не поддерживает категориальные данные.

EM не заменяет отсутствующие категориальные значения. EM обрабатывает значения NULL как отдельные значения со своим частотным счетчиком.

Алгоритм естественным образом обрабатывает отсутствующие значения как отсутствующие случайные.

Алгоритм интерпретирует все отсутствующие данные как разреженные.

Алгоритм заменяет разреженные числовые данные нулями.

O-Cluster не поддерживает вложенные данные и, следовательно, не поддерживает разреженные данные. Дерево решений (DT), Минимальная длина описания (MDL) и Наивный байесовский алгоритм (NB) и замена разреженных числовых данных нулями.

Алгоритм обрабатывает разреженные данные.

Все алгоритмы, кроме SVD, заменяют разреженные категориальные данные нулевыми векторами. SVD не поддерживает категориальные данные.

O-Cluster не поддерживает вложенные данные и, следовательно, не поддерживает разреженные данные. DT, MDL и NB заменяют разреженные категориальные данные специальным значением DM$SPARSE .

Алгоритм обрабатывает разреженные данные.

29.6.3 Изменение обработки отсутствующих значений

Преобразовать отсутствующие данные как разреженные или отсутствующие случайным образом.

Если вы хотите, чтобы Oracle Data Mining рассматривал отсутствующие данные как разреженные, а не как случайные, или как случайные, а не как разреженные, преобразуйте их перед построением модели.

Если вы хотите, чтобы отсутствующие значения рассматривались как разреженные, но Oracle Data Mining интерпретирует их как отсутствующие случайным образом, вы можете использовать функцию SQL, например NVL, для замены пустых значений значением, например "NA". Oracle Data Mining не обрабатывает отсутствующие значения при наличии указанного значения.

Если вы хотите, чтобы отсутствующие вложенные атрибуты рассматривались как отсутствующие случайным образом, вы можете преобразовать вложенные строки в физические атрибуты в отдельных столбцах — до тех пор, пока таблица прецедентов не выходит за ограничение в 1000 столбцов, установленное базой данных. Заполните все возможные имена атрибутов и укажите их как нулевые. Либо вставьте строки во вложенный столбец для всех отсутствующих элементов и назначьте каждому из них значение, например среднее или моду.

Понимание разреженных данных и отсутствующих значений.

Oracle Machine Learning for SQL различает разреженные данные и данные, содержащие случайные пропущенные значения. Последнее означает, что некоторые значения атрибутов неизвестны. Разреженные данные, с другой стороны, содержат значения, которые считаются известными, хотя они не представлены в данных.

Типичным примером разреженных данных являются данные потребительской корзины. Из сотен или тысяч доступных позиций в отдельном кейсе (корзине или сделке) присутствуют лишь некоторые. Все значения товаров известны, но не все они включены в корзину. Текущие значения имеют количество, а непредставленные элементы являются разреженными (с известным количеством, равным нулю).

OML4SQL интерпретирует отсутствующие данные следующим образом:

Пропущено случайно: пропущенные значения в столбцах с простым типом данных (не вложенные) считаются пропущенными случайным образом.

Разреженность: отсутствие значений во вложенных столбцах указывает на разреженность.

3.6.1 Примеры: пропущенные значения или разреженные данные?

Пример отображения разреженных и отсутствующих данных.

Примеры в этом разделе иллюстрируют, как Oracle Machine Learning for SQL идентифицирует данные как разреженные или случайно отсутствующие.

3.6.1.1 Разреженность в таблице продаж

Понять, как Oracle Machine Learning for SQL интерпретирует отсутствующие данные во вложенных столбцах.

Таблица продаж содержит данные о точках продаж для группы продуктов, которые продаются в нескольких магазинах разным покупателям за определенный период времени. Конкретный клиент покупает только несколько продуктов. Продукты, которые клиент не покупает, не отображаются в виде строк в таблице продаж.

Если бы вам нужно было вычислить сумму денег, которую покупатель потратил на каждый продукт, предполагаемая сумма некупленных продуктов равна нулю. Значение не является случайным или неизвестным; он равен нулю, хотя в таблице нет ни одной строки.

Обратите внимание, что данные о продажах измеряются (по продуктам, магазинам, покупателям и времени) и часто представляются в виде вложенных данных для машинного обучения.

Поскольку отсутствующие значения во вложенном столбце всегда указывают на разреженность, вы должны убедиться, что эта интерпретация подходит для данных, которые вы хотите исследовать. Например, при попытке получить набор данных о случаях с несколькими записями, содержащий рейтинги фильмов от пользователей большой базы данных фильмов, отсутствующие рейтинги неизвестны (отсутствуют случайным образом), но Oracle Machine Learning for SQL обрабатывает данные как разреженные и выводит нулевой рейтинг за отсутствующее значение.

3.6.1.2 Отсутствующие значения в таблице данных клиента

Если данные для некоторых атрибутов недоступны, эти отсутствующие значения считаются отсутствующими случайным образом.

Таблица данных о клиентах содержит демографические данные о клиентах. Столбец идентификатора обращения — это идентификатор клиента. Атрибутами являются возраст, образование, профессия, пол, размер домохозяйства и так далее. Не все данные доступны для каждого клиента. Любые отсутствующие значения считаются отсутствующими случайным образом. Например, если возраст покупателя 1 и профессия покупателя 2 отсутствуют в данных, эта информация неизвестна. Это не указывает на разреженность.

Обратите внимание, что данные о клиентах не измеряются. Между случаем и каждым из его атрибутов существует однозначное соответствие. Ни один из атрибутов не является вложенным.

3.6.2 Обработка отсутствующих значений в Oracle Machine Learning for SQL

Обобщает обработку отсутствующих значений в OML4SQL.

Обработка пропущенных значений зависит от алгоритма и характера данных (категориальные или числовые, разреженные или случайно отсутствующие). Обработка отсутствующих значений представлена ​​в следующей таблице.

OML4SQL выполняет одну и ту же обработку пропущенных значений независимо от того, используете ли вы автоматическую подготовку данных (ADP) или нет.

Таблица 3-3 Обработка пропущенных значений по алгоритму

ЧИСЛОВОЕ пропущено случайным образом

Алгоритм заменяет отсутствующие числовые значения средним значением.

Для максимизации ожидания (EM) замена происходит только в столбцах, смоделированных с помощью распределения Гаусса.

Алгоритм естественным образом обрабатывает отсутствующие значения как отсутствующие случайным образом.

Алгоритм интерпретирует все отсутствующие данные как разреженные.

КАТЕГОРИЧЕСКАЯ пропущена случайным образом

Обобщенная линейная модель (GLM), неотрицательная матричная факторизация (NMF), k-средние и метод опорных векторов (SVM) заменяют отсутствующие категориальные значения модой.

Разложение по единственному значению (SVD) не поддерживает категориальные данные.

EM не заменяет отсутствующие категориальные значения. EM обрабатывает значения NULL как отдельные значения со своим частотным счетчиком.

Алгоритм естественным образом обрабатывает отсутствующие значения как отсутствующие случайные.

Алгоритм интерпретирует все отсутствующие данные как разреженные.

Алгоритм заменяет разреженные числовые данные нулями.

O-Cluster не поддерживает вложенные данные и, следовательно, не поддерживает разреженные данные. В дереве решений (DT), минимальной длине описания (MDL) и наивном байесовском методе (NB) разреженные числовые данные заменяются нулями.

Алгоритм обрабатывает разреженные данные.

Все алгоритмы, кроме SVD, заменяют разреженные категориальные данные нулевыми векторами. SVD не поддерживает категориальные данные.

O-Cluster не поддерживает вложенные данные и, следовательно, не поддерживает разреженные данные.DT, MDL и NB заменяют разреженные категориальные данные специальным значением DM$SPARSE .

Алгоритм обрабатывает разреженные данные.

3.6.3 Изменение обработки отсутствующих значений

Преобразовать отсутствующие данные как разреженные или отсутствующие случайным образом.

Если вы хотите, чтобы Oracle Machine Learning for SQL рассматривал отсутствующие данные как разреженные, а не как случайные, или как случайные, а не как разреженные, преобразуйте их перед построением модели.

Если вы хотите, чтобы отсутствующие значения рассматривались как разреженные, но OML4SQL интерпретирует их как отсутствующие случайным образом, вы можете использовать функцию SQL, например NVL, для замены пустых значений значением, например "NA". OML4SQL не обрабатывает отсутствующие значения при наличии указанного значения.

Если вы хотите, чтобы отсутствующие вложенные атрибуты рассматривались как отсутствующие случайным образом, вы можете преобразовать вложенные строки в физические атрибуты в отдельных столбцах — до тех пор, пока таблица прецедентов не выходит за ограничение в 1000 столбцов, установленное базой данных. Заполните все возможные имена атрибутов и укажите их как нулевые. Либо вставьте строки во вложенный столбец для всех отсутствующих элементов и назначьте каждому из них значение, например среднее или моду.

Понимание разреженных данных и отсутствующих значений.

Oracle Machine Learning for SQL различает разреженные данные и данные, содержащие случайные пропущенные значения. Последнее означает, что некоторые значения атрибутов неизвестны. Разреженные данные, с другой стороны, содержат значения, которые считаются известными, хотя они не представлены в данных.

Типичным примером разреженных данных являются данные потребительской корзины. Из сотен или тысяч доступных позиций в отдельном кейсе (корзине или сделке) присутствуют лишь некоторые. Все значения товаров известны, но не все они включены в корзину. Текущие значения имеют количество, а непредставленные элементы являются разреженными (с известным количеством, равным нулю).

OML4SQL интерпретирует отсутствующие данные следующим образом:

Пропущено случайно: пропущенные значения в столбцах с простым типом данных (не вложенные) считаются пропущенными случайным образом.

Разреженность: отсутствие значений во вложенных столбцах указывает на разреженность.

34.6.1 Примеры: пропущенные значения или разреженные данные?

Пример отображения разреженных и отсутствующих данных.

Примеры в этом разделе иллюстрируют, как Oracle Machine Learning for SQL идентифицирует данные как разреженные или случайно отсутствующие.

34.6.1.1 Разреженность в таблице продаж

Понять, как Oracle Machine Learning for SQL интерпретирует отсутствующие данные во вложенных столбцах.

Таблица продаж содержит данные о точках продаж для группы продуктов, которые продаются в нескольких магазинах разным покупателям за определенный период времени. Конкретный клиент покупает только несколько продуктов. Продукты, которые клиент не покупает, не отображаются в виде строк в таблице продаж.

Если бы вам нужно было вычислить сумму денег, которую покупатель потратил на каждый продукт, предполагаемая сумма некупленных продуктов равна нулю. Значение не является случайным или неизвестным; он равен нулю, хотя в таблице нет ни одной строки.

Обратите внимание, что данные о продажах измеряются (по продуктам, магазинам, покупателям и времени) и часто представляются в виде вложенных данных для машинного обучения.

Поскольку отсутствующие значения во вложенном столбце всегда указывают на разреженность, вы должны убедиться, что эта интерпретация подходит для данных, которые вы хотите исследовать. Например, при попытке получить набор данных о случаях с несколькими записями, содержащий рейтинги фильмов от пользователей большой базы данных фильмов, отсутствующие рейтинги неизвестны (отсутствуют случайным образом), но Oracle Machine Learning for SQL обрабатывает данные как разреженные и выводит нулевой рейтинг за отсутствующее значение.

34.6.1.2 Отсутствующие значения в таблице данных клиента

Если данные для некоторых атрибутов недоступны, эти отсутствующие значения считаются отсутствующими случайным образом.

Таблица данных о клиентах содержит демографические данные о клиентах. Столбец идентификатора обращения — это идентификатор клиента. Атрибутами являются возраст, образование, профессия, пол, размер домохозяйства и так далее. Не все данные доступны для каждого клиента. Любые отсутствующие значения считаются отсутствующими случайным образом. Например, если возраст покупателя 1 и профессия покупателя 2 отсутствуют в данных, эта информация неизвестна. Это не указывает на разреженность.

Обратите внимание, что данные о клиентах не измеряются. Между случаем и каждым из его атрибутов существует однозначное соответствие. Ни один из атрибутов не является вложенным.

34.6.2 Обработка отсутствующих значений в Oracle Machine Learning for SQL

Обобщает обработку отсутствующих значений в OML4SQL.

Обработка пропущенных значений зависит от алгоритма и характера данных (категориальные или числовые, разреженные или случайно отсутствующие). Обработка отсутствующих значений представлена ​​в следующей таблице.

OML4SQL выполняет одну и ту же обработку пропущенных значений независимо от того, используете ли вы автоматическую подготовку данных (ADP) или нет.

Таблица 34-3 Обработка пропущенных значений по алгоритму

ЧИСЛОВОЕ пропущено случайным образом

Алгоритм заменяет отсутствующие числовые значения средним значением.

Для максимизации ожидания (EM) замена происходит только в столбцах, смоделированных с помощью распределения Гаусса.

Алгоритм естественным образом обрабатывает отсутствующие значения как отсутствующие случайным образом.

Алгоритм интерпретирует все отсутствующие данные как разреженные.

КАТЕГОРИЧЕСКАЯ пропущена случайным образом

Обобщенная линейная модель (GLM), неотрицательная матричная факторизация (NMF), k-средние и метод опорных векторов (SVM) заменяют отсутствующие категориальные значения модой.

Разложение по единственному значению (SVD) не поддерживает категориальные данные.

EM не заменяет отсутствующие категориальные значения. EM обрабатывает значения NULL как отдельные значения со своим частотным счетчиком.

Алгоритм естественным образом обрабатывает отсутствующие значения как отсутствующие случайные.

Алгоритм интерпретирует все отсутствующие данные как разреженные.

Алгоритм заменяет разреженные числовые данные нулями.

O-Cluster не поддерживает вложенные данные и, следовательно, не поддерживает разреженные данные. В дереве решений (DT), минимальной длине описания (MDL) и наивном байесовском методе (NB) разреженные числовые данные заменяются нулями.

Алгоритм обрабатывает разреженные данные.

Все алгоритмы, кроме SVD, заменяют разреженные категориальные данные нулевыми векторами. SVD не поддерживает категориальные данные.

O-Cluster не поддерживает вложенные данные и, следовательно, не поддерживает разреженные данные. DT, MDL и NB заменяют разреженные категориальные данные специальным значением DM$SPARSE .

Алгоритм обрабатывает разреженные данные.

34.6.3 Изменение обработки отсутствующих значений

Преобразовать отсутствующие данные как разреженные или отсутствующие случайным образом.

Если вы хотите, чтобы Oracle Machine Learning for SQL рассматривал отсутствующие данные как разреженные, а не как случайные, или как случайные, а не как разреженные, преобразуйте их перед построением модели.

Если вы хотите, чтобы отсутствующие значения рассматривались как разреженные, но OML4SQL интерпретирует их как отсутствующие случайным образом, вы можете использовать функцию SQL, например NVL, для замены пустых значений значением, например "NA". OML4SQL не обрабатывает отсутствующие значения при наличии указанного значения.

Если вы хотите, чтобы отсутствующие вложенные атрибуты рассматривались как отсутствующие случайным образом, вы можете преобразовать вложенные строки в физические атрибуты в отдельных столбцах — до тех пор, пока таблица прецедентов не выходит за ограничение в 1000 столбцов, установленное базой данных. Заполните все возможные имена атрибутов и укажите их как нулевые. Либо вставьте строки во вложенный столбец для всех отсутствующих элементов и назначьте каждому из них значение, например среднее или моду.

Читайте также: