Ярлык отличается от реальных файлов тем, что

Обновлено: 21.11.2024

В этой статье мы рассмотрим основы двух подходов к науке о данных: контролируемого и неконтролируемого. Узнайте, какой подход подходит для вашей ситуации.

Мир становится «умнее» с каждым днем, и, чтобы не отставать от ожиданий потребителей, компании все чаще используют алгоритмы машинного обучения, чтобы упростить жизнь. Вы можете увидеть, как они используются на устройствах конечных пользователей (благодаря распознаванию лиц для разблокировки смартфонов) или для обнаружения мошенничества с кредитными картами (например, срабатывание предупреждений о необычных покупках).

В искусственном интеллекте (ИИ) и машинном обучении есть два основных подхода: обучение с учителем и обучение без учителя. Основное отличие состоит в том, что один использует помеченные данные, чтобы помочь предсказать результаты, а другой — нет. Однако между этими двумя подходами есть некоторые нюансы и ключевые области, в которых один превосходит другой. В этом посте будут разъяснены различия, чтобы вы могли выбрать лучший подход для своей ситуации.

Что такое контролируемое обучение?

Обучение с учителем – это подход к машинному обучению, который определяется использованием помеченных наборов данных. Эти наборы данных предназначены для обучения или «контроля» алгоритмов в отношении классификации данных или точного прогнозирования результатов. Используя помеченные входные и выходные данные, модель может измерять свою точность и обучаться с течением времени.

При интеллектуальном анализе данных контролируемое обучение можно разделить на два типа задач: классификация и регрессия:

  • В задачах классификации используется алгоритм для точного распределения тестовых данных по определенным категориям, например, при отделении яблок от апельсинов. Или, в реальном мире, алгоритмы обучения с учителем можно использовать для классификации спама в отдельной папке из вашего почтового ящика. Линейные классификаторы, машины опорных векторов, деревья решений и случайный лес — все это распространенные типы алгоритмов классификации.
  • Регрессия — это еще один тип контролируемого обучения, в котором используется алгоритм для понимания взаимосвязи между зависимыми и независимыми переменными. Модели регрессии полезны для прогнозирования числовых значений на основе различных точек данных, таких как прогнозы доходов от продаж для данного бизнеса. Некоторыми популярными алгоритмами регрессии являются линейная регрессия, логистическая регрессия и полиномиальная регрессия.

Что такое обучение без учителя?

При обучении без учителя используются алгоритмы машинного обучения для анализа и кластеризации неразмеченных наборов данных. Эти алгоритмы обнаруживают скрытые закономерности в данных без вмешательства человека (поэтому они «неконтролируемы»).

Модели обучения без учителя используются для трех основных задач: кластеризации, ассоциации и уменьшения размерности:

  • Кластеризация – это метод интеллектуального анализа данных для группировки непомеченных данных на основе их сходства или различия. Например, алгоритмы кластеризации K-средних распределяют сходные точки данных по группам, где значение K представляет размер группировки и степень детализации. Этот метод полезен для сегментации рынка, сжатия изображений и т. д.
  • Ассоциация — это еще один тип метода обучения без учителя, в котором используются разные правила для поиска взаимосвязей между переменными в заданном наборе данных. Эти методы часто используются для анализа потребительской корзины и получения рекомендаций по аналогии с рекомендациями "Клиенты, которые купили этот товар, также купили".
  • Уменьшение размерности – это метод обучения, который используется, когда количество признаков (или измерений) в заданном наборе данных слишком велико. Это уменьшает количество входных данных до управляемого размера, сохраняя при этом целостность данных. Часто этот метод используется на этапе предварительной обработки данных, например, когда автоэнкодеры удаляют шум из визуальных данных для улучшения качества изображения.

Основное различие между контролируемым и неконтролируемым обучением: помеченные данные

Основное различие между этими двумя подходами заключается в использовании помеченных наборов данных. Проще говоря, контролируемое обучение использует помеченные входные и выходные данные, а неконтролируемое обучение — нет.

При обучении с учителем алгоритм «обучается» на обучающем наборе данных, итеративно делая прогнозы на основе данных и корректируя правильный ответ. Хотя модели обучения с учителем, как правило, более точны, чем модели обучения без учителя, они требуют предварительного вмешательства человека для надлежащей маркировки данных. Например, модель контролируемого обучения может предсказать, как долго вы будете добираться до работы, в зависимости от времени суток, погодных условий и т. д. Но сначала вам нужно научить его понимать, что в дождливую погоду время в пути увеличивается.

Модели неконтролируемого обучения, напротив, работают самостоятельно, чтобы обнаружить внутреннюю структуру неразмеченных данных. Обратите внимание, что они по-прежнему требуют некоторого вмешательства человека для проверки выходных переменных.Например, модель неконтролируемого обучения может определить, что онлайн-покупатели часто покупают группы товаров одновременно. Однако аналитик данных должен убедиться, что система рекомендаций имеет смысл группировать детскую одежду с заказом подгузников, яблочного пюре и стаканчиков-непроливаек.

Другие ключевые различия между контролируемым и неконтролируемым обучением

  • Цели. Целью контролируемого обучения является прогнозирование результатов для новых данных. Вы заранее знаете, каких результатов ожидать. Целью алгоритма обучения без учителя является получение информации из больших объемов новых данных. Само машинное обучение определяет, что отличается или интересно в наборе данных.
  • Применения. Модели обучения с учителем идеально подходят для обнаружения спама, анализа настроений, прогнозирования погоды и ценообразования, среди прочего. Напротив, неконтролируемое обучение отлично подходит для обнаружения аномалий, механизмов рекомендаций, портретов клиентов и медицинских изображений.
  • Сложность. Обучение с учителем – это простой метод машинного обучения, обычно вычисляемый с помощью таких программ, как R или Python. В неконтролируемом обучении вам нужны мощные инструменты для работы с большими объемами неклассифицированных данных. Модели неконтролируемого обучения сложны в вычислительном отношении, поскольку для получения ожидаемых результатов им требуется большой обучающий набор.
  • Недостатки. Обучение моделей контролируемого обучения может занимать много времени, а метки для входных и выходных переменных требуют опыта. В то же время неконтролируемые методы обучения могут давать совершенно неточные результаты, если только вам не требуется вмешательство человека для проверки выходных переменных.

Контролируемое и неконтролируемое обучение: что лучше для вас?

Выбор правильного подхода для вашей ситуации зависит от того, как ваши специалисты по данным оценивают структуру и объем ваших данных, а также вариант использования. Чтобы принять решение, обязательно сделайте следующее:

  • Оцените входные данные: помечены они или нет? Есть ли у вас специалисты, которые могут поддержать дополнительную маркировку?
  • Определите свои цели. Есть ли у вас повторяющаяся, четко определенная проблема, которую нужно решить? Или алгоритм должен будет предсказывать новые проблемы?
  • Рассмотрите варианты алгоритмов. Имеются ли алгоритмы нужной вам размерности (количество функций, атрибутов или характеристик)? Могут ли они поддерживать объем и структуру ваших данных?

Классификация больших данных может оказаться сложной задачей при контролируемом обучении, но результаты очень точны и заслуживают доверия. Напротив, неконтролируемое обучение может обрабатывать большие объемы данных в режиме реального времени. Но отсутствует прозрачность в отношении того, как данные кластеризуются, и повышается риск получения неточных результатов. Вот тут-то и пригодится полуконтролируемое обучение.

Обучение с частичным учителем: лучшее из двух миров

Не можете решить, использовать ли обучение с учителем или без учителя? Полууправляемое обучение — это золотая середина, когда вы используете обучающий набор данных как с помеченными, так и с немаркированными данными. Это особенно полезно, когда сложно извлечь из данных важные функции и когда у вас большой объем данных.

Полуконтролируемое обучение идеально подходит для медицинских изображений, где небольшой объем обучающих данных может привести к значительному повышению точности. Например, врач-рентгенолог может пометить небольшой набор КТ-снимков опухолью или заболеванием, чтобы машина могла более точно прогнозировать, какие пациенты могут нуждаться в дополнительной медицинской помощи.

Подробнее об обучении с учителем и без учителя

Модели машинного обучения — это эффективный способ получить ценную информацию, которая сделает наш мир лучше. Чтобы узнать больше о конкретных алгоритмах, используемых при обучении с учителем и без учителя, мы рекомендуем вам ознакомиться со статьями Learn Hub, посвященными этим методам. Мы также рекомендуем ознакомиться с записью в блоге, которая идет дальше и подробно описывает глубокое обучение и нейронные сети.

Чтобы узнать больше о том, как создавать модели машинного обучения, изучите бесплатные учебные пособия в IBM Developer Hub.

Вы можете применять метки хранения к файлам в SharePoint и OneDrive по отдельности или вместе.

Ярлыки, которые вы видите, настроены вашей организацией. Если у вас есть вопросы о том, какой ярлык применить, обратитесь в службу поддержки или в ИТ-отдел.

Применить метку хранения к элементу

В OneDrive или библиотеке SharePoint можно пометить практически любой файл — документ Office, созданный в Word, PowerPoint, Excel и т. д., или даже файл OneNote. вы также можете пометить файлы, не относящиеся к Office, такие как PDF.)

В библиотеке вы также можете пометить папку. Когда вы помечаете папку, эта метка хранения применяется ко всем файлам в этой папке.

В списке SharePoint можно помечать некоторые типы элементов.

Применить метку в OneDrive или SharePoint

Выберите элемент.

В правом верхнем углу выберите Открыть панель сведений

В разделе "Применить метку" выберите "Выбрать метку", чтобы открыть список параметров.

Выберите соответствующую метку хранения для вашего документа. (Чтобы узнать о различиях между ярлыками, вы можете указать на каждый из них, чтобы увидеть его описание и срок хранения.)

Если появится опция «Сохранить», выберите ее.

Установить метку хранения по умолчанию для библиотеки документов SharePoint

Откройте библиотеку документов.

В правом верхнем углу окна выберите значок настроек

Выберите настройки библиотеки.

На странице настроек в разделе "Разрешения и управление" выберите "Применить метку к элементам в этом списке или библиотеке".

На странице "Применить метку" выберите раскрывающийся список, а затем выберите метку, которую хотите применить.

Выбранная вами метка будет автоматически применяться ко всем новым файлам, добавляемым в библиотеку документов, начиная с этого момента.

Необязательно: чтобы автоматически применить метку ко всем файлам, находящимся в настоящее время в библиотеке документов, выберите Применить метку к существующим элементам в библиотеке.

Выберите Сохранить.

Примечание. Метки хранения могут быть перезаписаны на уровне файла. Другими словами, после того как вы установили метку по умолчанию для библиотеки, вы все равно можете при необходимости назначить альтернативную метку отдельному элементу или элементам в библиотеке.

Создайте представление, содержащее метки хранения

В SharePoint (и Teams), но не в OneDrive, вы можете создать представление библиотеки, содержащее столбец «Ярлыки» или столбец «Элемент — запись». Это представление позволяет сразу увидеть метки хранения, назначенные всем элементам, и какие элементы являются записями. Однако обратите внимание, что вы не можете фильтровать представление по столбцу Item is a Record. Вот как создать такое представление.

Для начала сделайте видимым столбец Retention Label:

На панели "Редактировать столбцы представления" установите флажок "Метка хранения".

По завершении нажмите Применить.

При желании вы можете сохранить представление для быстрого доступа в дальнейшем:

В правом конце панели команд выберите Параметры просмотра > Сохранить вид как:

Назначьте имя представлению.

Укажите, хотите ли вы, чтобы представление было общедоступным, чтобы его могли видеть другие пользователи.

Выберите Сохранить.

Некоторые действия не разрешены для помеченных элементов

Если у элемента есть метка хранения, некоторые действия не допускаются — в зависимости от настроек, выбранных вашим администратором.

Если вы видите в SharePoint сообщение о том, что вы не можете изменить помеченный элемент, это значит, что он помечен как запись . Возможно, вы сможете редактировать этот элемент, если сначала разблокируете его. Инструкции см. в следующем разделе.

Разблокировать запись

Некоторые метки хранения позволяют «блокировать» элемент, поскольку это запись, которую необходимо сохранить . Это предотвращает, например, удаление элемента. Для таких вещей, как контракты, это важная мера учета. Однако вы можете разблокировать элементы, чтобы их можно было изменить или обновить в новой версии.

Примечание. Возможность разблокировать элемент определяется настройками, находящимися под контролем администраторов, в том числе конфигурацией метки, конфигурацией сайта, а также наличием у вас разрешений на участие.

В библиотеке или списке выберите элемент, который хотите разблокировать.

В правом верхнем углу окна выберите Открыть панель сведений

На панели сведений в разделе Статус записи выберите Заблокировано.

Рядом с названием параметра появляется переключатель. Нажмите на переключатель, чтобы переключиться с «Заблокировано» на «Разблокировано».

После разблокировки элемента его можно редактировать. Когда вы закончите редактирование, вы также можете снова заблокировать элемент, выполнив описанные выше действия и изменив статус записи на Заблокировано.

В машинном обучении маркировка данных – это процесс идентификации необработанных данных (изображений, текстовых файлов, видео и т. д.) и добавления одной или нескольких значимых и информативных меток для обеспечения контекста, чтобы модель машинного обучения могла извлечь из них уроки. Например, метки могут указывать, есть ли на фотографии птица или автомобиль, какие слова были произнесены в аудиозаписи, или есть ли на рентгеновском снимке опухоль. Маркировка данных требуется для различных вариантов использования, включая компьютерное зрение, обработку естественного языка и распознавание речи.

Сегодня в большинстве практичных моделей машинного обучения используется обучение с учителем, которое применяет алгоритм для сопоставления одного входа с одним выходом. Чтобы обучение с учителем работало, вам нужен размеченный набор данных, из которых модель может извлечь уроки для принятия правильных решений. Маркировка данных обычно начинается с того, что людей просят вынести суждения о данном фрагменте немаркированных данных. Например, маркировщиков могут попросить пометить все изображения в наборе данных, где верно «есть ли на фотографии птица». Маркировка может быть грубой, например, простым ответом «да/нет», или детальной, например определением конкретных пикселей на изображении, связанных с птицей. Модель машинного обучения использует предоставленные человеком метки для изучения базовых шаблонов в процессе, называемом «обучение модели». В результате получается обученная модель, которую можно использовать для прогнозирования новых данных.

В машинном обучении правильно помеченный набор данных, который вы используете в качестве объективного стандарта для обучения и оценки данной модели, часто называют «наземной истиной». Точность вашей обученной модели будет зависеть от точности вашей наземной истины, поэтому очень важно тратить время и ресурсы на обеспечение высокоточной маркировки данных.

Компьютерное зрение: при создании системы компьютерного зрения вам сначала нужно пометить изображения, пиксели или ключевые точки или создать границу, которая полностью окружает цифровое изображение, известную как ограничивающая рамка, для создания набора обучающих данных. Например, вы можете классифицировать изображения по типу качества (например, изображения продуктов и образа жизни) или содержанию (что на самом деле содержится в самом изображении), или вы можете сегментировать изображение на уровне пикселей. Затем вы можете использовать эти обучающие данные для создания модели компьютерного зрения, которую можно использовать для автоматической классификации изображений, определения местоположения объектов, определения ключевых точек на изображении или его сегментации.

Обработка естественного языка. Для обработки естественного языка необходимо сначала вручную определить важные разделы текста или пометить текст специальными метками, чтобы создать набор обучающих данных. Например, вам может понадобиться определить настроение или намерение текстовой заметки, идентифицировать части речи, классифицировать имена собственные, такие как места и люди, а также идентифицировать текст в изображениях, PDF-файлах или других файлах. Для этого вы можете нарисовать ограничивающие рамки вокруг текста, а затем вручную расшифровать текст в своем наборе обучающих данных. Модели обработки естественного языка используются для анализа настроений, распознавания имен сущностей и оптического распознавания символов.

Обработка звука. Обработка звука преобразует все виды звуков, например речь, шумы диких животных (лай, свист или чириканье) и звуки зданий (бьющееся стекло, сканирование или сигналы тревоги), в структурированный формат, который можно использовать в машинное обучение. Обработка аудио часто требует, чтобы вы сначала вручную транскрибировали его в письменный текст. Оттуда вы можете раскрыть более подробную информацию об аудио, добавив теги и классифицируя аудио. Этот классифицированный звук становится вашим набором обучающих данных.

Существует множество методов повышения эффективности и точности маркировки данных. Некоторые из этих методов включают:

  • Интуитивно понятный и оптимизированный интерфейс задач помогает свести к минимуму когнитивную нагрузку и переключение контекста для людей, которые наносят ярлыки.
  • Консенсус маркировщиков, помогающий противодействовать ошибкам/предвзятости отдельных аннотаторов. Консенсус лейблеров включает в себя отправку каждого объекта набора данных нескольким аннотаторам, а затем объединение их ответов (называемых «аннотациями») в единую метку.
  • Аудит меток для проверки точности меток и их обновления по мере необходимости.
  • Активное обучение для повышения эффективности маркировки данных за счет использования машинного обучения для выявления наиболее полезных данных, которые должны быть помечены людьми.

Успешные модели машинного обучения строятся на основе больших объемов высококачественных обучающих данных. Но процесс создания обучающих данных, необходимых для построения этих моделей, часто бывает дорогим, сложным и требует много времени. Большинство моделей, созданных сегодня, требуют, чтобы человек вручную маркировал данные таким образом, чтобы модель научилась принимать правильные решения. Чтобы решить эту проблему, можно повысить эффективность маркировки, используя модель машинного обучения для автоматической маркировки данных.

В этом процессе модель машинного обучения для маркировки данных сначала обучается на подмножестве необработанных данных, которые были помечены людьми. Если модель маркировки имеет высокую степень уверенности в своих результатах на основе того, что она уже узнала, она автоматически применяет метки к необработанным данным. Там, где модель маркировки имеет меньшую уверенность в своих результатах, она передает данные людям для маркировки. Созданные человеком метки затем возвращаются в модель маркировки, чтобы она могла учиться и улучшать свою способность автоматически маркировать следующий набор необработанных данных. Со временем модель может автоматически маркировать все больше и больше данных и существенно ускорять создание наборов обучающих данных.

Читайте также: