Извлечь на английском языке, как это будет на компьютере
Обновлено: 21.11.2024
ETL – это процесс, который извлекает, преобразует и загружает данные из нескольких источников в хранилище данных или другое единое хранилище данных.
Что такое ETL?
ETL, что означает извлечение, преобразование и загрузка, представляет собой процесс интеграции данных, который объединяет данные из нескольких источников данных в единое согласованное хранилище данных, которое загружается в хранилище данных или другую целевую систему.
По мере роста популярности баз данных в 1970-х годах был представлен ETL как процесс интеграции и загрузки данных для вычислений и анализа, который в конечном итоге стал основным методом обработки данных для проектов по созданию хранилищ данных.
ETL обеспечивает основу для анализа данных и рабочих процессов машинного обучения. С помощью ряда бизнес-правил ETL очищает и организует данные таким образом, чтобы удовлетворить конкретные потребности бизнес-аналитики, такие как ежемесячная отчетность, но также может выполнять более сложную аналитику, которая может улучшить внутренние процессы или взаимодействие с конечными пользователями. ETL часто используется организацией для:
- Извлечение данных из устаревших систем
- Очистите данные, чтобы улучшить их качество и обеспечить согласованность.
- Загрузить данные в целевую базу данных
ETL и ELT
Самое очевидное различие между ETL и ELT – это различие в порядке выполнения операций. ELT копирует или экспортирует данные из исходных местоположений, но вместо того, чтобы загружать их в промежуточную область для преобразования, он загружает необработанные данные непосредственно в целевое хранилище данных для преобразования по мере необходимости.
Хотя оба процесса используют различные хранилища данных, такие как базы данных, хранилища данных и озера данных, у каждого процесса есть свои преимущества и недостатки. ELT особенно полезен для больших объемов неструктурированных наборов данных, поскольку загрузка может происходить непосредственно из источника. ELT может быть более идеальным для управления большими данными, поскольку не требует особого предварительного планирования для извлечения и хранения данных. Процесс ETL, с другой стороны, требует большего определения в начале. Необходимо определить конкретные точки данных для извлечения вместе с любыми потенциальными «ключами» для интеграции в разрозненные исходные системы. Даже после завершения этой работы необходимо разработать бизнес-правила для преобразования данных. Эта работа обычно может зависеть от требований к данным для данного типа анализа данных, что будет определять уровень обобщения, который должен иметь данные. Хотя ELT становится все более популярным с внедрением облачных баз данных, у него есть свои недостатки, поскольку он является более новым процессом, а это означает, что лучшие практики все еще применяются.
Как работает ETL
Самый простой способ понять, как работает ETL, — понять, что происходит на каждом этапе процесса.
Извлечь
Во время извлечения данных необработанные данные копируются или экспортируются из исходных местоположений в промежуточную область. Группы управления данными могут извлекать данные из различных источников данных, которые могут быть структурированными или неструктурированными. Эти источники включают, но не ограничиваются:
- Серверы SQL или NoSQL
- Системы CRM и ERP
- Простые файлы
- Электронная почта
- Веб-страницы
Преобразование
В промежуточной области необработанные данные подвергаются обработке. Здесь данные преобразуются и консолидируются для предполагаемого аналитического использования. Этот этап может включать следующие задачи:
- Фильтрация, очистка, удаление дубликатов, проверка и аутентификация данных.
- Выполнение расчетов, переводов или обобщений на основе необработанных данных. Это может включать изменение заголовков строк и столбцов для согласованности, конвертацию валют или других единиц измерения, редактирование текстовых строк и т. д.
- Проведение аудитов для обеспечения качества данных и соответствия требованиям.
- Удаление, шифрование или защита данных регулируется отраслевыми или государственными регулирующими органами.
- Форматирование данных в таблицы или объединенные таблицы в соответствии со схемой целевого хранилища данных.
На этом последнем шаге преобразованные данные перемещаются из промежуточной области в целевое хранилище данных. Как правило, это включает первоначальную загрузку всех данных с последующей периодической загрузкой добавочных изменений данных и, реже, полным обновлением для удаления и замены данных в хранилище. Для большинства организаций, использующих ETL, этот процесс является автоматизированным, четко определенным, непрерывным и управляемым пакетами. Обычно ETL выполняется в нерабочее время, когда трафик в исходных системах и хранилище данных минимален.
ETL и другие методы интеграции данных
ETL и ELT – это всего лишь два метода интеграции данных. Существуют и другие подходы, которые также используются для упрощения рабочих процессов интеграции данных. Некоторые из них включают:
- ChangeDataCapture (CDC) идентифицирует и фиксирует только измененные исходные данные и перемещает эти данные в целевую систему.CDC можно использовать для сокращения ресурсов, необходимых на этапе «извлечения» ETL; его также можно использовать независимо для перемещения данных, преобразованных в озеро данных или другое хранилище, в режиме реального времени.
- Репликация данных копирует изменения в источниках данных в режиме реального времени или пакетами в центральную базу данных. Репликация данных часто упоминается как метод интеграции данных. На самом деле он чаще всего используется для создания резервных копий для аварийного восстановления.
- Виртуализация данных использует уровень программной абстракции для создания унифицированного, интегрированного, полностью пригодного для использования представления данных без физического копирования, преобразования или загрузки исходных данных в целевую систему. Функциональность виртуализации данных позволяет организации создавать виртуальные хранилища данных, озера данных и витрины данных из одних и тех же исходных данных для хранения данных без затрат и сложности создания и управления отдельными платформами для каждого из них. Хотя виртуализацию данных можно использовать вместе с ETL, ее все чаще рассматривают как альтернативу ETL и другим методам интеграции физических данных.
- Система StreamDataIntegration (SDI) — это именно то, на что она похожа: она непрерывно потребляет потоки данных в режиме реального времени, преобразует их и загружает в целевую систему для анализа. Ключевое слово здесь постоянно. Вместо интеграции моментальных снимков данных, извлеченных из источников в определенный момент времени, SDI постоянно интегрирует данные по мере их появления. SDI обеспечивает хранилище данных для аналитики, машинного обучения и приложений реального времени для повышения качества обслуживания клиентов, обнаружения мошенничества и многого другого.
Преимущества и проблемы ETL
Решения ETL повышают качество, выполняя очистку данных перед их загрузкой в другой репозиторий. Требующая много времени пакетная операция, ETL чаще рекомендуется для создания небольших целевых репозиториев данных, требующих менее частого обновления, в то время как другие методы интеграции данных, включая ELT (извлечение, загрузка, преобразование), сбор измененных данных (CDC) и виртуализация данных — используются для интеграции постоянно увеличивающихся объемов изменяющихся данных или потоков данных в реальном времени.
Инструменты ETL
В прошлом организации писали собственный код ETL. В настоящее время существует множество открытых и коммерческих инструментов ETL и облачных сервисов на выбор. Типичные возможности этих продуктов включают следующее:
- Комплексная автоматизация и простота использования. Ведущие инструменты ETL автоматизируют весь поток данных, от источников данных до целевого хранилища данных. Многие инструменты рекомендуют правила для извлечения, преобразования и загрузки данных.
- Визуальный интерфейс с возможностью перетаскивания. Эту функцию можно использовать для указания правил и потоков данных.
- Поддержка комплексного управления данными: помощь в сложных вычислениях, интеграции данных и манипуляциях со строками.
- Безопасность и соответствие требованиям. Лучшие инструменты ETL шифруют данные как в движении, так и в состоянии покоя и сертифицированы в соответствии с отраслевыми или государственными нормами, такими как HIPAA и GDPR.
Кроме того, многие инструменты ETL были усовершенствованы и теперь включают возможности ELT и поддерживают интеграцию данных в режиме реального времени и потоковых данных для приложений искусственного интеллекта (ИИ).
Будущее интеграции — API с использованием EAI
Интерфейсы прикладного программирования (API), использующие интеграцию корпоративных приложений (EAI), можно использовать вместо ETL для более гибкого масштабируемого решения, включающего интеграцию рабочих процессов. Хотя ETL по-прежнему является основным ресурсом для интеграции данных, EAI все чаще используется с API в веб-настройках.
ETL, интеграция данных и IBM Cloud
IBM предлагает несколько инструментов и услуг для интеграции данных, предназначенных для поддержки бизнес-конвейера данных и предоставления вашему предприятию инструментов, необходимых для эффективного масштабирования.
IBM, лидер в области интеграции данных, дает предприятиям необходимую уверенность при управлении проектами с большими данными, приложениями SaaS и технологиями машинного обучения. С помощью ведущих в отрасли платформ, таких как IBM Cloud Pak for Data, организации могут модернизировать свои процессы DataOps, используя лучшие в своем классе инструменты виртуализации для достижения скорости и масштабируемости, которые необходимы их бизнесу сейчас и в будущем.
Для получения дополнительной информации о том, как ваше предприятие может разработать и реализовать эффективную стратегию интеграции данных, изучите набор предложений IBM по интеграции данных.
Некоторые возможности Computer Vision поддерживают несколько языков; любые возможности, не упомянутые здесь, поддерживаются только на английском языке.
Оптическое распознавание символов (OCR)
API-интерфейсы OCR Computer Vision поддерживают множество языков. Read может извлекать текст из изображений и документов со смешанными языками, в том числе из одной текстовой строки, не требуя параметр языка. Дополнительную информацию см. в обзоре оптического распознавания символов (OCR).
Код языка необязателен
Универсальные модели Read OCR, основанные на глубоком обучении, извлекают из ваших документов весь многоязычный текст, включая текстовые строки на разных языках, и не требуют указания кода языка. Не указывайте код языка в качестве параметра, если вы не уверены в языке и не хотите, чтобы служба применяла только соответствующую модель. В противном случае сервис может вернуть неполный и неправильный текст.
См. раздел Как указать версию модели для использования новых языков.
Языки рукописного ввода
В следующей таблице перечислены языки, поддерживаемые функцией чтения рукописного текста.
Язык | Код языка (необязательно) | < th style="text-align: left;">ЯзыкКод языка (необязательно) | |
---|---|---|---|
английский | en | Японский (предварительная версия) | ja |
Китайский, упрощенный (предварительная версия) | zh-Hans | Корейский (предварительная версия) | ko |
Французский (предварительный просмотр) | fr | Португальский (предварительная версия) | pt |
Немецкий (предварительная версия) | de | Испанский (предварительный просмотр) | es |
Итальянский (предварительная версия) | it |
Языки печати (предварительная версия)
В этом разделе перечислены языки, поддерживаемые в последней предварительной версии.
gn: center;">doiЯзыки печати (GA)
В этом разделе перечислены языки, поддерживаемые в последней версии GA.
;">Китайский упрощенныйАнализ изображения
Некоторые функции Analyze – Image API могут возвращать результаты на других языках, указанных в параметре языкового запроса. Другие действия возвращают результаты на английском языке независимо от того, какой язык указан, а другие вызывают исключение для неподдерживаемых языков. Действия задаются параметрами запроса visualFeatures и details; см. Обзор для списка всех действий, которые вы можете сделать с анализом изображения. Языки для тегов доступны только в API версии 3.2 или более поздней.
Вы также можете найти родственные слова, фразы и синонимы в темах:
Ваш браузер не поддерживает аудио HTML5
Ваш браузер не поддерживает аудио HTML5
извлечь существительное ( РАСТЕНИЕ )
- Добавьте в миску пол чайной ложки ванильного экстракта и хорошо перемешайте.
- Наши продукты содержат ряд полезных растительных экстрактов.
- Экстракт этой травы обладает многими лечебными свойствами.
- Доказано, что экстракт чеснока укрепляет иммунную систему.
- Солодовый экстракт в этом рецепте придает ему дополнительный вкус.
извлечь существительное ( ПИСЬМО )
определенная часть книги, стихотворения и т. д., выбранная таким образом, чтобы ее можно было использовать в обсуждении, статье и т. д.:
извлечение | Американский словарь
Ваш браузер не поддерживает аудио HTML5
извлечь существительное ( ТЕКСТ )
извлечь существительное ( ВЕЩЕСТВО )
Ваш браузер не поддерживает аудио HTML5
извлечение | Деловой английский
Ваш браузер не поддерживает аудио HTML5
Ваш браузер не поддерживает аудио HTML5
чтобы получить что-то, например, информацию или деньги, от кого-то, особенно когда они не хотят это давать:
получить обещание Ему удалось добиться от правления обещания, что его отдел не будет подвергаться сокращениям.
Сам веб-сайт не извлекает автоматически никакой информации от пользователей или о поведении пользователей.
Ваш браузер не поддерживает аудио HTML5
Ваш браузер не поддерживает аудио HTML5
Примеры извлечения
Наука извлечения полезной информации из больших наборов данных обычно называется "интеллектуальным анализом данных", иногда наряду с "обнаружением знаний".
Как правило, предприятие, разрабатывающее фармацевтические препараты, проверяет большое количество экстрактов из различных организмов на биологическую активность.
Извлекаемая информация зависит от способности восприятия агента, концентрации внимания и знаний об окружающей среде.
Поскольку действия неявно являются частью представления, они будут естественным образом извлекаться как часть плана.
Альтернатива получения рыночных надбавок за надлежащие экологические методы имела лишь ограниченный успех, и ее трудно применять повсеместно для решения общих проблем.
Вышестоящие конструкции были извлечены, чтобы определить распределение общности и избежать интенсивной обработки.
Эти примеры взяты из корпусов и источников в Интернете. Любые мнения в примерах не отражают мнение редакторов Кембриджского словаря, издательства Кембриджского университета или его лицензиаров.
Переводы выдержки
Получите быстрый бесплатный перевод!
Просмотреть
Проверьте свой словарный запас с помощью наших веселых викторин по картинкам
Больше значений слова извлечь
Слово дня
трюк, который должен быть забавным, но не причинять вреда или ущерба
© Издательство Кембриджского университета, 2022 г.
© Издательство Кембриджского университета, 2022 г.
Подробнее с +Plus
Подробнее с +Plus
- английский–французский французский–английский
- Английский–немецкий Немецкий–английский
- Английский – индонезийский индонезийский – английский
- английский–итальянский итальянский–английский
- Англо-японский Японско-английский
- английский–польский польский–английский
- Английский–португальский–португальский–английский
- английский–испанский испанский–английский
Голландский–английский Английский–арабский Английский–каталонский Английский–китайский (упрощенный) Английский–китайский (традиционный) Английский–чешский Английский–датский Английский–корейский Английский–малайский Английский–норвежский Английский–русский Английский–тайский Английский–турецкий Английский– вьетнамский
Некоторыми распространенными синонимами слова извлечь являются выявить, выяснить, вызвать и вымогать. Хотя все эти слова означают «вытащить что-то скрытое, скрытое или зарезервированное», извлечь подразумевает применение силы или давления для получения ответов или информации.
добился от него признания
Когда educe будет хорошей заменой extract?
Значения слов educe и extract во многом совпадают; однако выявить подразумевает выявление чего-то потенциального или скрытого.
вывел порядок из хаоса
Когда elicit является более подходящим выбором, чем extract?
Несмотря на то, что слова вызывать и извлекать имеют много общего, вызывать обычно подразумевает определенные усилия или навыки для получения ответа. р>
тщательный опрос установил правду
Когда можно использовать вызов вместо extract?
Слова вызывать и извлекать могут использоваться в сходных контекстах, но вызывать подразумевает сильный стимул, который вызывает эмоцию, интерес или вызывает изображение или воспоминание.
песня, которая вызывает теплые воспоминания
В каких контекстах вымогать может заменить извлекать?
Слова вымогать и извлекать являются синонимами, но различаются нюансами. В частности, вымогать предполагает выжимание или вымогательство у того, кто сильно сопротивляется.
вымогал их сотрудничество, угрожая сообщить об этом
Подробнее об extract
Путешественник во времени для extract
Первое известное использование слова экстракт относится к 15 веку
Записи тезауруса рядом с extract
Процитировать эту запись
Подробнее о extract
от Merriam-WebsterСЛОВО ДНЯ
уничтожить
Получайте новости дня ежедневно по электронной почте!
Проверьте свой словарный запас
Отличные слова для Scrabble
Сможете ли вы правильно написать эти 10 слов с ошибками?
Ежедневное задание для любителей кроссвордов.
Подпишитесь на крупнейший словарь Америки и получите тысячи дополнительных определений и расширенный поиск без рекламы!
Слова недели — 25 марта
Мы изучаем «Акт Люка», «торнадо» и многое другое
Отчужденность, слабохарактерность и другие слова для интровертов
Слова для застенчивых и застенчивых
Руководство по использованию длинного тире, короткого тире и дефиса
Будь лихой и делай это хорошо
Непонятные слова
Мы стремимся предоставить вам самые редкие слова
Завершение предложения предлогом
Старое правило, с которым мы больше не можем мириться.
Слов года: 1066
Английский язык уже никогда не был прежним после норманнского завоевания
Как запомнить слова «влияние» и «эффект»
Простой способ разделить их. (В большинстве случаев.)
Слово-призрак
Вымышленное слово, которое проскользнуло мимо наших редакторов
Назовите эту еду
Можете ли вы отличить макаруны от макаронс?
Отличные слова для Scrabble
Компьютерное зрение – это область искусственного интеллекта (ИИ), которая позволяет компьютерам и системам извлекать значимую информацию из цифровых изображений, видео и других визуальных данных, а затем выполнять действия или давать рекомендации на основе этой информации. Если ИИ позволяет компьютерам думать, то компьютерное зрение позволяет им видеть, наблюдать и понимать.
Компьютерное зрение работает почти так же, как и человеческое, за исключением того, что у человека есть преимущество. Преимущество человеческого зрения заключается в продолжительности жизни контекста, чтобы научиться различать объекты, как далеко они находятся, движутся ли они и есть ли что-то неправильное в изображении.
Компьютерное зрение обучает машины выполнять эти функции, но для этого требуется гораздо меньше времени с помощью камер, данных и алгоритмов, а не сетчатки, зрительных нервов и зрительной коры. Поскольку система, обученная проверять продукты или наблюдать за производственным активом, может анализировать тысячи продуктов или процессов в минуту, замечая незаметные дефекты или проблемы, она может быстро превзойти возможности человека.
Компьютерное зрение используется в самых разных отраслях: от энергетики и коммунальных услуг до производства и автомобилестроения, и рынок продолжает расти. Ожидается, что к 2022 году он достигнет 48,6 млрд долларов США. 1
Как работает компьютерное зрение?
Компьютерному зрению требуется много данных. Он выполняет анализ данных снова и снова, пока не распознает различия и, в конечном счете, не распознает изображения. Например, чтобы научить компьютер распознавать автомобильные шины, ему нужно передать огромное количество изображений шин и элементов, связанных с шинами, чтобы изучить различия и распознать шину, особенно без дефектов.
Для этого используются две основные технологии: тип машинного обучения, называемый глубоким обучением, и сверточная нейронная сеть (CNN).
В машинном обучении используются алгоритмические модели, которые позволяют компьютеру самостоятельно изучать контекст визуальных данных. Если через модель передается достаточно данных, компьютер «посмотрит» на данные и научится отличать одно изображение от другого. Алгоритмы позволяют машине обучаться самостоятельно, а не тому, кто программирует ее для распознавания изображения.
CNN помогает модели машинного обучения или глубокого обучения «выглядеть», разбивая изображения на пиксели, которым присваиваются теги или метки. Он использует метки для выполнения сверток (математическая операция над двумя функциями для получения третьей функции) и делает прогнозы относительно того, что он «видит». Нейронная сеть выполняет свертки и проверяет точность своих прогнозов в серии итераций, пока прогнозы не начнут сбываться. Затем он распознает или видит изображения так же, как люди.
Подобно тому, как человек разбирает изображение на расстоянии, CNN сначала различает резкие края и простые формы, а затем заполняет информацию, выполняя итерации своих прогнозов. CNN используется для понимания отдельных изображений. Рекуррентная нейронная сеть (RNN) используется аналогичным образом для видеоприложений, чтобы помочь компьютерам понять, как изображения в серии кадров связаны друг с другом.
История компьютерного зрения
Ученые и инженеры уже около 60 лет пытаются разработать способы, с помощью которых машины смогут видеть и понимать визуальные данные. Эксперименты начались в 1959 году, когда нейрофизиологи показали кошке набор изображений, пытаясь сопоставить реакцию ее мозга. Они обнаружили, что он сначала реагирует на резкие края или линии, и с научной точки зрения это означает, что обработка изображений начинается с простых форм, таких как прямые края. (2)
Примерно в то же время была разработана первая технология компьютерного сканирования изображений, позволяющая компьютерам оцифровывать и получать изображения. Еще одна веха была достигнута в 1963 году, когда компьютеры смогли преобразовывать двухмерные изображения в трехмерные формы. В 1960-х годах ИИ стал академической областью исследований, и это также положило начало стремлению ИИ решить проблему человеческого зрения.
В 1974 году была представлена технология оптического распознавания символов (OCR), позволяющая распознавать текст, напечатанный любым шрифтом или гарнитурой. (3) Точно так же интеллектуальное распознавание символов (ICR) может расшифровывать рукописный текст с помощью нейронных сетей. (4) С тех пор OCR и ICR нашли свое применение в обработке документов и счетов, распознавании автомобильных номеров, мобильных платежах, машинном переводе и других распространенных приложениях.
В 1982 году нейробиолог Дэвид Марр установил, что зрение работает иерархически, и представил алгоритмы, позволяющие машинам обнаруживать края, углы, кривые и аналогичные базовые формы. Одновременно ученый-компьютерщик Кунихико Фукусима разработал сеть клеток, способных распознавать закономерности. Сеть под названием Неокогнитрон включала сверточные слои нейронной сети.
К 2000 году основное внимание уделялось распознаванию объектов, а к 2001 году появились первые приложения для распознавания лиц в реальном времени. Стандартизация того, как наборы визуальных данных помечаются и аннотируются, появилась в 2000-х годах. В 2010 году стал доступен набор данных ImageNet. Он содержал миллионы помеченных изображений в тысячах классов объектов и обеспечивает основу для CNN и моделей глубокого обучения, используемых сегодня. В 2012 году команда из Университета Торонто представила CNN для участия в конкурсе по распознаванию изображений. Модель под названием AlexNet значительно снизила количество ошибок при распознавании изображений. После этого прорыва количество ошибок снизилось до нескольких процентов. (5)
Читайте также: