Технологии обработки данных, в которых используются компьютерные ресурсы и возможности

Обновлено: 02.07.2024

Организации внедряют модель совместной аналитики, чтобы задействовать весь потенциал своих сотрудников и увеличить объем данных.

Обновление платформы поставщика подчеркивает его внимание к приложениям как способу расширения аналитики для большего числа бизнес-пользователей.

С новым генеральным директором одной из основных целей поставщика облачных услуг является передача данных в руки большего числа бизнес-пользователей внутри .

Считаете, что готовы к сертификационному экзамену AWS Certified Solutions Architect? Проверьте свои знания, ответив на эти 12 вопросов и.

Amazon заявила, что ее система мониторинга микроавтобусов предназначена исключительно для обеспечения безопасности водителей. Но многие отраслевые эксперты обеспокоены этим.

Amazon хотела бы укрепить свое глобальное присутствие, но гигант электронной коммерции сегодня сталкивается с препятствиями и проблемами, которых у него не было.

Генеральный директор Sitecore Стив Цикакис вступил во владение во время пандемии — на фоне стремительного роста — и переосмыслил компанию как цифровую.

Организации, планирующие миграцию контента, должны проверить целостность файлов и убедиться, что файлы не были повреждены при перемещении. Файл .

Успешное развертывание ECM требует планирования. Менеджеры контента должны учитывать жизненный цикл контента своей организации, безопасность .

Oracle планирует приобрести Cerner в рамках сделки на сумму около 30 млрд долларов. Второй по величине поставщик электронных медицинских карт в США может вдохнуть новую жизнь .

Верховный суд постановил 6-2, что API-интерфейсы Java, используемые в телефонах Android, не подпадают под действие американского закона об авторском праве.

В этом руководстве рассматриваются возможности Oracle Autonomous Database для пользователей Oracle и вопросы, которые следует учитывать организациям.

Поскольку настройки имеют долгосрочные последствия, организации, использующие SAP ECC в качестве основной ERP-системы, должны предоставить .

Многие компании могут извлечь выгоду из возможностей аналитики, а организации, использующие SAP ECC, по-прежнему могут создавать эффективные .

Внедрение S/4HANA сопряжено со значительным риском, но также предлагает реальную возможность цифровой трансформации. Вот .

Хороший дизайн базы данных необходим для удовлетворения потребностей обработки в системах SQL Server. На вебинаре консультант Коэн Вербек предложил .

Базы данных SQL Server можно переместить в облако Azure несколькими способами. Вот что вы получите от каждого из вариантов .

В отрывке из этой книги вы познакомитесь с методами LEFT OUTER JOIN и RIGHT OUTER JOIN и найдете различные примеры создания SQL.

Энергоэффективность в центрах обработки данных и облаках

Фархад Мехдипур, . Бахман Джавади, Достижения в области компьютеров, 2016 г.

3.3.3 Инструменты и методы обработки и анализа

Обработка больших данных – это набор методов или моделей программирования для доступа к крупномасштабным данным с целью извлечения полезной информации для поддержки и принятия решений. Далее мы рассмотрим некоторые инструменты и методы, доступные для анализа больших данных в центрах обработки данных.

Как упоминалось в предыдущем разделе, большие данные обычно хранятся на тысячах стандартных серверов, поэтому традиционные модели программирования, такие как интерфейс передачи сообщений (MPI) [40], не могут эффективно обрабатывать их. Поэтому для повышения производительности баз данных NoSQL в центрах обработки данных используются новые модели параллельного программирования. MapReduce [17] — одна из самых популярных моделей программирования для обработки больших данных с использованием крупномасштабных товарных кластеров. MapReduce предложен Google и разработан Yahoo. Функции Map и Reduce запрограммированы пользователями для обработки больших данных, распределенных по нескольким разнородным узлам. Основным преимуществом этой модели программирования является простота, поэтому пользователи могут легко использовать ее для обработки больших данных. Для MapReduce разрабатывается определенный набор оберток. Эти оболочки могут обеспечить лучший контроль над кодом MapReduce и помочь в разработке исходного кода. Apache Pig — это среда, подобная структурированному языку запросов (SQL), разработанная в Yahoo [41] и используемая многими организациями, такими как Yahoo, Twitter, AOL, LinkedIn и т. д. Hive — это еще одна оболочка MapReduce, разработанная Facebook [42]. Эти две оболочки обеспечивают лучшую среду и упрощают разработку кода, поскольку программистам не приходится иметь дело со сложностями кодирования MapReduce.

Hadoop [43,44] — это реализация MapReduce с открытым исходным кодом, которая широко используется для обработки больших данных. Это программное обеспечение доступно даже у некоторых облачных провайдеров, таких как Amazon EMR [96], для создания кластеров Hadoop для обработки больших данных с использованием ресурсов Amazon EC2 [45]. Hadoop использует файловую систему HDFS, которая описана в предыдущем разделе. При использовании этой файловой системы данные будут располагаться близко к узлу обработки, чтобы свести к минимуму коммуникационные издержки. Windows Azure также использует среду выполнения MapReduce под названием Daytona [46], которая использует облачную инфраструктуру Azure в качестве масштабируемой системы хранения для обработки данных.

Существует несколько новых реализаций Hadoop для решения проблем с производительностью, таких как медленная загрузка данных и отсутствие возможности повторного использования данных [47,48] . Например, Starfish [47] — это фреймворк на основе Hadoop, предназначенный для повышения производительности заданий MapReduce с использованием жизненного цикла данных в аналитике. Он также использует профилирование задания и оптимизацию рабочего процесса, чтобы уменьшить влияние несбалансированных данных во время выполнения задания. Starfish — это самонастраивающаяся система, основанная на требованиях пользователя и рабочих нагрузках системы, при этом пользователям не нужно настраивать или изменять настройки или параметры. Кроме того, Elastisizer от Starfish может автоматизировать принятие решений для создания оптимизированных кластеров Hadoop, используя сочетание моделирования и оценки на основе моделей, чтобы найти наилучшие ответы на вопросы типа «что, если» о производительности рабочей нагрузки.

Spark [49], разработанный в Калифорнийском университете в Беркли, представляет собой альтернативу Hadoop, предназначенную для преодоления ограничений дискового ввода-вывода и повышения производительности более ранних систем. Главной особенностью Spark, которая делает его уникальным, является его способность выполнять вычисления в памяти. Это позволяет кэшировать данные в памяти, тем самым устраняя ограничения дисковых ресурсов Hadoop для итерационных задач. Разработчики Spark также предложили полный стек обработки данных, называемый стеком аналитики данных Berkeley [50].

Аналогично существуют и другие предлагаемые методы профилирования приложений MapReduce для поиска возможных узких мест и моделирования различных сценариев для анализа производительности модифицированных приложений [48] . Эта тенденция показывает, что использование простой установки Hadoop неэффективно для аналитики больших данных, и необходимо спроектировать и разработать новые инструменты и методы для автоматизации принятия решений о предоставлении ресурсов. Возможно, это может быть новая услуга (например, аналитика больших данных как услуга), которую должны предоставлять поставщики облачных услуг для автоматической аналитики больших данных в центрах обработки данных.

Помимо MapReduce существуют другие существующие модели программирования, которые можно использовать для обработки больших данных в центрах обработки данных, такие как Dryad [51] и Pregel [52] . Dryad — это механизм распределенного выполнения для запуска приложений с большими данными в форме направленного ациклического графа (DAG). Работа в вершинах будет выполняться в кластерах, где данные будут передаваться с использованием каналов данных, включая документы, соединения протокола управления передачей (TCP) и общую память. Более того, любой тип данных может напрямую передаваться между узлами. В то время как MapReduce поддерживает только один набор входных и выходных данных, пользователи могут использовать любое количество входных и выходных данных в Dryad. Pregel используется Google для обработки крупномасштабных графиков для различных целей, таких как анализ сетевых графиков и сервисов социальных сетей. Приложения представлены в виде ориентированных графов в Pregel, где каждая вершина может быть изменена, а заданное пользователем значение и ребро показывают исходную и конечную вершины.

Высокопроизводительные методы обработки больших данных

7.5.2 Метрики данных: пять противоречий

Обработка больших данных обычно определяется и характеризуется пятью V. Объем данных, измеренный в байтах, определяет количество произведенных или обработанных данных. Скорость, с которой генерируются и обрабатываются данные (например, байт в секунду), соответствует другой характеристике. И объем данных, и скорость также играют роль для вычислений и имеют схожие показатели в этом отношении, при этом скорость данных скорее определяется пропускной способностью. Параметр разнообразие дает информацию о разнообразии собираемых данных. Это охватывает формат и структуру данных (структурированные как база данных, неструктурированные, как текст/речь, созданные человеком, или частично структурированные, как HTML). Данные могут быть как весьма сходными (например, при сборе измерений одними и теми же приборами из разных источников), так и весьма различными, без какой-либо явной связи, причем последняя оказывается существующей и существенной после некоторой обработки данных. Помимо этих трех V (Pettey and Goasduff, 2011; Laney, 2001), развились еще две характеристики, на которые часто ссылаются в контексте больших данных. Достоверность означает качество или фактическую достоверность данных. Например, поврежденные данные или неправильные значения из-за неправильных измерений данных могут ухудшить набор данных. Наконец, значение данных соответствует фактическому значению данных в заданном контексте. Например, данные об удовлетворенности клиентов очень ценны для компании.

Под большими данными подразумеваются, как правило, большие объемы, нестатические и часто обновляемые (скорость) данные, которые включают в себя различные форматы данных и, в частности, неструктурированные данные, потенциально неверные данные (достоверность) и низкую ценность по своему происхождению. Следовательно, требуется уточнение, чтобы добавить ценность. Обзоры Vs для данных наблюдения Земли можно найти в Guo et al. (2015), Нативи и др. (2015) . В частности, Нативи и соавт.(2015) пришли к выводу, среди прочего, что неоднородность «действительно воспринимается как самая важная проблема для наук о Земле и инфраструктуры наблюдений».

Изучение эволюции технологий больших данных

Стивен Боннер, . Георгиос Теодоропулос, Архитектура программного обеспечения для больших данных и облака, 2017 г.

14.7.2.3 Упрощение разработки, ориентированной на данные

Обработка больших данных обычно выполняется на больших кластерах обычных машин без общего доступа. Один из ключевых уроков MapReduce заключается в том, что необходимо разработать модель программирования, которая скрывает сложность базовой системы, но обеспечивает гибкость, позволяя пользователям расширять функциональные возможности для удовлетворения различных вычислительных требований. Хотя приложение MapReduce по сравнению с приложением MPI проще в создании, оно все же может потребовать значительных усилий по написанию кода. По мере развития фреймворков для работы с данными увеличивается количество API-интерфейсов более высокого уровня, предназначенных для дальнейшего снижения сложности создания приложений, интенсивно использующих данные. Текущие фреймворки с интенсивным использованием данных, такие как Spark, очень успешно сокращают объем кода, необходимый для создания конкретного приложения. Будущие API-интерфейсы фреймворка с интенсивным использованием данных будут продолжать совершенствоваться в четырех ключевых областях; предоставление пользователям более оптимальных процедур, обеспечение прозрачного доступа к разрозненным источникам данных, использование графических пользовательских интерфейсов (GUI) и обеспечение взаимодействия между разнородными аппаратными ресурсами.

В будущем высокоуровневые API-интерфейсы по-прежнему будут позволять платформам с интенсивным использованием данных предоставлять разработчикам приложений оптимизированные подпрограммы, обеспечивая повышение производительности с минимальными усилиями со стороны конечного пользователя. Такие системы, как Spark Dataframe API, доказали, что при тщательном проектировании высокоуровневый API может снизить сложность для пользователя и значительно повысить производительность по сравнению с низкоуровневыми API.

В будущем для работы с большими данными потребуется доступ ко все более разнообразным источникам данных. Будущие API должны будут скрывать эту сложность от конечного пользователя и обеспечивать беспрепятственную интеграцию различных источников данных (структурированных, полуструктурированных или неструктурированных данных), считываемых из различных мест (HDFS, потоковые источники и базы данных).

Один из относительно неисследованных способов снижения барьера для доступа к вычислениям с интенсивным использованием данных — создание графических интерфейсов, позволяющих пользователям без программирования или написания запросов получать доступ к средам с интенсивным использованием данных. Использование графического интерфейса также открывает другие интересные возможности, такие как взаимодействие в реальном времени и визуализация наборов данных.

API также необходимо будет продолжать развивать, чтобы скрыть сложности все более разнородного оборудования. Если сопроцессоры будут использоваться в будущих машинах для работы с большими данными, API-интерфейсы фреймворков, интенсивно использующих данные, в идеале скроют это от конечного пользователя. Пользователи должны иметь возможность писать код своего приложения, а фреймворк выберет наиболее подходящее оборудование для его запуска. Это также может включать перенос всей или части рабочей нагрузки в облако по мере необходимости.

Для системных администраторов развертывание платформ с интенсивным использованием данных на компьютерном оборудовании все еще может быть сложным процессом, особенно если требуется обширный стек. Будущие исследования необходимы для изучения методов атомарного развертывания современного стека больших данных на компьютерном оборудовании. Эти системы также должны устанавливать и оптимизировать множество параметров конфигурации, которые могут оказать большое влияние на производительность системы. Одной из первых попыток в этом направлении является Apache Ambari, хотя еще предстоит провести дальнейшие работы, такие как интеграция системы с облачной инфраструктурой. Может ли система такого типа автоматически развертывать специализированный программный стек, интенсивно использующий данные, в облаке, когда локальный ресурс заполняется, и запускать приложения в тандеме с локальным ресурсом?

Организации внедряют модель совместной аналитики, чтобы задействовать весь потенциал своих сотрудников и увеличить объем данных.

Обновление платформы поставщика подчеркивает его внимание к приложениям как способу расширения аналитики для большего числа бизнес-пользователей.

С новым генеральным директором одной из основных целей поставщика облачных услуг является передача данных в руки большего числа бизнес-пользователей внутри .

Считаете, что готовы к сертификационному экзамену AWS Certified Solutions Architect? Проверьте свои знания, ответив на эти 12 вопросов и.

Amazon заявила, что ее система мониторинга микроавтобусов предназначена исключительно для обеспечения безопасности водителей. Но многие отраслевые эксперты обеспокоены этим.

Amazon хотела бы укрепить свое глобальное присутствие, но гигант электронной коммерции сегодня сталкивается с препятствиями и проблемами, которых у него не было.

Генеральный директор Sitecore Стив Цикакис вступил во владение во время пандемии — на фоне стремительного роста — и переосмыслил компанию как цифровую.

Организации, планирующие миграцию контента, должны проверить целостность файлов и убедиться, что файлы не были повреждены при перемещении.Файл .

Успешное развертывание ECM требует планирования. Менеджеры контента должны учитывать жизненный цикл контента своей организации, безопасность .

Oracle планирует приобрести Cerner в рамках сделки на сумму около 30 млрд долларов. Второй по величине поставщик электронных медицинских карт в США может вдохнуть новую жизнь .

Верховный суд постановил 6-2, что API-интерфейсы Java, используемые в телефонах Android, не подпадают под действие американского закона об авторском праве.

В этом руководстве рассматриваются возможности Oracle Autonomous Database для пользователей Oracle и вопросы, которые следует учитывать организациям.

Поскольку настройки имеют долгосрочные последствия, организации, использующие SAP ECC в качестве основной ERP-системы, должны предоставить .

Многие компании могут извлечь выгоду из возможностей аналитики, а организации, использующие SAP ECC, по-прежнему могут создавать эффективные .

Внедрение S/4HANA сопряжено со значительным риском, но также предлагает реальную возможность цифровой трансформации. Вот .

Хороший дизайн базы данных необходим для удовлетворения потребностей обработки в системах SQL Server. На вебинаре консультант Коэн Вербек предложил .

Базы данных SQL Server можно переместить в облако Azure несколькими способами. Вот что вы получите от каждого из вариантов .

В отрывке из этой книги вы познакомитесь с методами LEFT OUTER JOIN и RIGHT OUTER JOIN и найдете различные примеры создания SQL.

Связанные данные

Аннотация

Существует множество новых исследований, посвященных большим данным и их применению в различных организационных аспектах, особенно в отношении их влияния на бизнес-инновационный процесс. Это исследование, в частности, направлено на анализ существующей взаимосвязи между возможностями анализа больших данных и совместными инновациями. Для проверки гипотезы модели были использованы структурные уравнения по методу частных наименьших квадратов в выборке из 112 колумбийских фирм. Основные выводы позволяют положительно связать возможности анализа больших данных с более совершенными и гибкими процессами совместного создания продуктов и услуг, а также с более надежными сетями сотрудничества с заинтересованными сторонами внутри и за пределами фирмы.

Ключевые слова: бизнес, экономика, информатика, возможности анализа больших данных, совместные инновации, большие данные, совместное творчество.

1. Введение

Интенсивное и широкое использование механизмов сбора, хранения и анализа данных стало повседневным процессом для компаний несколько десятилетий назад. В настоящее время усилия сосредоточены на оттачивании методов анализа и обработки больших объемов данных с целью укрепления процесса принятия решений для повышения ценности компании (Gobble, 2013; Alharthi et al., 2017; Попович и др., 2018). Такие компании, как Facebook и Microsoft, не зря вкладывали большие средства в приобретение социальных сетей, таких как WhatsApp и Linkedin соответственно. Можно подумать, что ценность этих приобретений заключается в миллионах пользователей, которые являются частью этих платформ, что отчасти верно, но также можно точно утверждать, что в социальных сетях содержится большое количество данных, которые при анализе и определенным образом организованная с помощью определенных инструментов, становится бесценным источником создания стоимости в фирме (Chang et al., 2014). Очевидно, IBM поняла это, когда решила изменить стратегическую направленность своего бизнеса, перейдя с производства оборудования на предоставление услуг, связанных с управлением информационными технологиями (Alharthi et al., 2017).

Перед лицом этой новой реальности анализ влияния больших данных стал главным вопросом как для руководителей, которые задаются вопросом, как их можно использовать для повышения эффективности компании, так и для научных кругов, которые стремятся объяснить это явление. его последствия и даже его будущее направление и масштаб (Frizzo-Barker et al., 2016; Delen and Zolbanin, 2018; Aydiner et al., 2019). Можно с уверенностью сказать, что большие данные считаются явлением, на котором в будущем будет использоваться конкурентное преимущество компаний, отсюда его важность и необходимость понимания его существующей связи с другим фактором, создающим конкурентное преимущество: инновациями (Côrte-Real et al. al., 2019; Shollo and Galliers, 2016; Duan et al., 2018; Côrte-Real et al., 2017; Constantiou and Kallinikos, 2015).

В этом контексте использование больших данных предполагает расширение границ того, что до сих пор было известно как механизмы управления бизнес-инновациями; поэтому компании часто сообщают об использовании больших данных в своих инновационных процессах (Ransbotham and Kiron, 2017). Например, Дуан и др. (2018) пришли к выводу, что использование больших данных оказывает положительное влияние на результаты инноваций, поскольку они улучшают способность компании сканировать окружающую среду, предоставляя ценную информацию для улучшения фактора новизны и значения новых продуктов и услуг. Между тем, Лин и соавт.(2018) показали, что в средах с интенсивным использованием больших данных решения менеджеров о создании сетей сотрудничества с внешними организациями оказывают положительное влияние на эффективность инноваций. Что касается больших данных, то на основе эмпирических данных Чжан и Сяо (2019) рекомендуют компаниям, чтобы клиенты выполняли две роли: предоставляли и анализировали данные, используемые для совместной разработки продуктов.

Как отмечалось ранее, становится очевидным, что с увеличением использования больших данных и их включением в ядро ​​процессов, связанных с управлением инновациями, а также стратегией включения различных заинтересованных сторон в инициативы по совместному созданию ценности, бизнес-инновации стали более инклюзивным процессом, и, похоже, это проблема, которая в будущем позволит игнорировать ограничения, которые в настоящее время естественным образом установлены в компании (Acharya et al., 2018). Однако анализ того, как технологические аспекты, навыки, связанные с человеческими ресурсами, и управление большими данными связаны с процессами формирования идей и сотрудничества, типичными для сетей, поддерживающих совместные инновации, в литературе недостаточен, и отсутствуют эмпирические данные. . На данном этапе особенно важно подробно изучить влияние использования больших данных на совместные бизнес-инновации (Brunswicker et al., 2015; Akhtar et al., 2019; Urbinati et al., 2018).

В этом контексте основной целью этой статьи является анализ взаимосвязи между тремя ресурсами (материальными, человеческими и нематериальными), которые позволяют развивать возможности анализа больших данных (BDAC) в процессе совместных инноваций. Его основной вклад связан с тем, чтобы помочь заполнить существующий пробел в литературе, предоставив эмпирические данные, подтверждающие взаимосвязь и значение BDAC в улучшении открытых инновационных процессов, таких как совместные инновации. Кроме того, эта статья допускает нетехнический и нетехнический подход к большим данным, а также направляет и привлекает внимание менеджеров к важности развития BDAC и тому, как их адекватное управление приводит к прямой и положительной связи с совместными инновациями. и, таким образом, в конкурентном преимуществе для фирмы.

Эта статья структурирована следующим образом: обзор литературы и разработка гипотез представлены после раздела введения. Затем описывается методология исследования и анализ данных, после чего следует раздел результатов. Наконец, сообщается об обсуждении и последствиях.

2. Теория

2.1. Аналитика больших данных и возможности аналитики больших данных

Обработка и анализ очень больших объемов данных для поддержки процессов принятия решений в организационном контексте и даже в государственной политике называется большими данными (Allam and Dhunny, 2019; Gupta et al., 2018; Davenport). , 2014). В общих чертах, феномен больших данных привел к двум важным аспектам анализа и разработки: один из них сосредоточен на аспектах вычислительной и технологической инфраструктуры, а именно на задачах технического анализа и анализа данных, который получил название «Аналитика больших данных» (BDA) (Донг и Ян, 2018 г.); а второе направление исследований связано с проблемами, связанными с управлением большими данными и включением их в организационные процессы, известными как возможности BDA (Гупта и Джордж, 2016 г.).

Теоретические и эмпирические разработки в области BDA связаны с происхождением, сбором, хранением, обработкой и анализом данных — аспектами, которые известны в организационном контексте, но приобретают новое и сложное измерение, учитывая непомерный рост объемов создания данных. . Это связано с простотой создания данных и многочисленными источниками происхождения, такими как телеметрия, датчики, GPS и интенсивным использованием технологических устройств, таких как смартфоны, подключенные к социальным сетям, среди прочего, которые в целом представляют собой непрерывный, очень надежный источник данных. Чтобы определить основные проблемы BDA, ученые определили семь концепций или характеристик (Mikalef et al., 2018; Sivarajah et al., 2017; Chen et al., 2013; Barnaghi et al., 2013).< /p>

Первой характеристикой BDA является объем. Этот атрибут относится к размеру данных, который в случае больших данных растет экспоненциально, создавая проблемы, связанные с хранением, сбором и обработкой данных, что влечет за собой значительные инвестиции в технологическое оборудование (George et al., 2016; Barnaghi et al., 2013). ). Вторым атрибутом BDA является разнообразие, связанное с неоднородностью данных — аудио, видео, текст, изображения, — проблема которых заключается в разных способах создания данных (Constantiou and Kallinikos, 2015; Chen et al., 2013). Третьей характеристикой является скорость, с которой создается поток данных, даже требующий в некоторых случаях анализа в реальном времени, а также скорость, с которой данные могут устареть, что затрудняет разработку новых инструментов для анализа данных (Sivarajah et al., 2017; Джордж и др., 2016).На четвертом месте стоит достоверность, связанная с качеством данных, то есть с точностью и надежностью данных и их источников, которые служат гарантией их потенциального использования. Пятым атрибутом является визуализация, которая относится к способности представлять данные таким образом, чтобы они имели смысл (Seddon and Currie, 2017). Шестой атрибут — это ценность данных, извлеченных из больших данных, для конечного пользователя и их вклад в повышение эффективности в случае компаний (Sivarajah et al., 2017; Gandomi and Haider, 2015). Наконец, седьмой характеристикой BDA является изменчивость, связанная с постоянными и быстрыми изменениями в значении и интерпретации данных (Seddon and Currie, 2017; Sivarajah et al., 2017).

И наоборот, возможности BDA относятся к управленческим возможностям компании, то есть непрерывному использованию и развертыванию ресурсов больших данных со стратегической целью создания стоимости и развития конкурентных преимуществ для фирмы (Wamba et al., 2017; Garmaki et al., 2016; Gupta and George, 2016; Kiron et al., 2014). В литературе определены три категории ресурсов, отвечающие за возможности BDA.

Материальные ресурсы и инфраструктура, как первая категория ресурсов, обращают внимание на значение данных как основного ресурса с учетом аспектов, касающихся их происхождения, получения и характера, а также элементов, относящихся к технологическому и физическому Требования к инфраструктуре, позволяющие эффективно использовать данные. Такая эффективность достигается за счет более совершенных технологий баз данных и гарантии эффективного управления данными посредством более надежной инфраструктуры, адаптированной к гигантским размерам больших данных. Это требует от компании анализа, чтобы предпринять необходимые инвестиции для продвижения инициатив по работе с большими данными, которые требуют адекватного периода времени для реализации и получения установленной доходности (Wamba et al., 2017; Gupta and George, 2016).< /p>

Вторая категория относится к человеческим ресурсам, разделенным на две группы: первая группа состоит из людей, обладающих техническими навыками работы с большими данными — программированием, машинным обучением, искусственным интеллектом, статистическим анализом, очисткой и извлечением данных. включая возможности для изучения и понимания новых технологических тенденций; вторая группа людей — это те, кто обладает навыками управления большими данными и отвечает за планирование, внедрение и контроль процессов и ресурсов, связанных с большими данными, и, что еще более важно, за понимание того, как знания, извлеченные из больших данных можно применять в разных областях компании (Wamba et al., 2017; Gupta and George, 2016).

Третья категория связана с нематериальными ресурсами, что отражает важность двух конкретных аспектов: первый – культура, основанная на данных, которая позволяет подкреплять решения, принимаемые менеджерами на любом уровне компании, доказательствами того, что данные предполагают, а не следуют интуиции, основанной на прошлом опыте; второй нематериальный ресурс — это организационное обучение, которое предполагает, что компании, которые развили способности исследовать, накапливать, делиться и преобразовывать знания, обладают ключевым запасом ценных знаний, очень полезным при проверке и контекстуализации результатов, полученных из больших данных, т. е. высокий уровень организационной обучение позволяет комбинировать и проверять знания, извлеченные из больших данных, что делает возможным информированный процесс принятия решений в компании (Гупта и Джордж, 2016 г.).

2.2. Возможности анализа больших данных и совместные инновации

Совместная инновация определяется как процесс, который позволяет участвовать различным заинтересованным сторонам в компании (клиенты, поставщики, внешние сотрудники, партнерские организации и широкая общественность) через совместные рабочие сети в создании и развитии новые продукты и услуги, а также процессы или даже бизнес-модели; иными словами, совместные инновации обеспечивают создание ценности для компании за счет активного участия внешних субъектов (Сарагих и др., 2019; Бугшан, 2015; Ли и др., 2012; Ромеро и Молина, 2011).

Таким образом, совместные инновации связаны с двумя подходами, которые кажутся разными, но дополняющими друг друга: открытые инновации и совместные инновации. Открытые инновации фокусируются на важности инноваций, поддерживаемых разработками, являющимися результатом знаний и идей внутреннего и внешнего происхождения (Chesbrough, 2003), тогда как совместные инновации делают упор на инновационный процесс, осуществляемый посредством построения партнерства и альянсов с другими участниками, где участвующие партнеры разделяют идеи и знания (Бонни и др., 2007). Таким образом, совместные инновации основаны на взаимодействии с несколькими участниками, поскольку инновации, возникающие в результате сотрудничества или участия, намного эффективнее, чем те, которые предпринимаются в одиночку.

Ли и др.(2012) считают, что для развития совместных инноваций компаниям важно сосредоточиться на таких аспектах, как конвергенция, сотрудничество и совместное творчество. Конвергенция — это возможность совместной инновационной сети объединять в кластеры различных участников, обеспечивая синергетическую разработку новых продуктов, процессов и бизнес-моделей в результате взаимодополняемости ресурсов и возможностей (Bitzer and Bijman, 2015). В свою очередь, сотрудничество требует развития культуры, основанной на совместной работе внутри компании; таким образом, это облегчает построение отношений, которые способствуют совместному созданию или обучению знаний вместе с другими участниками сети совместных инноваций (van den Broek et al., 2018; Walsh et al., 2016; Tomlinson, 2010). Совместное творчество фокусируется на способности компании вовлекать своих клиентов в процесс создания ценности либо путем создания новых продуктов или услуг, либо путем разработки уже существующих (Busser et al., 2019; de Oliveira and Cortimiglia, 2017). Таким образом, интенсивное использование коммуникационных и информационных технологий способствовало продвижению и консолидации совместных инновационных процессов, облегчая близость различных акторов, которые обычно географически рассредоточены; иными словами, вовлечение акторов — для содействия развитию различных задач в процессе совместной инновации — возможно за счет использования технологий и социальных механизмов (de Oliveira and Cortimiglia, 2017).

Креативность или идеи относятся к участию субъектов в совместном создании новых продуктов или услуг. Сотрудничество направлено на решение проблем или задач посредством участия и взаимодействия внутренних и внешних участников сети совместных инноваций. Наконец, коммуникация понимается как процесс, гарантирующий текучесть обмена или создания знаний, исходящих от взаимодействующих субъектов.

Значение возможностей, предоставляемых платформой совместных инноваций, становится очевидным из вышеизложенного. Другими словами, это относится к легкости и функциональности, с которой участники воспринимают различное использование и взаимодействие различных задач, связанных с совместным инновационным циклом, при взаимодействии через технологическую платформу, предназначенную для управления совместными инновациями, включая совместную идею. представление, оценка и разработка совместных изобретений (Abhari et al., 2017).

С другой стороны, возможности BDA имеют важное и дополняющее свойство совместных инноваций: они управляются с помощью технологических платформ, обе из которых естественным образом укоренены в том, как компания использует технологии с целью улучшения и создания повышение ценности, создание и сохранение конкурентного преимущества с течением времени (Del Vecchio et al., 2018); такая взаимодополняемость связана с потенциалом возможностей BDA для повышения эффективности процесса совместных инноваций.

Использование огромных объемов данных, собранных и обработанных благодаря технологической инфраструктуре BDA, и их анализ техническими специалистами по данным являются ценным вкладом при определении характеристик, связанных с воспринимаемой ценностью продукта (например, функциональность, стоимость). - отношение выгоды, эмоции, этическая ответственность, статус) и элементы, относящиеся к профилированию нишевых сегментов (например, убеждения и ценности, экономический уровень, хобби, мнения).

Этот большой объем исходных данных позволяет процессу выработки идей и совместного творчества упрощать сбор, уточнение и оценку идей с целью определения их потенциала для превращения в официальные проекты развития (Beretta, 2019). Таким образом, можно сосредоточить усилия на инициативах, подкрепленных решениями, принятыми на основе данных, которые помогают сократить время разработки, запуск и возможности принятия продукта на рынке, снижая риски, связанные с неопределенностью (Zhan et al. , 2017 г.).

Возможности BDA также расширяют возможности сотрудничества участников в совместных инновациях для решения проблем или задач, способствуя созданию прикладных знаний, связанных с конкретной целью. В этом смысле у компании есть возможность предложить ценную информацию, обеспечиваемую большими данными, в качестве вклада в совместное создание решений, которые могут быть связаны с проблемами поставок или поставок с поставщиками, а также с трудностями и проблемами, возникающими в связи с неопределенность, возникающая из-за различных сценариев в цепочке создания стоимости (Dubey et al., 2019; Urbinati et al., 2018). Учитывая предыдущее обсуждение, предлагается следующая гипотеза:

Гипотеза. Возможности аналитики больших данных оказывают прямое положительное влияние на совместные инновации.

3. Методы

3.1. Образец и сбор данных

Предложенная модель (см. рис. 1) была сопоставлена ​​с выборкой низко- и среднетехнологичных производственных фирм (Евростат, 2009 г.) и сервисных фирм (см. и другие., 2000; Кастеллаччи, 2011). Полевые исследования проводились в период с сентября 2018 г. по октябрь 2018 г. с помощью анкеты, разосланной по электронной почте и физически примененной к руководству в общей сложности 600 фирм, которые совместно работают в рамках инновационной программы, спонсируемой учреждением, принадлежащим к региональной инновационной системе, которая объединяет компании. и университеты. В итоге было получено 112 действительных ответов; такой размер выборки гарантирует удовлетворительную статистическую мощность выше 80 % (Cohen, 1988).

Энергоэффективность в центрах обработки данных и облаках

Фархад Мехдипур, . Бахман Джавади, Достижения в области компьютеров, 2016 г.

3.3.3 Инструменты и методы обработки и анализа

Обработка больших данных – это набор методов или моделей программирования для доступа к крупномасштабным данным с целью извлечения полезной информации для поддержки и принятия решений. Далее мы рассмотрим некоторые инструменты и методы, доступные для анализа больших данных в центрах обработки данных.

Как упоминалось в предыдущем разделе, большие данные обычно хранятся на тысячах стандартных серверов, поэтому традиционные модели программирования, такие как интерфейс передачи сообщений (MPI) [40], не могут эффективно обрабатывать их. Поэтому для повышения производительности баз данных NoSQL в центрах обработки данных используются новые модели параллельного программирования. MapReduce [17] — одна из самых популярных моделей программирования для обработки больших данных с использованием крупномасштабных товарных кластеров. MapReduce предложен Google и разработан Yahoo. Функции Map и Reduce запрограммированы пользователями для обработки больших данных, распределенных по нескольким разнородным узлам. Основным преимуществом этой модели программирования является простота, поэтому пользователи могут легко использовать ее для обработки больших данных. Для MapReduce разрабатывается определенный набор оберток. Эти оболочки могут обеспечить лучший контроль над кодом MapReduce и помочь в разработке исходного кода. Apache Pig — это среда, подобная структурированному языку запросов (SQL), разработанная в Yahoo [41] и используемая многими организациями, такими как Yahoo, Twitter, AOL, LinkedIn и т. д. Hive — это еще одна оболочка MapReduce, разработанная Facebook [42]. Эти две оболочки обеспечивают лучшую среду и упрощают разработку кода, поскольку программистам не приходится иметь дело со сложностями кодирования MapReduce.

Hadoop [43,44] — это реализация MapReduce с открытым исходным кодом, которая широко используется для обработки больших данных. Это программное обеспечение доступно даже у некоторых облачных провайдеров, таких как Amazon EMR [96], для создания кластеров Hadoop для обработки больших данных с использованием ресурсов Amazon EC2 [45]. Hadoop использует файловую систему HDFS, которая описана в предыдущем разделе. При использовании этой файловой системы данные будут располагаться близко к узлу обработки, чтобы свести к минимуму коммуникационные издержки. Windows Azure также использует среду выполнения MapReduce под названием Daytona [46], которая использует облачную инфраструктуру Azure в качестве масштабируемой системы хранения для обработки данных.

Существует несколько новых реализаций Hadoop для решения проблем с производительностью, таких как медленная загрузка данных и отсутствие возможности повторного использования данных [47,48] . Например, Starfish [47] — это фреймворк на основе Hadoop, предназначенный для повышения производительности заданий MapReduce с использованием жизненного цикла данных в аналитике. Он также использует профилирование задания и оптимизацию рабочего процесса, чтобы уменьшить влияние несбалансированных данных во время выполнения задания. Starfish — это самонастраивающаяся система, основанная на требованиях пользователя и рабочих нагрузках системы, при этом пользователям не нужно настраивать или изменять настройки или параметры. Кроме того, Elastisizer от Starfish может автоматизировать принятие решений для создания оптимизированных кластеров Hadoop, используя сочетание моделирования и оценки на основе моделей, чтобы найти наилучшие ответы на вопросы типа «что, если» о производительности рабочей нагрузки.

Spark [49], разработанный в Калифорнийском университете в Беркли, представляет собой альтернативу Hadoop, предназначенную для преодоления ограничений дискового ввода-вывода и повышения производительности более ранних систем. Главной особенностью Spark, которая делает его уникальным, является его способность выполнять вычисления в памяти. Это позволяет кэшировать данные в памяти, тем самым устраняя ограничения дисковых ресурсов Hadoop для итерационных задач. Разработчики Spark также предложили полный стек обработки данных, называемый стеком аналитики данных Berkeley [50].

Аналогично существуют и другие предлагаемые методы профилирования приложений MapReduce для поиска возможных узких мест и моделирования различных сценариев для анализа производительности модифицированных приложений [48] . Эта тенденция показывает, что использование простой установки Hadoop неэффективно для аналитики больших данных, и необходимо спроектировать и разработать новые инструменты и методы для автоматизации принятия решений о предоставлении ресурсов. Возможно, это может быть новая услуга (например, аналитика больших данных как услуга), которую должны предоставлять поставщики облачных услуг для автоматической аналитики больших данных в центрах обработки данных.

Помимо MapReduce существуют другие существующие модели программирования, которые можно использовать для обработки больших данных в центрах обработки данных, такие как Dryad [51] и Pregel [52] . Dryad — это механизм распределенного выполнения для запуска приложений с большими данными в форме направленного ациклического графа (DAG). Работа в вершинах будет выполняться в кластерах, где данные будут передаваться с использованием каналов данных, включая документы, соединения протокола управления передачей (TCP) и общую память. Более того, любой тип данных может напрямую передаваться между узлами. В то время как MapReduce поддерживает только один набор входных и выходных данных, пользователи могут использовать любое количество входных и выходных данных в Dryad. Pregel используется Google для обработки крупномасштабных графиков для различных целей, таких как анализ сетевых графиков и сервисов социальных сетей. Приложения представлены в виде ориентированных графов в Pregel, где каждая вершина может быть изменена, а заданное пользователем значение и ребро показывают исходную и конечную вершины.

Высокопроизводительные методы обработки больших данных

7.5.2 Метрики данных: пять противоречий

Обработка больших данных обычно определяется и характеризуется пятью V. Объем данных, измеренный в байтах, определяет количество произведенных или обработанных данных. Скорость, с которой генерируются и обрабатываются данные (например, байт в секунду), соответствует другой характеристике. И объем данных, и скорость также играют роль для вычислений и имеют схожие показатели в этом отношении, при этом скорость данных скорее определяется пропускной способностью. Параметр разнообразие дает информацию о разнообразии собираемых данных. Это охватывает формат и структуру данных (структурированные как база данных, неструктурированные, как текст/речь, созданные человеком, или частично структурированные, как HTML). Данные могут быть как весьма сходными (например, при сборе измерений одними и теми же приборами из разных источников), так и весьма различными, без какой-либо явной связи, причем последняя оказывается существующей и существенной после некоторой обработки данных. Помимо этих трех V (Pettey and Goasduff, 2011; Laney, 2001), развились еще две характеристики, на которые часто ссылаются в контексте больших данных. Достоверность означает качество или фактическую достоверность данных. Например, поврежденные данные или неправильные значения из-за неправильных измерений данных могут ухудшить набор данных. Наконец, значение данных соответствует фактическому значению данных в заданном контексте. Например, данные об удовлетворенности клиентов очень ценны для компании.

Под большими данными подразумеваются, как правило, большие объемы, нестатические и часто обновляемые (скорость) данные, которые включают в себя различные форматы данных и, в частности, неструктурированные данные, потенциально неверные данные (достоверность) и низкую ценность по своему происхождению. Следовательно, требуется уточнение, чтобы добавить ценность. Обзоры Vs для данных наблюдения Земли можно найти в Guo et al. (2015), Нативи и др. (2015) . В частности, Нативи и соавт. (2015) пришли к выводу, среди прочего, что неоднородность «действительно воспринимается как самая важная проблема для наук о Земле и инфраструктуры наблюдений».

Изучение эволюции технологий больших данных

Стивен Боннер, . Георгиос Теодоропулос, Архитектура программного обеспечения для больших данных и облака, 2017 г.

14.7.2.3 Упрощение разработки, ориентированной на данные

Обработка больших данных обычно выполняется на больших кластерах обычных машин без общего доступа. Один из ключевых уроков MapReduce заключается в том, что необходимо разработать модель программирования, которая скрывает сложность базовой системы, но обеспечивает гибкость, позволяя пользователям расширять функциональные возможности для удовлетворения различных вычислительных требований. Хотя приложение MapReduce по сравнению с приложением MPI проще в создании, оно все же может потребовать значительных усилий по написанию кода. По мере развития фреймворков для работы с данными увеличивается количество API-интерфейсов более высокого уровня, предназначенных для дальнейшего снижения сложности создания приложений, интенсивно использующих данные. Текущие фреймворки с интенсивным использованием данных, такие как Spark, очень успешно сокращают объем кода, необходимый для создания конкретного приложения. Будущие API-интерфейсы фреймворка с интенсивным использованием данных будут продолжать совершенствоваться в четырех ключевых областях; предоставление пользователям более оптимальных процедур, обеспечение прозрачного доступа к разрозненным источникам данных, использование графических пользовательских интерфейсов (GUI) и обеспечение взаимодействия между разнородными аппаратными ресурсами.

В будущем высокоуровневые API-интерфейсы по-прежнему будут позволять платформам с интенсивным использованием данных предоставлять разработчикам приложений оптимизированные подпрограммы, обеспечивая повышение производительности с минимальными усилиями со стороны конечного пользователя. Такие системы, как Spark Dataframe API, доказали, что при тщательном проектировании высокоуровневый API может снизить сложность для пользователя и значительно повысить производительность по сравнению с низкоуровневыми API.

В будущем для работы с большими данными потребуется доступ ко все более разнообразным источникам данных. Будущие API должны будут скрывать эту сложность от конечного пользователя и обеспечивать беспрепятственную интеграцию различных источников данных (структурированных, полуструктурированных или неструктурированных данных), считываемых из различных мест (HDFS, потоковые источники и базы данных).

Один из относительно неисследованных способов снижения барьера для доступа к вычислениям с интенсивным использованием данных — создание графических интерфейсов, позволяющих пользователям без программирования или написания запросов получать доступ к средам с интенсивным использованием данных. Использование графического интерфейса также открывает другие интересные возможности, такие как взаимодействие в реальном времени и визуализация наборов данных.

API также необходимо будет продолжать развивать, чтобы скрыть сложности все более разнородного оборудования. Если сопроцессоры будут использоваться в будущих машинах для работы с большими данными, API-интерфейсы фреймворков, интенсивно использующих данные, в идеале скроют это от конечного пользователя. Пользователи должны иметь возможность писать код своего приложения, а фреймворк выберет наиболее подходящее оборудование для его запуска. Это также может включать перенос всей или части рабочей нагрузки в облако по мере необходимости.

Для системных администраторов развертывание платформ с интенсивным использованием данных на компьютерном оборудовании все еще может быть сложным процессом, особенно если требуется обширный стек. Будущие исследования необходимы для изучения методов атомарного развертывания современного стека больших данных на компьютерном оборудовании. Эти системы также должны устанавливать и оптимизировать множество параметров конфигурации, которые могут оказать большое влияние на производительность системы. Одной из первых попыток в этом направлении является Apache Ambari, хотя еще предстоит провести дальнейшие работы, такие как интеграция системы с облачной инфраструктурой. Может ли система такого типа автоматически развертывать специализированный программный стек, интенсивно использующий данные, в облаке, когда локальный ресурс заполняется, и запускать приложения в тандеме с локальным ресурсом?

Читайте также: