Как называется информация, закодированная в той или иной форме, в частности в компьютере

Обновлено: 09.07.2026

Несмотря на то, что были приложены все усилия для соблюдения правил стиля цитирования, могут быть некоторые расхождения. Если у вас есть какие-либо вопросы, обратитесь к соответствующему руководству по стилю или другим источникам.

Наши редакторы рассмотрят то, что вы отправили, и решат, нужно ли пересматривать статью.

сжатие данных, также называемое уплотнением, процесс уменьшения объема данных, необходимых для хранения или передачи определенной части информации, обычно с использованием методов кодирования. Сжатие предшествовало цифровой технологии и использовалось в азбуке Морзе, которая присваивала самые короткие коды наиболее распространенным символам, и в телефонии, которая отсекала высокие частоты при передаче голоса. Сегодня, когда несжатое цифровое изображение может занимать 20 мегабайт, сжатие данных играет важную роль при хранении информации в цифровом виде на компьютерных дисках и при ее передаче по сетям связи.

Информация закодирована в цифровом виде в виде комбинации нулей и единиц или битов (двоичных цифр). Для четырехбуквенного алфавита (a, e, r, t) потребуется два бита на символ, если все символы были равновероятными. Таким образом, все буквы в предложении «Крыса съела пирог за чаем» могут быть закодированы 2 × 18 = 36 битами. Поскольку a чаще всего встречается в этом тексте, а t стоит на втором месте, присваивается двоичный код переменной длины — a: 0, < em>t: 10, r: 110, e: 111 — приведет к сжатому сообщению длиной всего 32 бита. Эта кодировка имеет важное свойство: ни один код не является префиксом другого. То есть для разделения буквенных кодов не требуется никаких дополнительных битов: 010111 однозначно декодируется как ate.

Компьютеры размещают веб-сайты, состоящие из HTML, и отправляют текстовые сообщения так же просто, как. РЖУ НЕ МОГУ. Взломайте этот тест, и пусть какая-нибудь технология подсчитает ваш результат и раскроет вам его содержание.

Сжатие данных может быть без потерь (точное) или с потерями (неточное). Сжатие без потерь можно отменить, чтобы получить исходные данные, в то время как при сжатии с потерями теряются детали или вносятся небольшие ошибки при обращении. Сжатие без потерь необходимо для текста, где важен каждый символ, в то время как сжатие с потерями может быть приемлемым для изображений или голоса (примером сжатия с потерями является ограничение частотного спектра в телефонии). Тремя наиболее распространенными программами сжатия общих данных являются Zip (на компьютерах с операционной системой Windows), StuffIt (на компьютерах Apple) и gzip (на компьютерах с UNIX); все используют сжатие без потерь. Распространенным форматом для сжатия статических изображений, особенно для отображения в Интернете, является GIF (формат обмена графикой), который также не имеет потерь, за исключением того, что его изображения ограничены 256 цветами. Более широкий диапазон цветов можно использовать со стандартом форматирования JPEG (объединенная группа экспертов по фотографии), который использует методы как без потерь, так и с потерями, как и различные стандарты MPEG (группа экспертов по движущимся изображениям) для видео.

Чтобы программы сжатия работали, они должны иметь модель данных, описывающую распределение символов, слов или других элементов, например частоту появления отдельных символов в английском языке. Фиксированные модели, такие как приведенный выше простой пример четырехсимвольного алфавита, могут не очень хорошо характеризовать отдельный текст, особенно если текст содержит табличные данные или использует специализированный словарь. В этих случаях адаптивные модели, полученные из самого текста, могут оказаться более эффективными. Адаптивные модели оценивают распределение символов или слов на основе того, что они уже обработали. Важным свойством адаптивного моделирования является то, что если программы сжатия и распаковки используют точно такие же правила формирования модели и одну и ту же таблицу кодов, которые они присваивают ее элементам, то саму модель можно не передавать программе распаковки. Например, если программа сжатия предоставляет следующий доступный код для the, когда он просматривается в третий раз, распаковка будет следовать тому же правилу и ожидать этот код для the после его второе появление.

Кодирование может работать с отдельными символами или со словами. Коды Хаффмана используют статическую модель и создают коды, подобные показанным ранее в четырехбуквенном алфавите. Арифметическое кодирование кодирует строки символов как диапазоны действительных чисел и обеспечивает более близкие к оптимальным коды. Это медленнее, чем кодирование Хаффмана, но подходит для адаптивных моделей.Кодирование длин серий (RLE) подходит для повторяющихся данных, заменяя их числом и одной копией повторяющегося элемента. Методы адаптивного словаря создают таблицу строк, а затем заменяют их вхождения более короткими кодами. Алгоритм Лемпеля-Зива, изобретенный израильскими учеными-компьютерщиками Абрахамом Лемпелем и Джейкобом Зивом, использует сам текст в качестве словаря, заменяя более поздние вхождения строки числами, указывающими, где она встречалась раньше, и ее длину. Zip и gzip используют варианты алгоритма Лемпеля-Зива.

Сжатие с потерями расширяет эти методы, удаляя детали. В частности, цифровые изображения состоят из пикселей, которые представляют информацию о градациях серого или цвете. Когда пиксель незначительно отличается от своих соседей, его значение может быть заменено их значением, после чего «сглаженное» изображение может быть сжато с помощью RLE. В то время как сглаживание большой части изображения было бы явно очевидным, изменение гораздо менее заметно при распространении на небольшие разбросанные части. Наиболее распространенный метод использует дискретное косинусное преобразование, математическую формулу, связанную с преобразованием Фурье, которое разбивает изображение на отдельные части разного уровня важности для качества изображения. Этот метод, как и фрактальные методы, позволяет достичь превосходных коэффициентов сжатия. В то время как производительность сжатия без потерь измеряется степенью сжатия, сжатие с потерями также оценивается на основе вносимой им ошибки. Существуют математические методы расчета ошибки, но мера ошибки также зависит от того, как будут использоваться данные: например, отбрасывание высокочастотных тонов приводит к незначительным потерям для разговорных записей, но к неприемлемому ухудшению качества для музыки.

Видеоизображения могут быть сжаты путем сохранения только незначительных различий между последовательными кадрами. MPEG-1 широко используется при сжатии видео для компакт-дисков; он также является основой для формата MP3, используемого для сжатия музыки. MPEG-2 — это формат более высокого "вещательного" качества, используемый для DVD-дисков (см. компакт-диск: DVD) и некоторых телевизионных сетевых устройств. MPEG-4 разработан для приложений с «низкой пропускной способностью» и обычно используется для трансляции видео через World Wide Web (WWW). (MPEG-3 был включен в MPEG-2.) Сжатие видео может достигать степени сжатия, приближающейся к 20:1, с минимальными искажениями.

Существует компромисс между временем и памятью, которые требуются алгоритмам сжатия, и сжатием, которое они достигают. Английский текст обычно можно сжать до половины или одной трети исходного размера. Изображения часто могут быть сжаты в 10–20 и более раз. Несмотря на рост емкости компьютерной памяти и скорости сети, сжатие данных остается важным инструментом для хранения и передачи все больших объемов данных. См. также теория информации: сжатие данных; телекоммуникации: исходная кодировка.

Кодирование памяти позволяет преобразовать интересующий элемент в конструкцию, которая хранится в мозгу и может быть впоследствии вызвана.

Цели обучения

Приведите примеры того, как оптимизировать различные процессы кодирования и консолидации памяти

Ключевые выводы

Ключевые моменты

Кодирование памяти позволяет преобразовывать информацию в структуру, которая хранится в мозгу неограниченно долго; как только он закодирован, его можно вызвать из кратковременной или долговременной памяти.
Четыре основных типа кодирования: визуальное, акустическое, уточняющее и семантическое.
Кодирование воспоминаний в мозгу можно оптимизировать различными способами, включая мнемонику, фрагментацию и обучение в зависимости от состояния.
Исследования показывают, что сон имеет первостепенное значение для кодирования мозгом информации в доступные воспоминания; предполагается, что во время сна наша рабочая память кодируется в долговременную память.

Ключевые термины

семантическая: отражает предполагаемую структуру и значение.
эхоический: имитация звука; звукоподражательный.
мнемоника: что-либо (особенно что-то в словесной форме), используемое для запоминания чего-либо.

Кодирование памяти позволяет преобразовывать информацию в структуру, которая хранится в мозгу неограниченное время. После того, как он закодирован, его можно вызвать из кратковременной или долговременной памяти. На самом базовом уровне кодирование памяти похоже на нажатие «Сохранить» в компьютерном файле. После сохранения файла его можно восстановить, если жесткий диск не поврежден. «Вызов» означает извлечение ранее закодированной информации.

Процесс кодирования начинается с восприятия, которое представляет собой идентификацию, организацию и интерпретацию любой сенсорной информации, чтобы понять ее в контексте определенной среды. Стимулы воспринимаются органами чувств, и связанные с ними сигналы поступают в таламус человеческого мозга, где они синтезируются в единый опыт.Затем гиппокамп анализирует этот опыт и решает, стоит ли записывать его в долговременную память.

Кодирование осуществляется с помощью химических веществ и электрических импульсов в мозге. Нейронные пути или связи между нейронами (клетками мозга) фактически формируются или укрепляются посредством процесса, называемого долговременной потенциацией, который изменяет поток информации внутри мозга. Другими словами, когда человек переживает новые события или ощущения, мозг «перестраивает» себя, чтобы сохранить эти новые переживания в памяти.

Типы кодирования

Четыре основных типа кодирования: визуальное, акустическое, уточняющее и семантическое.

Визуальный

Визуальное кодирование – это процесс кодирования изображений и визуальной сенсорной информации. Создание мысленных образов — это один из способов, которым люди используют визуальное кодирование. Этот тип информации временно сохраняется в иконической памяти, а затем перемещается в долговременную память для хранения. Миндалевидное тело играет большую роль в визуальном кодировании воспоминаний.

Акустика

Акустическое кодирование – это использование слуховых стимулов или слуха для имплантации воспоминаний. Этому способствует так называемая фонологическая петля. Фонологическая петля – это процесс, при котором звуки репетируются на слух (или "произносятся в уме снова и снова"), чтобы их можно было запомнить.

Доработка

Уточняющее кодирование использует уже известную информацию и связывает ее с новой воспринимаемой информацией. Природа новой памяти становится настолько же зависимой от предыдущей информации, насколько и от новой информации. Исследования показали, что долговременное сохранение информации значительно улучшается за счет использования уточняющего кодирования.

Семантика

Семантическое кодирование предполагает использование сенсорных входных данных, которые имеют определенное значение или могут быть применены к контексту. Фрагментирование и мнемоника (обсуждаемые ниже) помогают в семантическом кодировании; иногда происходит глубокая обработка и оптимальный поиск. Например, вы можете запомнить определенный номер телефона по имени человека или конкретную еду по ее цвету.

Оптимизация кодирования через организацию

Не вся информация кодируется одинаково хорошо. Подумайте еще раз о нажатии «Сохранить» в компьютерном файле. Вы сохранили его в нужную папку? Был ли файл полным, когда вы его сохранили? Сможете ли вы найти его позже? На базовом уровне процесс кодирования сталкивается с аналогичными трудностями: если информация закодирована неправильно, воспроизвести ее позже будет сложнее. Процесс кодирования воспоминаний в мозгу можно оптимизировать различными способами, включая мнемонику, фрагментацию и обучение в зависимости от состояния.

Мнемотехника

Мнемотехника, которую иногда называют просто мнемоникой, – это один из способов помочь закодировать простой материал в памяти. Мнемоника — это любой метод организации, который можно использовать, чтобы что-то запомнить. Одним из примеров является система привязка слов, в которой человек «привязывает» или связывает элементы, которые необходимо запомнить, с другими элементами, которые легко запомнить. Примером этого является «Король Филипп пришел за хорошим супом», фраза-слово для запоминания порядка таксономических категорий в биологии, в которой используются те же начальные буквы, что и в словах, которые нужно запомнить: королевство, тип, класс , порядок, семейство, род, вид. Другим типом мнемоники является акроним, в котором человек сокращает список слов до их начальных букв, чтобы уменьшить нагрузку на память.

Разбивка

Разбиение на части — это процесс объединения частей объектов в осмысленные целые объекты. Тогда целое запоминается как единое целое, а не как отдельные части. Примеры фрагментации включают запоминание телефонных номеров (серии отдельных чисел, разделенных тире) или слов (серии отдельных букв).

Обучение, зависящее от состояния

Обучение, зависящее от состояния, – это когда человек запоминает информацию в зависимости от состояния ума (или настроения), в котором он находился, когда ее изучил. Подсказки для поиска составляют большую часть обучения, зависящего от состояния. Например, если человек слушал определенную песню, изучая определенные понятия, воспроизведение этой песни, скорее всего, подскажет изученные понятия. Запахи, звуки или место обучения также могут быть частью обучения, зависящего от состояния.

Консолидация памяти

Консолидация памяти — это категория процессов, которые стабилизируют след памяти после его первоначального получения. Подобно кодированию, консолидация влияет на то, доступна ли память о событии постфактум. Однако на кодирование в большей степени влияют внимание и сознательные усилия по запоминанию вещей, в то время как процессы, связанные с консолидацией, как правило, бессознательны и происходят на клеточном или неврологическом уровне. Как правило, основное внимание уделяется кодированию, в то время как консолидация является скорее биологическим процессом. Консолидация происходит даже во время сна.

Сон и память

Исследования показывают, что сон имеет первостепенное значение для консолидации информации в доступных воспоминаниях.Пока мы спим, мозг анализирует, классифицирует и отбрасывает недавние воспоминания. Одним из полезных методов улучшения памяти является использование аудиозаписи информации, которую вы хотите запомнить, и воспроизведение ее, когда вы пытаетесь заснуть. Когда вы на самом деле находитесь в первой стадии сна, обучение не происходит, потому что во время сна трудно консолидировать воспоминания (это одна из причин, по которой мы склонны забывать большинство наших снов). Однако то, что вы слышите на записи непосредственно перед тем, как заснуть, с большей вероятностью запомнится из-за вашего расслабленного и сосредоточенного состояния ума.

Роль внимания в памяти

Чтобы закодировать информацию в памяти, мы должны сначала обратить внимание, процесс, известный как захват внимания.

Цели обучения

Обсудите связь между захватом внимания и рабочей памятью

Ключевые выводы

Ключевые моменты

Исследования предполагают наличие тесной связи между рабочей памятью и так называемым захватом внимания — процессом, в котором человек обращает внимание на конкретную информацию.
Привлечение внимания может происходить как явно, так и неявно.
Явное привлечение внимания – это когда стимул, на который человек не обращал внимания, становится достаточно заметным, чтобы человек обратил на него внимание и осознал его существование.
Неявное привлечение внимания – это когда стимул, на который человек не обращал внимания, влияет на его поведение независимо от того, осознает он это воздействие или стимул или нет.
Рабочая память активно хранит множество фрагментов информации и манипулирует ими.

Ключевые термины

неявный: подразумевается косвенно, без прямого выражения.
явный: очень конкретный, ясный или подробный.
рабочая память: система, которая активно удерживает в уме множество фрагментов информации для выполнения вербальных и невербальных задач и делает их доступными для дальнейшей обработки информации.

Захват внимания

Явный захват внимания

Явный захват внимания — это когда стимул, на который человек не обращал внимания, становится достаточно заметным, чтобы человек начал обращать на него внимание и осознал его существование. Проще говоря, это когда что-то новое привлекает ваше внимание, и вы осознаете и фокусируетесь на этом новом стимуле. Вот что происходит, когда вы работаете над домашним заданием, и кто-то зовет вас по имени, привлекая все ваше внимание.

Неявный захват внимания

Неявный захват внимания – это когда стимул, на который человек не обращал внимания, влияет на его поведение независимо от того, осознает он это воздействие или стимул или нет. Если вы работаете над домашним заданием, а фоном играет тихая, но раздражающая музыка, вы можете не знать об этом, но это может повлиять на вашу общую концентрацию и производительность при выполнении домашнего задания. Неявное удержание внимания важно понимать во время вождения, потому что, хотя вы можете не знать о влиянии раздражителя, такого как громкая музыка или некомфортная температура, на ваше вождение, это, тем не менее, повлияет на вашу производительность.

Рабочая память и захват внимания

Рабочая память – это часть памяти, которая активно удерживает множество фрагментов информации в течение короткого промежутка времени и манипулирует ими. Рабочая память имеет подсистемы, которые обрабатывают визуальную и вербальную информацию, и ее возможности ограничены. Мы получаем тысячи единиц информации каждую секунду; это хранится в нашей рабочей памяти. Рабочая память решает (на основе прошлого опыта, текущих мыслей или информации в долговременной памяти), является ли какая-либо конкретная информация важной или актуальной. Другими словами, если информация не используется или считается важной, она будет забыта. В противном случае он перемещается из кратковременной памяти в долговременную.

Одним из известных примеров захвата внимания является эффект вечеринки с коктейлем, который заключается в способности сосредоточить слуховое внимание на определенном стимуле, отфильтровывая ряд других стимулов, во многом так же, как посетитель вечеринки может сосредоточиться на одном. один разговор в шумной комнате. Именно этот эффект позволяет большинству людей настраиваться на один голос и отключаться от всех остальных.

Исследования предполагают наличие тесной связи между рабочей памятью и захватом внимания или процессом концентрации внимания на определенной информации. Человек обращает внимание на данный раздражитель либо сознательно (эксплицитно, с осознанием), либо бессознательно. Затем этот стимул кодируется в рабочей памяти, после чего этой памятью манипулируют, чтобы связать его либо с другим знакомым понятием, либо с другим стимулом в текущей ситуации. Если информация считается достаточно важной для хранения на неопределенный срок, опыт будет закодирован в долговременной памяти.В противном случае она будет забыта с другой маловажной информацией. Существует несколько теорий, объясняющих, как определенная информация отбирается для кодирования, а другая отбрасывается.

Модель фильтра

Ранее принятая модель фильтра предполагает, что эта фильтрация информации из сенсорной памяти в рабочую память основана на конкретных физических свойствах раздражителей. Для каждой частоты существует отдельный нервный путь; наше внимание выбирает, какой путь активен, и таким образом может контролировать, какая информация передается в рабочую память. Таким образом, можно следить за словами одного человека с определенной частотой голоса, даже если вокруг много других звуков.

Теория затухания

Модель фильтра не совсем адекватна. Теория затухания, пересмотренная версия модели фильтра, предлагает ослаблять (то есть уменьшать) информацию, которая менее актуальна, но не отфильтровывать ее полностью. Согласно этой теории, информацию с игнорируемыми частотами можно анализировать, но не так эффективно, как информацию с релевантными частотами.

Теория позднего отбора

Теория затухания отличается от теории позднего отбора, которая предполагает, что вся информация сначала анализируется, а затем оценивается как важная или неважная; однако эта теория менее подтверждена исследованиями.

Уровни обработки

Теория уровней обработки рассматривает не только как человек получает информацию, но и то, что он делает с этой информацией.

Цели обучения

Различные уровни обработки

Ключевые выводы

Ключевые моменты

Существует три уровня обработки словесных данных: структурный, фонетический и семантический.
Структурная обработка исследует структуру слова; фонетическая обработка исследует, как звучит слово; а семантическая обработка проверяет значение слова.
Когда слово проходит через уровни обработки, мы связываем его с другими знаниями, которые у нас могут быть. Это определяет, будет ли слово перемещаться из кратковременной памяти в долговременную.

Ключевые термины

Теория уровней обработки рассматривает не только как человек получает информацию, но и то, что человек делает с информацией после ее получения, и как это влияет на общее состояние удержание. Фергус Крейк и Роберт Локхарт определили, что память не имеет фиксированных запасов пространства; скорее, есть несколько разных способов, которыми человек может кодировать и сохранять данные в своей памяти. Все пришли к единому мнению, что информацию легче перенести в долговременную память, если она может быть связана с другими воспоминаниями или информацией, с которой человек знаком.

Существует три уровня обработки вербальных данных: структурный, фонетический и семантический. Эти уровни развиваются от самого поверхностного (структурного) до самого глубокого (семантического). Каждый уровень позволяет человеку осмыслить информацию и связать ее с прошлыми воспоминаниями, определяя, следует ли перенести информацию из кратковременной памяти в долговременную. Чем глубже обработка информации, тем легче ее потом извлечь.

Структурная обработка

Структурная обработка исследует структуру слова, например шрифт набранного слова или буквы внутри него. Это то, как мы оцениваем внешний вид слов, чтобы понять их смысл и придать какой-то простой смысл.

Буквы. Обработка внешнего вида слова называется структурной обработкой.

Структурная обработка — это самый поверхностный уровень обработки: если вы видите вывеску ресторана, но занимаетесь только структурной обработкой, вы можете вспомнить, что вывеска была фиолетовой и написана курсивом, но на самом деле не помните название ресторана.

Фонетическая обработка

Фонетическая обработка — это то, как мы слышим слово — звуки, которые оно издает, когда буквы читаются вместе. Мы сравниваем звук слова с другими словами, которые мы слышали, чтобы сохранить некоторый уровень значения в нашей памяти. Фонетическая обработка более глубокая, чем структурная; то есть мы с большей вероятностью запомним вербальную информацию, если обработаем ее фонетически.

Вернемся к примеру с попыткой вспомнить название ресторана: если название ресторана не имеет для вас семантического значения (например, если это слово на другом языке, например "вермишель"), вы можете по-прежнему сможете запомнить имя, если вы обработали его фонетически и можете подумать: «Оно начинается со звука V и рифмуется со словом belly».

Семантическая обработка

Семантическая обработка — это когда мы придаем значение словам и сравниваем или связываем его со словами с похожими значениями. Этот более глубокий уровень обработки включает тщательное повторение, которое является более осмысленным способом анализа информации.Это повышает вероятность того, что информация будет храниться в долговременной памяти, поскольку она связана с ранее изученными понятиями.

Метод локусов

Одним из примеров использования более глубокой семантической обработки для улучшения удержания является использование метода локусов. Это когда вы связываете невизуальный материал с чем-то, что можно визуализировать. Создавая дополнительные связи между одним воспоминанием и другим, более знакомое воспоминание работает как сигнал для усвоения новой информации.

Представьте, что вы идете по знакомой местности, например по своей квартире. Когда вы заходите на знакомые сайты, представьте, что вы видите то, что вам нужно запомнить. Предположим, вам нужно вспомнить первых четырех президентов Соединенных Штатов: Вашингтона, Адамса, Джефферсона и Мэдисона. В вашей квартире также есть четыре комнаты: гостиная, кухня, ванная комната и спальня. Свяжите первого президента Вашингтона с первой комнатой (гостиной). Представьте, что он стоит на вашем диване, как будто это лодка, на которой он переплыл реку Делавэр. Итак, вторая комната — это кухня, и вы представляете там Джона Адамса. Подумайте о том, как он подходит к холодильнику, открывает и достает пиво и замечает, что его сварил его брат Сэмюэл. И так далее для остальных президентов…

Сертификаты могут помочь специалистам по безопасности подтвердить свои базовые знания в области информационной безопасности. Рассмотрите возможность добавления этих лучших облачных средств безопасности .

Изучите три основные проблемы безопасности при работе с несколькими арендаторами и способы их устранения, в том числе недостаточную видимость и превышение привилегий.

Если ваша компания использует поставщика облачных баз данных, очень важно обеспечить максимальную безопасность. Ознакомьтесь с функциями безопасности .

Новейшее аппаратное обеспечение Cisco и привязка Intersight к общедоступному облаку Kubernetes расширяют возможности гибридных облачных продуктов для клиентов. Но .

Чтобы преодолеть разрыв между командами NetOps и SecOps, сетевые специалисты должны знать основы безопасности, включая различные типы .

Какова реальность новых сетевых технологий? Здесь эксперты определяют риски — реальные или предполагаемые — и преимущества, которые они несут .

Подробнее об основных функциях, отличительных чертах, сильных и слабых сторонах платформ блокчейна, которые получают максимальную отдачу .

Эксперты высоко оценивают недавно предложенное Комиссией по ценным бумагам и биржам США правило раскрытия информации о климатических рисках, которое требует от компаний выявлять климатические риски .

Недавнее мероприятие Accenture Technology Vision подчеркнуло трансформационные возможности виртуальных миров, а также указало на .

ИТ-администраторам, рассматривающим возможность перехода на Windows 11, следует узнать, как функции версии Enterprise могут помочь их .

Последняя сборка для разработчиков Windows 11 позволяет открывать несколько папок в приложении для управления файлами. Предполагается, что эта функция .

Администраторам настольных компьютеров следует обратить внимание на собственные функции безопасности и архитектуру Windows 10, чтобы установить базовый уровень настольных компьютеров.

Nvidia запустила облачную версию своей платформы Omniverse для 3D-моделирования. Компания также представила Omniverse .

Преодолейте сбои AWS, научившись создавать многорегиональную архитектуру, обеспечивающую отказоустойчивость в случае аварии.

Чтобы добиться высокой доступности и отказоустойчивости в AWS, ИТ-администраторы должны сначала понять различия между двумя моделями.

ЕС и США согласовывают структуру конфиденциальности данных, разрешающую трансатлантическую передачу данных после того, как США предложат уступки в отношении слежки и новых данных.

Европейская комиссия предложила новые правила кибербезопасности и информационной безопасности для создания минимального набора стандартов.

Семь человек арестованы лондонской полицией в связи с кибератаками, совершенными группой Lapsus$, которая несет ответственность за ряд .

Целевая аудитория: авторы контента, пользователи и все, кто не знает, что такое кодировка символов, и хочет получить краткую информацию о том, как она на них влияет.

Вопрос

Что такое кодировка символов и зачем мне это?

Ответить

Во-первых, какое мне дело?

Если вы используете какой-либо другой текст, кроме самого простого английского текста, люди могут не прочитать созданный вами контент, пока вы не скажете, какую кодировку символов вы использовали.

Например, вы можете сделать так, чтобы текст выглядел так:

но на самом деле это может выглядеть так:

Отсутствие информации о кодировке символов не только ухудшает читаемость отображаемого текста, но и может означать, что ваши данные не могут быть найдены поисковой системой или надежно обработаны машинами рядом других способов.

Так что же такое кодировка символов?

Слова и предложения в тексте создаются из файлов . Примеры символов включают латинскую букву á, китайскую иероглифику 請 или иероглиф деванагари ह .

Возможно, вы не сможете увидеть некоторые символы на этой странице, потому что у вас нет необходимых шрифтов. Если вы нажмете на то место, где вы ожидали увидеть символ, вы перейдете к графической версии.Эта страница закодирована в UTF-8.

Символы, необходимые для определенной цели, группируются в (также называемые ). (Для однозначного обращения к символам каждый символ связан с числом, называемым .)

Символы хранятся в компьютере как один или несколько .

В принципе, вы можете визуализировать это, предположив, что все символы хранятся в компьютерах с использованием специального кода, подобного шифрам, используемым в шпионаже. A предоставляет ключ для разблокировки (т.е. взлома) кода. Это набор сопоставлений между байтами в компьютере и символами в наборе символов. Без ключа данные выглядят как мусор.

Этот вводящий в заблуждение термин часто используется для обозначения того, что на самом деле является кодировкой символов. Вы должны знать об этом использовании, но по возможности придерживайтесь термина кодировки символов.

Таким образом, когда вы вводите текст с помощью клавиатуры или каким-либо другим способом, кодировка символов сопоставляет выбранные вами символы с определенными байтами в памяти компьютера, а затем для отображения текста считывает байты обратно в символы.

К сожалению, существует множество различных наборов символов и кодировок, т.е. множество различных способов отображения между байтами, кодовыми точками и символами. В разделе «Дополнительная информация» для тех, кто интересуется, немного больше подробностей.

Однако в большинстве случаев вам не нужно знать подробности. Вам просто нужно быть уверенным, что вы прислушаетесь к советам в разделе Как это на меня повлияет? ниже.

Как в это вписываются шрифты?

A — это набор определений глифов, т.е. определения фигур, используемых для отображения символов.

После того как ваш браузер или приложение определит, с какими символами он имеет дело, он будет искать в шрифте глифы, которые можно использовать для отображения или печати этих символов. (Конечно, если информация о кодировке была неверной, она будет искать глифы для неправильных символов.)

Заданный шрифт обычно охватывает один набор символов или, в случае большого набора символов, такого как Unicode, только подмножество всех символов в наборе. Если в вашем шрифте нет глифа для определенного символа, некоторые браузеры или программные приложения будут искать отсутствующие глифы в других шрифтах в вашей системе (это будет означать, что глиф будет отличаться от окружающего текста, например, примечание о выкупе). ). В противном случае вы обычно увидите квадратную рамку, вопросительный знак или какой-либо другой символ. Например:

Как это влияет на меня?

В настоящее время как автор или разработчик контента вы всегда должны выбирать кодировку символов UTF-8 для своего контента или данных. Эта кодировка Unicode является хорошим выбором, потому что вы можете использовать кодировку одного символа для обработки любого символа, который вам может понадобиться. Это сильно упрощает дело. Использование Unicode во всей вашей системе также избавляет от необходимости отслеживать и преобразовывать различные кодировки символов.

Авторам контента необходимо выяснить, как объявить кодировку символов, используемую для формата документа, с которым они работают.

Обратите внимание, что простое объявление другой кодировки на вашей странице не изменит байты; вам также нужно сохранить текст в этой кодировке.

Разработчикам необходимо убедиться, что различные части системы могут взаимодействовать друг с другом, понимать, какие кодировки символов используются, и поддерживать все необходимые кодировки и символы. (В идеале вы должны использовать кодировку UTF-8 везде и избавитесь от этой проблемы.)

По приведенным ниже ссылкам можно найти дополнительную информацию по этим темам.

Дополнительная информация

В этом разделе содержится небольшая дополнительная информация о сопоставлении между байтами, кодовыми точками и символами для тех, кому это интересно. Не стесняйтесь просто перейти к разделу «Дополнительная литература».

Обратите внимание, что числа кодовых точек обычно выражаются в шестнадцатеричной системе счисления, т.е. основание 16. Например, 233 в шестнадцатеричной форме равно E9. Значения кодовой точки Unicode обычно записываются в форме U+00E9.

В наборе кодированных символов ISO 8859-1 (также известном как Latin1) значение десятичного кода для буквы é равно 233. Однако в ISO 8859-5 та же самая кодовая точка представляет кириллический символ щ .

Эти наборы символов содержат менее 256 символов и напрямую сопоставляют кодовые точки со значениями байтов, поэтому кодовая точка со значением 233 представлена одним байтом со значением 233. Обратите внимание, что только контекст определяет, будет ли этот байт представляет либо é, либо sch .

Есть и другие способы обработки символов из ряда сценариев. Например, с помощью набора символов Unicode вы можете представлять оба символа в одном наборе. На самом деле Unicode содержит в одном наборе, вероятно, все символы, которые вам когда-либо понадобятся. В то время как буква é по-прежнему представлена кодовой точкой 233, кириллический символ щ теперь имеет кодовую точку 1097.

В наши дни байты обычно состоят из 8 бит. Их всего 2 8 (т.256) уникальных способов объединения 8 битов.

С другой стороны, 1097 — слишком большое число, чтобы его можно было представить одним байтом*. Итак, если вы используете кодировку символов для текста Unicode, называемую UTF-8, щ будет представлена двумя байтами. Однако значение кодовой точки получается не просто из значения двух соединенных вместе байтов — требуется более сложное декодирование.

Другие символы Юникода соответствуют одному, трем или четырем байтам в кодировке UTF-8.

Кроме того, обратите внимание, что буква é также представлена двумя байтами в UTF-8, а не одним байтом, который используется в ISO 8859-1. (Только символы ASCII кодируются одним байтом в UTF-8.)

UTF-8 — это наиболее широко используемый способ представления текста Unicode на веб-страницах, и вы всегда должны использовать UTF-8 при создании своих веб-страниц и баз данных. Но, в принципе, UTF-8 — это лишь один из возможных способов кодировки символов Юникода. Другими словами, одна кодовая точка в наборе символов Unicode может фактически отображаться в различные последовательности байтов, в зависимости от того, какая кодировка использовалась для документа. Кодовые точки Unicode могут быть сопоставлены с байтами с использованием любой из кодировок, называемых UTF-8, UTF-16 или UTF-32. Символ деванагари क с кодовой точкой 2325 (что равно 915 в шестнадцатеричной записи) будет представлен двумя байтами при использовании кодировки UTF-16 (09 15), тремя байтами при использовании UTF-8 (E0 A4 95) или четырьмя байтами. байт с кодировкой UTF-32 (00 00 09 15).

Могут быть дополнительные сложности помимо описанных в этом разделе (например, порядок байтов и escape-последовательности), но описанные здесь подробности показывают, почему важно, чтобы приложение, с которым вы работаете, знало, какая кодировка символов подходит для ваших данных. , и знает, как обращаться с этой кодировкой.

Дополнительная литература

Начинаете? Введение в наборы символов и кодировки — указывает на другие документы W3C, связанные с наборами символов и кодировками

Учебное пособие, Работа с кодировками символов в HTML и CSS. Советы по выбору кодировки, ее объявлению и другим темам, связанным с HTML и CSS.

Настройка кодировки в веб-приложениях для разработки — как заставить ваш редактор сохранять в другой кодировке список сред редактирования.

В этой главе объясняется, как выбрать набор символов. Он включает следующие темы:

Кодировка набора символов

Когда компьютерные системы обрабатывают символы, они используют числовые коды вместо графического представления символа. Например, когда в базе данных хранится буква A, на самом деле в ней хранится числовой код, интерпретируемый программным обеспечением как буква. Эти числовые коды особенно важны в глобальной среде из-за потенциальной необходимости преобразования данных между различными наборами символов.

Этот раздел включает следующие темы:

Что такое кодированный набор символов?

При создании базы данных вы указываете набор закодированных символов. Выбор набора символов определяет, какие языки могут быть представлены в базе данных. Это также влияет на:

Как вы создаете схему базы данных

Как вы разрабатываете приложения, обрабатывающие символьные данные

Как база данных работает с операционной системой

Для хранения данных символов требуется место для хранения

Группа символов (например, буквы алфавита, иероглифы, символы, знаки пунктуации и управляющие символы) может быть закодирована как набор символов. Закодированный набор символов назначает уникальные числовые коды каждому символу в репертуаре символов. Числовые коды называются кодовыми точками или закодированными значениями. В Табл. 2-1 показаны примеры символов, которым присвоено шестнадцатеричное кодовое значение в наборе символов ASCII.

Таблица 2-1 Символы, закодированные в наборе символов ASCII

Компьютерная индустрия использует множество кодированных наборов символов. Наборы символов различаются следующим образом:

Количество доступных символов

Доступные персонажи (репертуар персонажей)

Письма, используемые для письма, и языки, которые они представляют

Кодовые значения, присвоенные каждому символу

Схема кодирования, используемая для представления символа

Oracle поддерживает большинство национальных, международных и специфичных для поставщиков стандартов кодирования наборов символов.

"Наборы символов" для полного списка наборов символов, поддерживаемых Oracle

Какие символы закодированы?

Символы, закодированные в наборе символов, зависят от представленных систем письма. Система письма может использоваться для представления языка или группы языков. Системы письма можно разделить на две категории:

Этот раздел также включает следующие темы:

Системы фонетического письма

Системы фонетического письма состоят из символов, обозначающих различные звуки, связанные с языком. Греческий, латинский, кириллица и деванагари — все это примеры фонетических систем письма, основанных на алфавитах.Обратите внимание, что алфавиты могут представлять более одного языка. Например, латинский алфавит может представлять многие западноевропейские языки, такие как французский, немецкий и английский.

Символы, связанные с фонетической системой письма, обычно могут быть закодированы одним байтом, поскольку репертуар символов обычно меньше 256 символов.

Идеографические системы письма

Системы идеографического письма состоят из идеограмм или пиктограмм, которые представляют значение слова, а не звуки языка. Китайский и японский языки являются примерами систем идеографического письма, основанных на десятках тысяч идеограмм. Языки, использующие идеографические системы письма, также могут использовать слоговое письмо. Слоговые слова обеспечивают механизм для передачи дополнительной фонетической информации. Например, в японском есть два слоговых письма: хирагана, обычно используемая для грамматических элементов, и катакана, обычно используемая для иностранных и звукоподражательных слов.

Символы, связанные с идеографической системой письма, обычно кодируются более чем одним байтом, поскольку репертуар символов насчитывает десятки тысяч символов.

Пунктуация, управляющие знаки, цифры и символы

Помимо кодирования алфавита языка необходимо кодировать и другие специальные символы:

Знаки препинания, такие как запятые, точки и апострофы

Специальные символы, такие как символы валюты и математические операторы

Управляющие символы, такие как возврат каретки и табуляция

Направление написания

Большинство западных языков пишут слева направо сверху вниз страницы. На восточноазиатских языках обычно пишут сверху вниз справа налево на странице, хотя для технических книг, переведенных с западных языков, часто делаются исключения. На арабском и иврите пишут справа налево сверху вниз.

Цифры в обратном направлении на арабском языке и иврите. Хотя текст пишется справа налево, числа в предложении пишутся слева направо. Например, «Я написал 32 книги» будет записано как «skoob 32 etorw I». Независимо от направления записи Oracle хранит данные в логическом порядке. Логический порядок означает порядок, в котором кто-то печатает язык, а не то, как он выглядит на экране.

Направление письма не влияет на кодировку символа.

Какие символы поддерживает набор символов?

Разные наборы символов поддерживают разные репертуары символов. Поскольку наборы символов обычно основаны на определенном сценарии письма, они могут поддерживать более одного языка. Когда наборы символов были впервые разработаны, у них был ограниченный набор символов. Даже сейчас могут быть проблемы с использованием определенных персонажей на разных платформах. Следующие символы CHAR и VARCHAR представлены во всех наборах символов базы данных Oracle и могут переноситься на любую платформу:

Прописные и строчные буквы английского алфавита от A до Z и от a до z

Арабские цифры от 0 до 9

Следующие управляющие символы: пробел, горизонтальная табуляция, вертикальная табуляция, перевод страницы

Если вы используете символы вне этого набора, позаботьтесь о том, чтобы ваши данные поддерживались в выбранном вами наборе символов базы данных.

Правильная установка параметра NLS_LANG необходима для правильного преобразования данных. Набор символов, заданный параметром NLS_LANG, должен отражать настройку операционной системы клиента. Правильная установка NLS_LANG обеспечивает правильное преобразование из кодировки символов клиентской операционной системы в набор символов базы данных. Если эти настройки совпадают, Oracle предполагает, что отправляемые или получаемые данные закодированы в том же наборе символов, что и набор символов базы данных, поэтому проверка или преобразование набора символов могут не выполняться. Это может привести к повреждению данных, если потребуется преобразование.

Во время преобразования из одного набора символов в другой Oracle ожидает, что данные на стороне клиента будут закодированы в наборе символов, заданном параметром NLS_LANG. Если вы поместите в строку другие значения (например, с помощью функций CHR или CONVERT SQL), то значения могут быть повреждены при отправке в базу данных, поскольку они не преобразованы должным образом. Если вы правильно сконфигурировали среду и если набор символов базы данных поддерживает весь репертуар символьных данных, которые могут быть введены в базу данных, вам не нужно изменять текущий набор символов базы данных. Однако, если ваше предприятие становится более глобальным и вам необходимо поддерживать дополнительные символы или новые языки, вам может потребоваться выбрать набор символов с более широким репертуаром символов. Корпорация Oracle рекомендует в таких случаях использовать базы данных и типы данных Unicode.

Справочник Oracle Database SQL для получения дополнительной информации о функциях CHR и CONVERT SQL

Кодировка ASCII

Таблица 2-2 показывает, как кодируется символ ASCII.Заголовки строк и столбцов обозначают шестнадцатеричные цифры. Чтобы найти закодированное значение символа, прочитайте номер столбца, за которым следует номер строки. Например, кодовое значение символа A равно 0x41.

Читайте также: