Как называется таблица кодирования, используемая в большинстве современных персональных компьютеров

Обновлено: 01.07.2024

Если вам интересно, какая схема кодирования используется большинством микрокомпьютеров, давайте перейдем к изучению того, как она работает.

В этой сегодняшней статье вы узнаете о схемах кодирования в микрокомпьютерах.

Вот краткий список содержания этой статьи.

Оглавление

Давайте без промедления углубимся в детали.

Что такое схема кодирования?

Схема кодирования в компьютерах формирует стандарт для представления данных. Проще говоря, схема кодирования определяет правила для представления данных с помощью специальных фраз, текста или символов.

Схема кодирования помогает компьютеру лучше интерпретировать инструкции. Если схема кодирования отсутствует, инструкции могут быть неверно истолкованы, что приведет к созданию непреднамеренных выходных данных.

Что касается производительности, характерной для различных схем кодирования, ASCII хорошо подходит для современных компьютеров. Существуют также схемы кодирования, характерные для специальных компьютеров, таких как мейнфреймы.

Среди всех схем кодирования Unicode является схемой кодирования более высокого уровня. Однако, когда речь идет о персональных ПК, в современных ПК обычно используется кодировка ASCII.

Различные схемы кодирования работают с различными возможностями представления и обработки данных. Проще говоря, чем больше схема кодирования может предоставить большее количество битов представления или памяти, тем лучше она может обрабатывать информацию.

Какая схема кодирования используется в большинстве микрокомпьютеров?

В компьютерах существуют разные схемы кодирования для представления данных. Но среди схем кодирования в большинстве компьютеров широко используется ASCII.

Итак, простыми словами, схема кодирования ASCII используется большинством микрокомпьютеров. Кодировка ASCII была изобретена ANSI в 1968 году и широко используется в персональных компьютерах.

Примечание. ANSI означает Американский национальный институт стандартов, а ASCII – американский стандартный код для обмена информацией.

Схема кодирования чрезвычайно важна для компьютеров. Без схемы кодирования представление информации в памяти компьютера или ее обработка невозможны.

Современные персональные компьютеры используют двоичные цифры (0 и 1) для обработки и хранения данных. Когда дело доходит до схем кодирования, компьютеры используют разные схемы для преобразования данных в двоичную форму.

Различные типы схем кодирования

Когда дело доходит до использования схем кодирования для преобразования, обработки или хранения данных в памяти компьютера, ПК используют разные схемы для выполнения процесса кодирования.

Процесс кодирования относится к преобразованию данных из простой формы в двоичное состояние. После завершения процесса кодирования компьютеры могут обрабатывать данные или выполнять действия по сохранению данных.

Вот некоторые популярные схемы кодирования с краткими описаниями.

BCD (двоично-десятичный код) обычно используется на старых компьютерах. Он состоит в представлении каждой десятичной цифры четырьмя двоичными цифрами.

EBCDIC (расширенный двоично-десятичный код обмена) в основном используется мейнфреймами. Мейнфреймы большие, а EBCDIC помогает мейнфреймам представлять данные в 256 символов.

ASCII (американский стандартный код для обмена информацией) широко используется в современных компьютерах. ASCII помогает персональным компьютерам кодировать данные, используя 128 символов. Проще говоря, ASCII — это схема кодирования, используемая в большинстве персональных компьютеров.

Unicode современнее ASCII и может представлять данные в 65 536 символов. Юникод помогает компьютерам легко представлять символы на любом языке мира.

Заключение

Итак, можете ли вы сказать, какая схема кодирования используется в большинстве микрокомпьютеров?

ASCII – широко используемая схема кодирования в микрокомпьютерах. Он разработан ANSI, американской системой или учреждением, расшифровывается как Американский национальный институт стандартов.

На современных ПК Unicode также используется как ASCII. На мой взгляд, Unicode может иметь преимущество перед ASCII, когда речь идет о производительности и скорости. Вы также можете посетить этот ресурс, чтобы узнать больше о схемах кодирования в компьютерах.

Раздел 404 Закона Сарбейнса-Оксли (SOX) требует, чтобы все публичные компании установили внутренний контроль и процедуры.

Закон о защите конфиденциальности детей в Интернете от 1998 года (COPPA) – это федеральный закон, который налагает особые требования на операторов доменов .

План North American Electric Reliability Corporation по защите критически важной инфраструктуры (NERC CIP) представляет собой набор стандартов.

Стандарт безопасности данных платежных приложений (PA-DSS) – это набор требований, призванных помочь поставщикам программного обеспечения в разработке безопасных .

Взаимная аутентификация, также называемая двусторонней аутентификацией, представляет собой процесс или технологию, в которой оба объекта обмениваются данными .

Экранированная подсеть или брандмауэр с тройным подключением относится к сетевой архитектуре, в которой один брандмауэр используется с тремя сетями .

Медицинская транскрипция (МТ) – это ручная обработка голосовых сообщений, продиктованных врачами и другими медицинскими работниками.

Электронное отделение интенсивной терапии (eICU) — это форма или модель телемедицины, в которой используются самые современные технологии.

Защищенная медицинская информация (PHI), также называемая личной медицинской информацией, представляет собой демографическую информацию, медицинскую .

Снижение рисков – это стратегия подготовки к угрозам, с которыми сталкивается бизнес, и уменьшения их последствий.

Отказоустойчивая технология — это способность компьютерной системы, электронной системы или сети обеспечивать бесперебойное обслуживание.

Синхронная репликация — это процесс копирования данных по сети хранения, локальной или глобальной сети, поэтому .

Коэффициент усиления записи (WAF) – это числовое значение, представляющее объем данных, передаваемых контроллером твердотельного накопителя (SSD) .

API облачного хранилища — это интерфейс прикладного программирования, который соединяет локальное приложение с облачным хранилищем.

Интерфейс управления облачными данными (CDMI) – это международный стандарт, определяющий функциональный интерфейс, используемый приложениями.

Однако сегодня, работая с сетевыми протоколами и сетевым программированием, вы столкнетесь с множеством схем кодирования данных и символов.

В этом руководстве мы рассмотрим основные схемы кодирования, используемые на компьютерах, а во второй части руководства мы рассмотрим, как данные передаются по сети.

Символы, целые числа, числа с плавающей точкой и т. д.

При хранении и передаче данных вам необходимо будет представлять следующие типы данных:

  • Символы и цифры, например A и 1
  • Длинные (32 бита) и короткие (16 бит) целые числа со знаком и без знака
  • Одинарное и двойное число с плавающей запятой
  • Логическое значение, т. е. True и False

Так как же компьютер запоминает букву А или цифру 1?

Как компьютер запоминает число вроде 60101? или 62.0101?

Как передать букву А и т. д. на другой компьютер по сети?

Компьютеры и кодировка символов

Чтобы сохранить текст в виде двоичных данных, необходимо указать кодировку для этого текста.

Компьютерные системы могут использовать различные схемы кодирования символов.

Пока данные остаются на компьютере, совершенно неважно, как они закодированы.

Однако для передачи данных между системами необходимо использовать стандартную схему кодирования.

В 1968 году ASCII (Американский стандартный код для обмена информацией) был принят в качестве стандарта кодирования текста для обмена данными.

ASCII

ASCII – это американский стандарт, разработанный для кодирования английских символов и знаков препинания, которые использовались на пишущих машинках и телетайпах того времени (1960-е годы).

ASCII использует 8 бит, хотя на самом деле используется только 7 бит.

Поскольку кодировка ASCII была разработана во время эксплуатации устройств телетайпа, она также содержит управляющие коды, предназначенные для управления устройством телетайпа.

В таблице ниже представлены сводные данные о распределении кодов.

Таблица ASCII – сводка кодов

Расширения ASCII

Поскольку ASCII не может кодировать такие символы, как знак фунта £ или распространенные символы немецкого и других европейских языков, были разработаны различные расширения.

Эти расширения сохранили набор символов ASCII и использовали неиспользуемую часть адресного пространства и управляющие коды для дополнительных символов.

Наиболее распространенными являются Windows 1252 и Latin-1 (ISO-8859).

Windows 1252 и 7-битная кодировка ASCII были наиболее широко используемыми схемами кодирования до 2008 года, когда UTF-8 стал наиболее распространенным.

ISO-8859-1,ISO-8859-15, Latin-1

ISO-8859 — это 8-битная кодировка символов, которая расширяет 7-битную схему кодирования ASCII и используется для кодирования большинства европейских языков. Подробнее см. вики.

ISO-8859-1, также известный как Latin-1, является наиболее широко используемым, поскольку его можно использовать для большинства распространенных европейских языков, например немецкого, итальянского, испанского, французского и т. д.

Она очень похожа на схему кодирования Windows-1252, но не идентична, см. Сравнение символов в Windows-1252, ISO-8859-1, ISO-8859-15

Юникод

В связи с необходимостью кодирования символов иностранных языков и других графических символов был разработан набор символов Unicode и схемы кодирования.

Самые распространенные схемы кодирования:

UTF-8 – это наиболее часто используемая схема кодирования, используемая в современных компьютерных системах и компьютерных сетях.

Это схема кодирования переменной ширины, разработанная для полной обратной совместимости с ASCII. Он использует от 1 до 4 байт. – вики

Наборы символов и схемы кодирования

Разница между ними не всегда ясна, и термины, как правило, используются взаимозаменяемо.

Набор символов — это список символов, а схема кодирования — это то, как они представлены в двоичном формате.

Это лучше всего видно с Unicode.

Схемы кодирования UTF-8, UTF-16 и UTF-32 используют набор символов Unicode, но кодируют символы по-разному.

ASCII – это набор символов и схема кодирования.

Знак порядка байтов (BOM)

Знак порядка байтов (BOM) — это символ Unicode, U+FEFF, который появляется как магическое число в начале текстового потока и может сигнализировать программе, потребляющей текст, о нескольких вещах: –Wiki

  • Порядок байтов или порядок следования байтов в текстовом потоке;
  • Тот факт, что кодировка текстового потока — Unicode, с высокой степенью достоверности;
  • Какой Unicode кодирует текстовый поток.

Спецификация различается для текста в кодировке UTF-8, UTF-16 и UTF-32

Следующая таблица, взятая из Wiki, показывает это.

bom-table- пример

Спецификации и текстовые редакторы

Как правило, большинство редакторов правильно обрабатывают спецификацию, и она не отображается.

Программное обеспечение Microsoft, такое как Блокнот, добавляет спецификацию при сохранении данных в кодировке UTF-8 и не может интерпретировать текст без спецификации, если он не является чистым ASCII.

Пример спецификации

Ниже приведен вывод простой программы на Python, которая отображает содержимое файла, содержащего символы TEST (4 символа), сохраненные в виде ASCII, UTF-8, UTF-16-BE и UTF-16-LE

BOM-example

Распространенные вопросы и ответы

В. Как узнать, какую кодировку символов использует файл?

A- Обычно это не так, но некоторые текстовые редакторы, такие как notepad++, отображают кодировку. Если вы получили файл, закодированный с помощью кодировки, отличной от ожидаемой, вы можете получить сообщение об ошибке при попытке его чтения.

В. Мой файл в формате ASCII, но он нормально декодируется с помощью декодера UTF-8. Почему?

A- Потому что UTF-8 обратно совместим с ASCII.

Целые числа и числа с плавающей запятой — Big и Little Endian

Примечание. Поскольку в кодировках UTF-16 и UTF-32 используются 2-байтовые или 4-байтовые целые числа, к кодированию текста с их использованием применяется следующее

Количество байтов, выделенных для целого числа или числа с плавающей запятой, зависит от системы.

Пункт Tutorials описывает это для языка программирования C, и я буду использовать его для иллюстрации

Если мы возьмем короткое целое как 2 байта, а длинное целое как 4 байта.

Поскольку они используют несколько байтов, возникает несколько вопросов:

  • Какой байт представляет старшую часть числа?
  • При сохранении в памяти, какой байт сохраняется первым
  • При отправке по сети какой байт отправляется первым.

Окончание байтов относится к последовательному порядку, в котором байты упорядочиваются в более крупные числовые значения при сохранении в памяти или при передаче по цифровым каналам связи.
Окончание байтов представляет интерес в информатике, потому что два конфликтующих и несовместимых формата широко используются: слова могут быть представлены в формате с прямым порядком байтов или прямым порядком байтов, в зависимости от того, упорядочены ли биты, байты или другие компоненты от большого конец (самый значащий бит) или маленький конец (наименьший значащий бит).
В формате с обратным порядком байтов всякий раз, когда адресуется память или отправляются/сохраняются слова побайтно, старший значащий байт — байт, содержащий старший значащий бит — сохраняется сначала (имеет младший адрес) или отправляется первым, затем следующие байты сохраняются или отправляются в порядке убывания значимости, причем младший байт — тот, который содержит младший значащий бит — сохраняется последним (имеет самый высокий адрес) или отправляется последним.

Вики

int- Пример кодирования байтов

На приведенном ниже рисунке с использованием python показано целое число 16, представленное в виде 4 байтов, с использованием порядка байтов с прямым и обратным порядком байтов.

Сетевой порядок байтов и системный порядок байтов

Сетевой порядок байтов – это порядок расположения байтов при отправке данных по сети. ( TCP/IP обычно имеет формат Big Endian ).

Это означает, что старший байт отправляется первым.

Системный порядок байтов или порядок байтов хоста — это способ размещения байтов при сохранении в памяти хост-системы.

Несмотря на то, что были приложены все усилия для соблюдения правил стиля цитирования, могут быть некоторые расхождения. Если у вас есть какие-либо вопросы, обратитесь к соответствующему руководству по стилю или другим источникам.

Наши редакторы рассмотрят то, что вы отправили, и решат, нужно ли пересматривать статью.

ASCII, сокращение от American Standard Code For Information Interchange, стандартный код передачи данных, который используется небольшими и менее мощными компьютерами для представления как текстовых данных (букв, цифр и знаков препинания), так и команд, не предназначенных для устройства ввода ( управляющие символы).Как и другие системы кодирования, она преобразует информацию в стандартизированные цифровые форматы, которые позволяют компьютерам взаимодействовать друг с другом, а также эффективно обрабатывать и хранить данные.

Код ASCII изначально был разработан для телетайпов, но со временем нашел широкое применение в персональных компьютерах. Стандартный код ASCII использует семизначные двоичные числа; то есть числа, состоящие из различных последовательностей нулей и единиц. Код может представлять 128 различных символов, поскольку существует 128 различных возможных комбинаций семи нулей и единиц. Двоичная последовательность 1010000, например, представляет собой букву «P» в верхнем регистре, а последовательность 1110000 представляет букву «p» в нижнем регистре.

Цифровые компьютеры используют двоичный код, состоящий из восьми, а не семи цифр или битов. Каждая такая восьмизначная группа называется байтом. Поскольку в цифровых компьютерах используются восьмибитные байты, код ASCII обычно встраивается в восьмибитное поле, состоящее из семи информационных битов и бита четности, которое используется для проверки ошибок или для представления специальных символов. Использование восьмибитной системы увеличило количество символов, которые может представлять код, до 256. Восьмибитная система, известная как расширенный код ASCII, была введена в 1981 году компанией International Business Machines Corporation (IBM) для использования. со своей первой моделью персонального компьютера. Этот расширенный код ASCII вскоре стал отраслевым стандартом для персональных компьютеров. В нем используются 32 кодовые комбинации для машинных и управляющих команд, таких как «начало текста», «возврат каретки» и «подача страницы». Следующая группа из 32 комбинаций используется для чисел и различных знаков препинания. Другая группа из 32 комбинаций используется для прописных букв и нескольких других знаков препинания, а последние 32 комбинации используются для строчных букв.

В мэйнфреймах и миникомпьютерах используется другая система кодирования, EBCDIC (расширенный двоично-десятичный код обмена).

Есть 95 символов ASCII для печати символов, пронумерованных от 32 до 126

ASCII (Американский стандартный код для обмена информацией), обычно произносится [ˈæski] , представляет собой кодировку символов, основанную на английском алфавите. Коды ASCII представляют текст в компьютерах, коммуникационном оборудовании и других устройствах, которые работают с текстом. Большинство современных кодировок символов, которые поддерживают гораздо больше символов, имеют историческую основу в ASCII.

ASCII был впервые опубликован в качестве стандарта в 1967 году и последний раз обновлялся в 1986 году. В настоящее время он определяет коды для 128 символов. 33 являются непечатаемыми, в основном устаревшими управляющими символами, влияющими на обработку текста, а остальные 95 печатных символов выглядят следующим образом (начиная с пробела):

Обзор

Как и другие компьютерные коды представления символов, ASCII задает соответствие между цифровыми битовыми шаблонами и символами/глифами письменного языка, что позволяет цифровым устройствам взаимодействовать друг с другом, а также обрабатывать, хранить и передавать информацию, ориентированную на символы. Кодировка символов ASCII — или совместимое расширение (см. ниже) — используется почти на всех обычных компьютерах, особенно на персональных компьютерах и рабочих станциях. Предпочтительным именем MIME для этой кодировки является "US-ASCII".

ASCII — это, строго говоря, семибитный код, что означает, что он использует битовые шаблоны, представленные семью двоичными цифрами (в диапазоне от 0 до 127 десятичных знаков), для представления символьной информации. В то время, когда была введена ASCII, многие компьютеры имели дело с восьмибитными группами (байтами или, точнее, с октетами) как с наименьшей единицей информации; восьмой бит обычно использовался в качестве бита четности для проверки ошибок на линиях связи или других функций, специфичных для устройства. Машины, не использующие контроль четности, обычно устанавливают восьмой бит равным нулю, хотя в некоторых системах, таких как компьютеры Prime, на которых работает PRIMOS, восьмой бит символов ASCII устанавливается равным единице.

ASCII определяет отношения только между определенными символами и битовыми последовательностями; кроме резервирования нескольких управляющих кодов для линейного форматирования, он не определяет никакого механизма для описания структуры или внешнего вида текста в документе. Такие концепции находятся в сфере других систем, таких как языки разметки.

История

ASCII был разработан на основе телеграфных кодов и впервые вошел в коммерческое использование в качестве семибитного кода телетайпа, продвигаемого службой данных Bell в 1963 году. Ранее в Bell System планировалось использовать шестибитный код, заимствованный из Fieldata, который добавлял пунктуацию и строчные буквы в более ранний пятибитный код телетайпа Бодо, но вместо этого его уговорили присоединиться к подкомитету ASA, который начал разработку ASCII.Бодо помог автоматизировать отправку и получение телеграфных сообщений и взял многие функции из азбуки Морзе; однако, в отличие от азбуки Морзе, Бодо использовал коды постоянной длины. По сравнению с более ранними телеграфными кодами предложенный код Белла и ASCII претерпели переупорядочение для более удобной сортировки (особенно в алфавитном порядке) списков, а также добавили функции для устройств, отличных от телетайпов. Боб Бемер представил такие функции, как «управляющая последовательность». Его британский коллега Хью МакГрегор Росс помог популяризировать эту работу, как сказал Бемер, «настолько, что код, который должен был стать ASCII, впервые в Европе назвали кодом Бемера-Росса».

Американская ассоциация стандартов (ASA, позже переименованная в ANSI) впервые опубликовала ASCII в качестве стандарта в 1963 году. В ASCII-1963 отсутствовали строчные буквы, вместо знака вставки (^) использовалась стрелка вверх (↑) и стрелка влево ( ← ) вместо подчеркивания (_). В версии 1967 года добавлены строчные буквы, изменены названия нескольких управляющих символов и перемещены два элемента управления ACK и ESC из области строчных букв в область управляющих кодов.

Впоследствии ASCII был обновлен и опубликован как ANSI X3.4-1968, ANSI X3.4-1977 и, наконец, ANSI X3.4-1986.

  • Европейская ассоциация производителей компьютеров опубликовала выпуски своего клона ASCII, ECMA-6, в 1965, 1967, 1970, 1973, 1983 и 1991 гг. Издание 1991 г. совпадает с ANSI X3.4-1986.
  • Международная организация по стандартизации опубликовала свою версию ISO 646 (позже ISO/IEC 646) в 1967, 1972, 1983 и 1991 годах. заменены неанглийскими буквами. Международная справочная версия ISO/IEC 646:1991 аналогична ANSI X3.4-1986.
  • Международный союз электросвязи опубликовал свою версию ANSI X3.4-1986, Рекомендация МСЭ-Т T.50, в 1992 году. В начале 1970-х годов под названием CCITT эта же организация опубликовала версию Рекомендации CCITT V. 3.
  • DIN опубликовал версию ASCII как DIN 66003 в 1974 году.
  • Компания IETF опубликовала версию RFC 20 в 1969 году и установила стандартную версию Интернета на основе ANSI X3.4-1986 с публикацией RFC 1345 в 1992 году.
  • Версия IBM ANSI X3.4-1986 опубликована в технической литературе IBM как кодовая страница 367.

ASCII также был встроен в его возможную замену Unicode как "наименьшие" 128 символов. С точки зрения простого внедрения ASCII является одним из самых успешных стандартов программного обеспечения за всю историю.

Управляющие символы ASCII

В исходном стандарте ASCII для каждого управляющего символа использовались только короткие описательные фразы. Оставшаяся двусмысленность иногда была преднамеренной (когда символ использовался в терминальной ссылке немного иначе, чем в потоке данных), а иногда и в большей степени случайно (например, что означает «удалить»).

Возможно, наибольшее влияние на интерпретацию этих символов оказало устройство корпорации Teletype, модель 33 серии, которое представляло собой печатающий терминал с доступной опцией считывания/перфорирования бумажной ленты. Бумажная лента была очень популярным носителем для долговременного хранения программ вплоть до 1980-х годов, была более дешевой и в некотором смысле менее хрупкой, чем магнитная лента. В частности, машинные назначения Teletype 33 для кодов 17 (Control-Q, DC1, также известный как XON), 19 (Control-S, DC3, также известный как XOFF) и 127 (DELete) стали стандартами де-факто. Его несоответствующее использование кода 15 (Control-O, Shift In) в качестве «стрелки влево», обычно интерпретируемого как «удалить предыдущий символ», также было принято многими ранними системами разделения времени, но в конечном итоге исчезло.

Использование Control-S (XOFF, сокращение от "передача отключена") в качестве сигнала квитирования, предупреждающего отправителя о прекращении передачи из-за надвигающегося переполнения, и Control-Q (XON, "передача включена") для возобновления отправки. , сохраняется и по сей день во многих системах в качестве метода ручного управления выводом. В некоторых системах Control-S сохраняет свое значение, но Control-Q заменяется вторым Control-S для возобновления вывода.

Код 127 официально называется "удалить", но метка телетайпа была "рубить". Поскольку первоначальный стандарт не давал подробной интерпретации большинства управляющих кодов, интерпретации этого кода различались. Первоначальный смысл телетайпа заключался в том, чтобы сделать его игнорируемым символом, таким же, как NUL (все нули). Это было особенно полезно для бумажной ленты, потому что пробивка битовой комбинации из всех единиц поверх существующей метки уничтожила бы ее. Ленты, предназначенные для «ручного редактирования», могут быть даже созданы с пробелами из дополнительных NUL (пустая лента), чтобы блок символов можно было «стереть», а затем заменить на пустое место.

По мере того, как видеотерминалы стали заменять печатные, значение символа "рубаут" было утеряно. Системы Unix, например, интерпретировали «Удалить» как «удалить символ перед курсором».Большинство других систем использовали «Backspace» для этого значения и использовали «Delete» для обозначения «удалить символ после курсора». Эта последняя интерпретация сегодня наиболее распространена.

Многие другие управляющие коды приобрели значения, совершенно отличные от их первоначальных значений. Например, escape-символ (код 27) изначально предназначался для отправки других управляющих символов в виде литералов, а не для обращения к их значению. Это то же самое значение "escape", которое встречается в кодировках URL, строках языка C и других системах, где определенные символы имеют зарезервированное значение. Со временем это значение было заимствовано и в конечном итоге дрейфовало. В современном использовании ESC, отправляемый на терминал, обычно указывает на начало последовательности команд, обычно в форме escape-кода ANSI. ESC, отправленный с терминала, чаще всего используется как "внеполосный" символ, используемый для завершения операции, как в текстовых редакторах TECO и vi.

Присущая многим управляющим символам неоднозначность в сочетании с их историческим использованием также создавала проблемы при передаче файлов с «обычным текстом» между системами. Наиболее ярким примером этого является проблема с новой строкой в ​​различных операционных системах. На печатных терминалах нет никаких сомнений в том, что вы завершаете строку текста как «Возвратом каретки», так и «Переводом строки». Первый возвращает печатную каретку в начало строки, а второй перемещает к следующей строке, не перемещая каретку. Однако требование двух символов для обозначения конца строки создавало ненужную сложность и вопросы о том, как интерпретировать каждый символ, когда он встречается по отдельности. Чтобы упростить задачу, простые текстовые файлы в системах Unix используют только переводы строк для разделения строк. Точно так же старые системы Macintosh, помимо прочего, используют только возврат каретки в текстовых файлах. Различные операционные системы DEC использовали оба символа для обозначения конца строки, возможно, для совместимости с телетайпами, и этот стандарт де-факто был скопирован в операционной системе CP / M, а затем в MS-DOS и, в конечном итоге, в Microsoft Windows. Операционные системы DEC, наряду с CP/M, отслеживали длину файла только в единицах дисковых блоков и использовали Control-Z (SUB), чтобы отметить конец фактического текста в файле (в некоторых случаях также делается для совместимости с CP/M). в MS-DOS, хотя MS-DOS всегда записывала точную длину файлов). Control-C (ETX, End of TeXt), возможно, имело бы больше смысла, но уже широко использовалось в качестве сигнала прерывания программы. Использование в UNIX команды Control-D (EOT, End of Transmission) на первый взгляд похоже, но используется только с терминала и никогда не сохраняется в файле.

Хотя коды, упомянутые выше, сохранили некоторое подобие своих первоначальных значений, многие из кодов, изначально предназначенных для разделителей потоков или для управления связью на терминале, утратили все значение, кроме своего отношения к букве. Control-A почти никогда не используется для обозначения «начала заголовка», за исключением магнитной ленты ANSI. При подключении терминала к системе или запросе системы о том, что терминал, вышедший из системы, хочет войти в систему, современные системы гораздо чаще потребуют возврата каретки или ESCape, чем Control-E (ENQuire, что означает «есть ли есть кто-нибудь?").

Печатные символы ASCII

Код 32, символ пробела, обозначает пробел между словами, создаваемый большой клавишей пробела на клавиатуре. Коды от 33 до 126, известные как печатные символы, представляют собой буквы, цифры, знаки препинания и несколько разных символов.

Структурные особенности

  • Цифры от 0 до 9 представлены в двоичном формате с префиксом 0011 (это означает, что преобразование BCD в ASCII — это просто вопрос каждого полубайта BCD по отдельности и добавления к нему префикса 0011).
  • Строчные и прописные буквы отличаются только битовым шаблоном на один бит, упрощая преобразование регистра в проверку диапазона (чтобы избежать преобразования символов, которые не являются буквами) и одной побитовой операцией. Быстрое преобразование регистра важно, поскольку оно часто используется в алгоритмах поиска без учета регистра.

Псевдонимы для ASCII

  • ANSI_X3.4-1968 (каноническое название)
  • ANSI_X3.4-1986
  • ASCII (с вариантами ASCII-7 и ASCII-8)
  • US-ASCII (предпочтительное имя MIME)
  • нас
  • ISO646-США
  • ISO_646.irv:1991
  • изо-ир-6
  • IBM367
  • cp367
  • CSCSII

Из них только псевдонимы "US-ASCII" и "ASCII" получили широкое распространение. Их часто можно найти в необязательном параметре «charset» в заголовке Content-Type некоторых сообщений MIME, в эквивалентном элементе «meta» некоторых документов HTML и в части объявления кодировки пролога некоторых документов XML.

Варианты ASCII

По мере того, как компьютерные технологии распространялись по всему миру, различные органы и корпорации по стандартизации разработали множество вариантов ASCII, чтобы облегчить выражение неанглийских языков, в которых использовались латинские алфавиты.Некоторые из этих вариантов можно классифицировать как «расширения ASCII», хотя некоторые неправильно применяют этот термин для охвата всех вариантов, включая те, которые не сохраняют карту символов ASCII в 7-битном диапазоне.

Несовместимость и совместимость

ISO 646 (1972 г.), первая попытка исправить предубеждение в пользу английского языка, создала проблемы совместимости, поскольку оставалась 7-битной кодировкой. Дополнительные коды не были доступны, поэтому некоторые из них были переназначены в языковых вариантах. Таким образом, стало невозможно узнать, какой символ представляет код, не зная, с каким вариантом работать, и системы обработки текста в любом случае могли работать только с одним вариантом.

В конце концов, усовершенствованная технология предоставила внеполосные средства для представления информации, ранее закодированной в восьмом бите каждого байта, освободив этот бит для добавления еще 128 дополнительных кодов символов для новых назначений.

Восьмибитные стандарты, такие как ISO/IEC 8859 (производный от DEC-MCS) и Mac OS Roman, разрабатывались как настоящие расширения ASCII, сохраняя исходное отображение символов и просто добавляя дополнительные значения выше 7-битного диапазона. .

Это позволило представить более широкий спектр языков, но эти стандарты продолжали страдать от несовместимости и ограничений. Тем не менее, ISO-8859-1, его вариант Windows-1252 (часто ошибочно обозначаемый как ISO-8859-1 даже программным обеспечением Microsoft) и оригинальный 7-битный ASCII остаются наиболее распространенными кодировками символов, используемыми сегодня.

Исправление Unicode

Сочетание ASCIIbetical эволюционировало для описания сопоставления данных в кодовом порядке ASCII, а не в "стандартном" алфавитном порядке.

Аббревиатура ASCIIZ или ASCIZ относится к строке ASCII, заканчивающейся нулем.

Читайте также: