Какой объем информации содержит слово компьютер, если символы взяты из таблицы ascii

Обновлено: 30.06.2024

Общие вопросы, касающиеся UTF или форм кодировки

Часто задаваемые вопросы по UTF-8

Часто задаваемые вопросы по UTF-16

Часто задаваемые вопросы по UTF-32

Часто задаваемые вопросы о метке порядка байтов (BOM)

Общие вопросы, касающиеся UTF или формы кодировки

< th>Самая большая кодовая точка
Имя UTF-8 UTF-16 UTF-16BE UTF-16LE UTF-32 UTF-32BE UTF-32LE
Наименьшая кодовая точка 0000 0000 0000 0000< /td> 0000 0000 0000
10FFFF 10FFFF 10FFFF 10FFFF 10FFFF 10FFFF 10FFFF
Размер блока кода 8 бит 16 бит 16 бит 16 бит 32 бита 32 бита 32 бита
Порядок байтов Н/Д обратный порядок байтов li ttle-endian big-endian little-endian
Наименьшее количество байтов на символ 1 2 2 2 4 4 4
Большинство байтов на символ 4 4 4< /td> 4 4 4 4

Часто задаваемые вопросы по UTF-8

Часто задаваемые вопросы по UTF-16

Вопрос. Что такое UTF-16?

О. В UTF-16 используется одна 16-битная кодовая единица для кодирования наиболее распространенных 63 000 символов и пара 16-битных кодовых единиц, называемых суррогаты, чтобы кодировать 1 миллион менее часто используемых символов в Unicode.

Первоначально Unicode был разработан как чистая 16-битная кодировка, предназначенная для представления всех современных сценариев. (Древние сценарии должны были быть представлены символами для частного использования.) Со временем, особенно после добавления более 14 500 составных символов для совместимости с устаревшими наборами, стало ясно, что 16-битных недостаточно для пользовательского сообщества. Из этого возник UTF-16. [AF]

В: Что такое суррогаты?

О: Суррогаты – это кодовые точки из двух специальных диапазонов значений Unicode, зарезервированные для использования в качестве начальных и конечных значений парного кода. единицы в UTF-16. Ведущие, также называемые старшими, суррогаты — от D80016 до DBFF16, а замыкающие, или нижние, суррогаты — от DC0016 до DFFF< под>16. Их называют суррогатными, так как они не представляют символы напрямую, а только как пару.

В: Каков алгоритм преобразования из UTF-16 в коды символов?

О: Стандарт Unicode раньше содержал короткий алгоритм, теперь есть только таблица распределения битов. Вот три коротких фрагмента кода, которые переводят информацию из таблицы распределения битов в код C, который будет преобразовываться в UTF-16 и обратно.

Используя следующие определения типов

первый фрагмент вычисляет старший (или ведущий) суррогат по коду символа C.

где X, U и W соответствуют меткам, используемым в таблице 3-5 Распределение битов UTF-16. Следующий фрагмент делает то же самое для младшего суррогата.

Наконец, обратная сторона, где hi и lo — старший и младший заместители, а C — результирующий символ

Если компьютеры работают в двоичном формате, то как мы можем хранить буквы и слова? Для этого мы присваиваем номера персонажам. Это называется кодировкой символов.

Пример Кодировка ASCII

Чтобы понять, как работает кодировка символов, давайте создадим простой пример. Сначала назначьте числа 1–26 английскому алфавиту:

Чтобы написать простое закодированное сообщение, мы заменяем буквы цифрами. Например, 8 5 12 12 15 . Используя числа, мы составили слово h e l l o .

Но чтобы полностью передать английский алфавит, включая прописные и строчные буквы, цифры и знаки препинания, нам потребовалось более 26 символов. В результате был создан Американский стандартный код для обмена информацией (ASCII) как один из первых стандартов кодирования символов для компьютеров.

Чему вы научитесь

В этом руководстве будут рассмотрены следующие темы:

  • Краткая история ASCII
  • Как преобразовать десятичные, двоичные и шестнадцатеричные числа в ASCII

Рекомендуемое чтение

Есть несколько понятий, с которыми вы, возможно, захотите ознакомиться, прежде чем приступить к чтению этого руководства:

    - Знание того, как компьютер хранит числа, полезно для перевода этих чисел в символы. - Шестнадцатеричный формат часто используется для представления двоичных чисел группами по 4 бита. — Arduino — хороший способ попробовать печатать символы ASCII.

История

Американская ассоциация стандартов (ASA), ныне Американский национальный институт стандартов (ANSI), начала работу над кодировкой ASCII 6 октября 1960 года. Схема кодирования берет свое начало в 5-битных телеграфных кодах, изобретенных Эмилем Бодо. В конце концов комитет принял решение о 7-битном коде для ASCII.

7 бит позволяют использовать 128 символов. Хотя для этого набора кодировок были выбраны только символы и символы американского английского, 7 бит означали минимальные затраты, связанные с передачей этих данных (в отличие, скажем, от 8 бит).

Первые 32 символа ASCII были зарезервированы для управления. Эти символы использовались для передачи специальных инструкций другим устройствам, таким как принтеры. Например, пользователь может перейти на строку вперед, удалить символ и на некоторых устройствах позвонить в звонок (например, на телетайпе модели 33 ASR).

ASA опубликовала первую версию ASCII в 1963 году и пересмотрела ее в 1967 году. Последнее крупное обновление стандарта произошло в 1986 году. Впервые ASCII стал использоваться в коммерческих целях в сети TeletypeWriter Exchange (TWX) American Telephone & Telegraph (AT&T).

 Телетайп Модель 33 ASR

Телетайпы, такие как этот Teletype Model 33 ASR, использовались для отправки печатных сообщений на один или несколько других телетайпов по различным каналам связи (Изображение предоставлено Арнольдом Рейнхолдом из Wikimedia Commons)

11 марта 1968 года президент Линдон Б. Джонсон постановил, что все компьютеры федерального правительства США должны поддерживать кодировку ASCII, тем самым закрепив за ASCII место в американской компьютерной истории.

В то время существовали и другие схемы кодирования, такие как Международный телеграфный алфавит № 2 (ITA2), но ASCII быстро стал стандартом для кодирования американского английского. ASCII была самой распространенной кодировкой в ​​Интернете, пока в 2007 году ее не превзошла UTF-8.

Таблица ASCII

Чтобы определить значение ASCII символа, его обычно ищут в таблице ASCII. Таблица ASCII связывает каждый символ с присвоенным ему значением от 0 до 127.

Управляющие символы

Управляющие символы составляют первые 32 символа таблицы ASCII. Эти символы не предназначены для печати, вместо этого они используются для отправки командных инструкций на другое устройство, например на принтер. Обратите внимание, что мы включили восьмеричное представление символов ASCII на тот случай, если вы работаете с особенно старой системой (например, 12-разрядной PDP-8).

< td>0000 0100< td>5 < tr> < td>конец среды < td>SUB< td>127

Печатные символы

Существует 95 печатных символов в схеме кодирования ASCII. Обратите внимание, что символ "пробел" обозначает печатаемый пробел (" ").

Dec Bin Oct Hex Char Description
0 0000 0000 000 00 NUL null
1 0000 0001 001 01 SOH начало заголовка
2 0000 0010 002 02 STX начало текста
3 0000 0011 003 03 ETX конец текста
4 004 04 EOT конец передачи
0000 0101 005 05 ENQ запрос
6 0000 0110 006 06 ACK подтверждение
7 0000 0111 007 07 БЕЛ звонок
8 0000 1000 010 08 BS backspace
9 0000 1001 011 09 TAB горизонтальная вкладка
10 0000 1010 012 0A LF перевод строки, новая строка
11 0000 1011 013 0B VT вертикальная вкладка
12 0000 1100 014 0C< /td> FF поток формы, новая страница
13 0000 1101 015 0D CR возврат каретки
14 0000 1110 016 0E SO сдвинуть
15 0000 1111 017 0F SI сдвиг в
16 0001 0000 020 10 DLE выход канала передачи данных
17 0001 0001 021 11 DC1 управление устройством 1
18 0001 0010 022 12 DC2 устройство con трол 2
19 0001 0011 023 13 DC3 управление устройством 3
20 0001 0100 024 14 DC4 управление устройством 4
21 0001 0101 025 15 NAK отрицательное подтверждение
22 0001 0110< /td> 026 16 SYN синхронный холостой ход
23 0001 0111 027 17 ETB конец блока передачи
24 0001 1000 030 18 Можно отменить
25 0001 1001 031 19 EM
26 0001 1010 032 1A заменить
27 0001 1011 033 1B ESC escape
28 0001 1100 034< /тд> <тд>1С FS разделитель файлов
29 0001 1101 035< /td> 1D GS разделитель групп
30 0001 1110 036 1E RS разделитель записей
31 0001 1111 037 1F US разделитель единиц измерения
0111 1111 177 7F DEL удалить
< td>66 < td>0100 0110< td>81 < td>0101 0101< td>94
Декабрь Bin Oct Hex Char
64 0100 0000 100 40 @
65 0100 0001 101 41 A
0100 0010 102 42 B
67 0100 0011 103 43 C
68< /td> 0100 0100 104 44 D
69 0100 0101 105 45 E
70 106 46 F
71 0100 0111 107 47 G
72 0100 1000 110 48 H
73 0100 1001 111 49 I
74 0100 1010 112 4A J
75 0100 1011 113 4B К
76 0100 1100 114 4C L
77 0100 1101 115 4D M
78 0100 1110 116 4E N
79 0100 1111 117 4F O
80 0101 0000 120 50 P
0101 0001 121 51 Q
82 0101 0010 122 52 R
83< /td> 0101 0011 123 53 S
84 0101 0100 124 54 T
85 125 55 U
86 0101 0110 126 56 V
87 0101 0111 127 57 W
88 0101 1000 130 58 X
89 0101 1001 131 59 Y
90 0101 1010 132 5A Z
91 0101 1011 133 5B [
92 0101 1100 134 5C \
93 0101 1101 135 5D ]
0101 1110 136 5E ^
95 0101 1111 137 5F _
< td>98 < td>0110 0110< td>116 < td>0111 1000 < td>79

Попробовать

Если вы хотите попробовать распечатать что-либо с использованием кодировки ASCII, вы можете попробовать это с помощью Arduino. См. этот учебник для начала работы с Arduino.

Откройте Arduino IDE и вставьте следующий код:

Запустите его на Arduino и откройте последовательную консоль. Вы должны увидеть "Привет!" появляться снова и снова:

Arduino говорит привет!

Обратите внимание, что нам пришлось использовать Serial.write() вместо Serial.print(). Команда write() отправляет необработанный байт по последовательной линии. print() , с другой стороны, попытается интерпретировать число и отправить версию этого числа в кодировке ASCII. Например, Serial.print(0x48) напечатает в консоли 72.

Кроме того, обратите внимание, что мы использовали символ ASCII 0x0A, который является управляющим символом перевода строки. Это заставляет принтер (или в данном случае консоль) перейти к следующей строке. Это похоже на нажатие клавиши «Ввод».

Ресурсы и дальнейшее развитие

Доступно множество наборов кодировок символов. Самая популярная кодировка для всемирной паутины — UTF-8. По состоянию на июнь 2016 г. кодировка UTF-8 используется на 87 % всех веб-страниц.

UTF-8 обратно совместим с ASCII, что означает, что первые 128 символов совпадают с ASCII. UTF-8 может использовать 2, 3 и 4 байта для кодирования символов большинства современных письменных языков, включая символы латинского, греческого, кириллического, арабского, китайского, корейского и японского языков.

Знание базовой кодировки ASCII может быть полезно при работе с последовательными терминалами. См. Основы последовательного терминала, чтобы узнать, как использовать некоторые из множества доступных программ последовательного терминала.

Если вы хотите загрузить таблицу ASCII в формате изображения, нажмите кнопку ниже. Изображение можно распечатать и повесить на стену, положить на кофейную кружку или распечатать на коврике для мыши.

ASCII (расшифровывается как Американский стандартный код для обмена информацией) – это стандарт кодирования символов для текстовых файлов на компьютерах и других устройствах. ASCII является подмножеством Unicode и состоит из 128 символов в наборе символов. Эти символы состоят из букв (как прописных, так и строчных), цифр, знаков препинания, специальных символов и управляющих символов. Каждый символ в наборе символов может быть представлен десятичным значением в диапазоне от 0 до 127, а также эквивалентными шестнадцатеричными и восьмеричными значениями.

Ниже приведен список значений ASCII, отображающих десятичные, шестнадцатеричные, восьмеричные и символьные значения для каждого символа ASCII.

Стандартные символы ASCII

G
Декабрь Bin Oct Hex Char
96 0110 0000 140 60 `
97 0110 0001 141 61 а
0110 0010 142 62 b
99 0110 0011 143 63 c
100< /td> 0110 0100 144 64 d
101 0110 0101 145 65 e
102 146 66 f
103 0110 0111 147 67 g
104 0110 1000 150 68 ч
105 0110 1001 151 69 i
106 0110 1010 152 6A j
107 0110 1011 153 6B k
108 0110 1100 154 6C l
109 0110 1101 155 6D м
110 0110 1110 156 6E n
111 0110 1111 157 6F o
112 0111 0000 160 70 p
113 0111 0001 161 71 q
114 0111 0010 162 72 r
115 0111 0011 163 73 s
0111 0100 164 74 t
117 0111 0101 165 75 u
118< /td> 0111 0110 166 76 v
119 0111 0111 167 77 w
120 170 78 x
121 0111 1001 171 y
122 0111 1010 172 7A z
123 0111 1011 173 7B< /td>
124 0111 1100 174 7C |
125 0111 1101 175 7D >
126 0111 1110 176 7E ~
72 48 110 H Латинская заглавная буква H
73 49 111 I Латинская заглавная буква I
74 4A 112 J Латинская заглавная буква J
75 4B 113 K Латинская заглавная буква K
76 4C 114 L Латинская заглавная буква L
77 4D 115 M Латинская заглавная буква M
78 4E 116 N Латинская заглавная буква N
79 4F 117 O Латинская заглавная буква O
80 50 120 P Латинская заглавная буква P
81 51 121 Q Латинская заглавная буква Q
82 52 122 R Латинская заглавная буква Р
83 53 123 S Латинская заглавная буква S
84 54 124 T Латинская заглавная буква T
85 55 125 U Латинская заглавная буква U
86 56 126 V Латинская заглавная буква V
87 57 127 W Латинская заглавная буква W
88 58 130 X Латинская заглавная буква X
89 59 131 Y Латинская заглавная буква Y
90 5A 132 Z Латинская заглавная буква Z
91 5B 133 [ Левая квадратная скобка
92 5C 134 \ Обратная косая черта/обратная косая черта
93 5D 135 ] Правая квадратная скобка
9 4 5E 136 ^ Серкумфлекс акцент/карет
95 5F 137 _ Подчеркивание/Нижняя линия
96 60 140 ` Грейв акцент
97< /td> 61 141 a строчная латинская буква a
98< /td> 62 142 b строчная латинская буква b
99< /td> 63 143 c строчная латинская буква c
100< /td> 64 144 d строчная латинская буква d
101< /td> 65 145 e строчная латинская буква e
102< /td> 66 146 f строчная латинская буква f
103< /td> 67 147 g строчная латинская буква g
104< /td> 68 150 h строчная латинская буква h
105< /td> 69 151 i Латинская строчная буква i
106 6A 152 j Латинская строчная буква j
107 6B 153 k Латинская строчная буква k
108 6C 154 l Латинская строчная буква l
109 6D 155 m Латинская строчная буква m
110 6E 156 n Латинская строчная n
111 6F 157 o строчная латинская буква o
112 70 160 p Латинская строчная буква p
113 71 161 q Латинская строчная буква q
114 72 162 r Латинская строчная буква r
115 73 163 s Латинская строчная буква s
116 74 164 t Латинский строчная т
117 75 165 u латиница строчная буква у
118 76 166 v латиница строчная v
119 77 167 w латиница строчная буква w
120 78 170 x Латинская строчная буква x
121 79 171 y латиница строчная буква у
122 7A 172 z латиница строчная буква z
123 7B 173 Левая фигурная скобка
124 7C 174 | Вертикальная линия/Вертикальная полоса
125 7D 175 > Правая фигурная скобка
126 7E 176 ~ Тильда
127 7F 177 DEL Удалить (DEL)

В наборе символов ASCII десятичные значения от 0 до 31, а также десятичное значение 127 представляют непечатаемые символы. Эти непечатаемые символы можно сгенерировать с помощью последовательности клавиш, где ^ представляет управляющую клавишу на клавиатуре. Например, вы можете сгенерировать возврат каретки (десятичное значение 13), нажав клавишу управления, а затем букву M на клавиатуре ( ^M ).

Все остальные символы в наборе символов могут быть напечатаны или представлены на экране. Эти печатные значения символов можно увидеть в поле Char в таблице выше.

Компьютеры обычно работают, занижая числа, и для перевода чисел в символы создается стандарт. В этом стандарте каждому символу присвоена определенная цифра, будь то алфавит или любой символ, и этот стандарт называется стандартом ASCII. Использование ASCII для каждого символа упростило общение между машинами и людьми.

ASCII — это аббревиатура от «Американского стандартного кода для обмена информацией», и из названия можно предположить, что это код, используемый для обмена информацией от машины к человеку или от машины к машине.

Что такое кодировка символов

Чтобы понять ASCII, сначала нужно знать кодировку символов. Кодирование символов — это процесс присвоения чисел/цифр символам, и эти символы могут быть разных типов, например, графические символы или символы человеческого языка. Он используется для хранения, передачи или управления данными с помощью компьютеров.


Кодировка символов выполняется для того, чтобы компьютеры могли интерпретировать и обрабатывать символы. Например, мы можем предположить некоторые числа и присвоить их алфавитам. Существует 26 алфавитов, и давайте присвоим число от 1 до 26 всем заглавным алфавитам, это означает, что мы закодировали символы/алфавиты, присвоив им число.

В приведенной выше таблице буквам L, I, N, U и X присвоены 12, 9, 14, 21 и 24 числа соответственно. Теперь компьютерам будет проще расшифровывать и печатать символы. Но чтобы охватить все символы английского языка, Американская ассоциация стандартов (NSA) выпустила первую версию ASCII в 1963 году. ASCII был одним из первых стандартов, созданных для компьютерного обмена информацией.

Почему кодировка ASCII важна

Ну, это важно, потому что это связь между нашим компьютером и памятью, и теперь это стандарт для каждого компьютера. Информация, хранящаяся в памяти, представлена ​​в виде нулей и единиц, а ASCII помогает преобразовать эту информацию в символы или в удобочитаемый формат.


Коды ASCII используются в телекоммуникационных устройствах, компьютерах и другом сопутствующем оборудовании.

Стандартная таблица ASCII

Стандартная таблица ASCII является 7-битной и содержит символы с кодами ASCII в диапазоне от 0 до 127. Стандарт ASCII используется, поскольку компьютер не может напрямую хранить какие-либо символы и не может преобразовывать их в двоичные числа. Используя ASCII, компьютер узнает о символах, поэтому эти ASCII затем преобразуются компьютером в двоичные цифры.

Знакомство с таблицей ASCII

Чтобы найти значение ASCII любого символа, необходимо обратиться к стандартной таблице ASCII, как показано ниже:

Описание таблицы создается автоматически

Значение ASCII "A" будет равно 65, а "&" – 38. Точно так же для фигурных скобок "< >" будут использоваться 123 и 125 символов ASCII.

Давайте рассмотрим пример слова «Linux» и того, как оно хранится в памяти:


Поскольку компьютер не распознает символы, поэтому ASCII присваивает номер всем символам, и соответствующее двоичное значение сохраняется на жестком диске. Слово «Linux» будет сохранено в памяти в двоичном формате, как показано на изображении выше. ASCII помогает в записи и чтении соответствующих данных символов из памяти.

Существует 128 символов, и каждому символу присвоен номер ASCII. Давайте разделим таблицу на две категории, чтобы лучше понять ее:

  • Управляющие символы
  • Печатные символы

Управляющие символы в таблице ASCII

Символы ASCII от 0 до 32 и 127 являются управляющими символами; их также называют непечатными персонажами или NPC. Как следует из названия, управляющие символы управляют размещением печатных символов или используются для управления устройствами, подключенными к компьютеру.

Некоторые управляющие символы связаны с клавишами клавиатуры. Например, клавиша возврата; когда вы нажимаете клавишу, эффект может отображаться на экране, но он не печатает никаких символов.

Аналогичным образом, для связи с компьютером для окончания или начала любого текста используются ASCII для соответствующих символов. Эти управляющие символы сообщают компьютеру, как запустить код и распечатать результат.

Таблица всех управляющих символов:


Печатные символы в таблице ASCII

Печатные символы — это те символы, которые визуально отображаются на экране, такие как все буквы алфавита, цифры, символы и операторы. Печатный символ можно дополнительно классифицировать как:

Числа и символы включают все числовые значения от 0 до 9 и такие символы, как операторы сложения и вычитания, а категория «Алфавиты» включает все буквы английского алфавита с прописными и строчными буквами.

Числа и символы

Эта часть содержит символы и имеет коды ASCII от 32 до 64, от 91 до 96 и от 123 до 126. Эти символы включают математические операторы (+, -, * ,/) и знаки препинания.


Например, код ASCII косой черты «/» будет равен 47, а для добавления «+» — 43.

Алфавиты

Последняя часть стандартной таблицы ASCII — это 26 алфавитов, и существуют отдельные ASCII-коды для прописных и строчных букв. Коды ASCII от 65 до 90 включают все буквы верхнего регистра, а символы от 97 до 122 включают все буквы нижнего регистра.


Например, ASCII заглавной "О" и маленькой "о" будет 79 и 111 соответственно.

Заключение

Компьютеры могут сохранять данные только в виде чисел, поскольку они понимают только язык чисел. Итак, чтобы компьютеры понимали символы, каждый символ должен быть определенным числом. Символы включают не только алфавиты, но и различные символы, которые можно использовать в программировании. В этой статье обсуждается стандартная таблица ASCII, чтобы дать лучшее представление о том, как ее можно понять и как она полезна для связи между различными устройствами и компьютерами.

Об авторе

Талья Саиф Малик

Талья является участником Linux Hint и стремится приносить пользу и делать полезные вещи для всего мира. Он любит читать, писать и говорить о Linux, данных, компьютерах и технологиях.

Читайте также: