Двоичное алфавитное представление данных на компьютере в виде текстов в двоичном алфавите

Обновлено: 21.11.2024

Ваш персональный компьютер представляет собой тип цифрового электронного компьютера. Он называется цифровым, потому что вся информация внутри него представлена ​​и обрабатывается в виде чисел (первоначальное значение слова «цифра» — «палец», а поскольку люди часто считают пальцами, термин «цифра» также стал применяться к числам). ). Все числа в электронной таблице, все текстовые символы в документе Word, все изображения и звуки, хранящиеся на компьютере, ВСЕ представлены в виде чисел.

Вы используете систему счисления с основанием 10 (поскольку у людей 10 пальцев, это им подходит). Когда вы пишете число 1853, например, это означает:

Каждая цифра (0–9) в числе с основанием 10 умножается на степень десяти, соответствующую ее положению. Обратите внимание, что значение каждого разряда в 10 раз превышает значение разряда справа от него. Но вы все это знали, конечно.

Двоичные числа

Но как быть с бедным компьютером, у которого нет пальцев, чтобы считать? База 10 неудобна для использования на компьютере без пальцев. Компьютеры ДЕЙСТВИТЕЛЬНО имеют электрические цепи, которые либо включены, либо выключены. Всего два состояния для работы. Таким образом, натуральная система счисления для использования в электронном компьютере — это основание 2 (так называемая двоичная система счисления). В отличие от вас, у которого есть десять цифр для вычислений (0, 1, 2, 3, 4, 5, 6, 7, 8, 9), у компьютера есть только две цифры (0 и 1), с которыми он должен все делать. Таким образом, в памяти компьютера крошечный транзистор, который включен (проводит ток), может представлять 1, а выключенный транзистор будет представлять 0 (ноль). .

Например, двоичное число 11100111101 означает:

Ах! Значит, это одно и то же число!

1853 (по основанию 10) = 11100111101 (по основанию 2)

Обратите внимание, что каждая позиция двоичной цифры в числе по основанию 2 имеет 2 значение, умноженное на позицию двоичной цифры справа от нее (поскольку это база 2; помните, как работала база 10).

Все время говорить «двоичная цифра» становится громоздко, поэтому был изобретен более короткий термин «бит». Бит — это одна двоичная цифра. Бит может содержать либо 1, либо 0 (ноль). Строка битов может содержать большие числа (точно так же, как вы используете строки из 10-кратной базы для представления чисел больше 9).

Двоичное представление чисел
Основание 10 Основание 2
0 00000000
1 00000001
2 00000010
3 00000011
4 00000100
5 00000101
. .
65 01000001
66 01000010
67 01000011
. .
254 11111110
255 11111111

Особенно удобный фрагмент компьютерной памяти имеет длину 8 бит. Этот кусок памяти может использоваться для представления любого числа от нуля (00000000) до 255 (11111111). Почему 11111111 (по основанию 2) равно 255 (по основанию 10)? Потому что это означает:

1 x 128 + 1 x 64 + 1 x 32 + 1 x 16 +
1 x 8 + 1 x 4 + 1 x 2 + 1 x 1 = 255

И почему это кусок памяти удобного размера? Потому что, если мы хотим представить все символы английского алфавита, 8 цифр — это первая степень числа 2, которая дает вам достаточно возможностей для этого (длинный 4-битный фрагмент может содержать только числа от нуля до 7. недостаточно) .

У нас есть специальное имя для фрагмента памяти длиной 8 бит: он называется байтом. Это основная единица, которую мы используем для измерения объема памяти компьютера. (Кусок памяти длиной 4 бита называется «кусок», но вам не нужно знать это для теста.)

Текстовые символы представлены в памяти компьютера в виде чисел. Как? Вам нужна схема приравнивания букв к цифрам. Используемая система называется кодом ASCII (американский стандартный код для обмена информацией). Заглавная буква A представлена ​​числом 65 в коде ASCII (65 — это 01000001 в двоичном формате). Первые 65 кодов ASCII (от 0 до 64) используются для набора управляющих символов и специальных символов, поэтому заглавная буква А оказалась 65. Заглавная буква Б равна 66 (01000010) и так далее.

< /tr>
Представление символов ASCII (просто пример )
Символ Основание 10 Основание 2
(возврат ) 13 00001101
(пробел) 32 00100000
! 33 00100001
1 49 00110001
2 50 00110010
@ 64 01000000
A 65 01000001
B 66 01000010
C 67 01000011
a 97 01100001
b 98 01100010
c 99 01100011
(удалить) 127 01111111

Как компьютер узнает, является ли 01000001 в байте памяти числом 65 или буквой A? Поскольку прикладная программа отслеживает, что и куда помещается в память, MS Word знает, что данный байт, в котором хранится текст, содержит числа, представляющие буквы.

Для иностранных алфавитов, которые содержат намного больше букв, чем английский (например, японский кандзи), теперь используется более новое расширение схемы ASCII, называемое Unicode (для хранения каждой буквы используется два байта; два байта дают 65 535 различных значений для представления символов).

Изображения также представлены в виде чисел на компьютере. Если вы внимательно посмотрите на экран своего дисплея, то увидите, что изображение на нем состоит из множества маленьких точек, называемых элементами изображения (что чаще сокращается до пикселя). Каждый пиксель изображения на экране может быть представлен в компьютере тремя байтами; числа в байтах сообщают дисплею, сколько красного, синего и зеленого света нужно смешать, чтобы получился цвет пикселя (три байта могут представлять миллионы возможных цветов для каждого пикселя).

Программы, выполняемые компьютером, также хранятся в виде чисел. Каждое число в этом случае представляет собой инструкцию для микропроцессора (каждая операция, которую может выполнить процессор, например, «выбрать число в регистр» и «сложить вместе содержимое двух резисторов», представлена ​​уникальными двоичными кодами).

Килобайты, мегабайты, гигабайты и т. д.

Емкость памяти и емкость хранилища данных для компьютеров измеряются в байтах. Размеры файлов также измеряются в байтах (помните, что один байт равен 8 битам). Однако размер байта невелик (он может содержать только один символ), поэтому мы используем более крупные единицы:

Килобайт ( КБ ) составляет примерно 1000 байт. Но это НЕ ровно 1000 байт; это 1024 байта. Почему такое странное число, как 1024? Потому что 1024 — это ровно 10000000000 в двоичном формате; хорошее число, кратное двум, очень удобно для компьютера. Так что помните: когда компьютер сообщает вам, что ваш файл занимает 40 килобайт, на самом деле он использует 40 960 байт (а не 40 000). Но вы можете думать о килобайте как о «примерно 1000 байтов», откуда он и получил свое название. Размер этого файла веб-страницы составляет примерно 20 КБ.

Точно так же вы можете думать о мегабайте ( МБ ) примерно как о миллионе байтов, но это точно 1 048 576 байт (1024 x 1024). Приложение MS Word занимает около 13 МБ на жестком диске компьютера (в зависимости от версии). Типичный персональный компьютер может иметь 512 МБ памяти.

Гигабайт ( ГБ ) равен приблизительно одному миллиарду байтов (точно 1 073 741 824). Корневое слово для слова «гига» такое же, от которого произошло наше слово «гигант», поэтому технически «гигабайт» следует произносить с мягкой «г», но допустимо произношение как с твердой, так и с мягкой «г». Емкость стандартного жесткого диска измеряется десятками или сотнями ГБ.

Если вам интересно, триллион байт – это терабайт, но возможности ПК еще не достигли этого предела.

Примечание. Чтобы еще больше запутать ситуацию, многие производители указывают емкость своих жестких дисков и других устройств в килобайтах, которые составляют ровно 1000 байт. Это имеет преимущество (для них) в том, что их продукты кажутся на 2,4% больше. Для целей этого класса мы будем использовать определение килобайта = 1024 байта.

активность кода, экспоненциальные отношения, представление чисел с помощью символов

01001000 01100101 01101100 01101100 01101111 00100001

Эти единицы и нули могут показаться вам ни на что не похожими, но в двоичном коде числа на самом деле говорят «Привет!»

Любой код, в котором для представления информации используются всего два символа, считается двоичным кодом. Различные версии двоичного кода существовали веками и использовались в различных контекстах. Например, шрифт Брайля использует выпуклые и невыпуклые выступы для передачи информации слепым, азбука Морзе использует длинные и короткие сигналы для передачи информации, а в приведенном выше примере для представления букв используются наборы нулей и единиц.Возможно, в настоящее время двоичный код чаще всего используется в компьютерах: двоичный код — это способ, с помощью которого большинство компьютеров и компьютеризированных устройств в конечном итоге отправляют, получают и хранят информацию.

Если вы хотите, чтобы рука следила за вашей работой, распечатайте этот удобный лист преобразования двоичного текста!

Напишите свое имя в двоичном коде разными способами

Нули и единицы двоичного кода несколько произвольны. Любой символ, цвет или физический объект, который может существовать в двух разных формах или состояниях, например, монета (орел и решка), переключатель (включено и выключено), цвет (синий и зеленый), формы (круг и квадрат) — можно использовать как двоичный код. Например, вот слова «Правила научной пятницы!» записано в двоичном формате с использованием гороха и моркови:

«Правила научной пятницы!» записано в двоичном формате с использованием гороха (0) и моркови (1) – А. Зыч

Почему двоичный код так важен?

В компьютерах и других компьютеризированных устройствах (таких как калькуляторы, принтеры, кофеварки и микроволновые печи) биты обычно передаются в электронном виде. Но эта электронная информация мимолетна. Чтобы он существовал какое-то время — и без источника питания — он должен храниться физически внутри аппаратного обеспечения устройства. Это означает, что каждый фрагмент двоичного кода в компьютере должен быть преобразован в физический объект или состояние. Двоичный код, как оказалось, легко преобразовать из электронной информации (например, нулей и единиц) в физическую информацию, потому что нужны только два типа физических объектов или состояний.

Преобразование электрической информации в физическое хранилище информации аналогично тому, как кто-то произносит двоичный код «собака» из нулей и единиц, пока вы записываете их на листе бумаги. Произнесенные 0 и 1 нельзя бесконечно слышать после того, как они были произнесены, но, записав их физически на листе бумаги, вы можете обращаться к ним снова и снова. В случае с компьютером этот двоичный код может храниться при высоком и низком напряжении, в намагниченных или размагниченных сегментах металлического диска или, в очень старых компьютерах, в перфорированных и неперфорированных отверстиях на картоне.

В получившей Пулитцеровскую премию книге Душа новой машины автор Трейси Киддер объясняет, как компьютеры Data General сохраняют информацию на двоичном языке:

«Часто говорят, что компьютеры манипулируют символами. Они имеют дело не с числами напрямую, а с символами, которые могут представлять не только числа, но также слова и изображения. Внутри схем цифрового компьютера эти символы существуют в электрической форме, а основных символов всего два – высокое напряжение и низкое напряжение. Ясно, что это чудесный символизм для машины; схемам не нужно различать девять различных оттенков серого, а нужно различать только черное и белое, или, говоря электрическим языком, высокое и низкое напряжение». Авторское право © 1981, Джон Трейси Киддер. Перепечатано с разрешения Little, Brown and Company, Нью-Йорк, штат Нью-Йорк. Все права защищены.

Независимо от носителя двоичный код является золотым стандартом физического хранения информации в вычислительных устройствах, от калькуляторов до суперкомпьютеров.

Совершенный параллельный процессор: квантовые биты

Расширение: имеет ли значение номер бита?

Упорядочивание и чтение битов в упорядоченных группах — это то, что делает двоичные файлы исключительно эффективными для хранения и передачи огромных объемов информации. Чтобы понять почему, полезно рассмотреть альтернативу: что, если бы за раз использовался только один бит? Что ж, вы сможете обмениваться только двумя типами информации — один тип представлен 0, а другой — 1. Забудьте о кодировании всего алфавита или знаков препинания — вы просто получите два вида информации.

Но когда вы группируете биты по два, вы получаете четыре вида информации:

Увеличив количество двухбитных групп до трехбитных, вы удвоите объем информации, которую можете закодировать:

000, 001, 010, 011, 100, 101, 110, 111

Хотя восьми различных видов информации по-прежнему недостаточно для представления всего алфавита, возможно, вы сможете увидеть, к чему ведет шаблон.

Используя любое представление двоичного кода, которое вы хотите, попробуйте выяснить, сколько возможных комбинаций битов вы можете составить, используя биты, сгруппированные по четыре. Затем попробуйте еще раз, используя биты, сгруппированные по пять. Как вы думаете, сколько возможных комбинаций вы можете получить, используя шесть битов за раз или 64? Объединяя отдельные биты во все более и более крупные группы, компьютеры могут использовать двоичный код для поиска, систематизации, отправки и хранения все большего количества видов информации.

Киддер доводит эту мысль до конца в Душе новой машины:

«Компьютерные инженеры называют одно высокое или низкое напряжение битом, и оно символизирует один фрагмент информации.Один бит не может символизировать многое; у него есть только два возможных состояния, поэтому его можно использовать, например, для обозначения только двух целых чисел. Однако поместите много битов подряд, и количество вещей, которые можно представить, увеличится в геометрической прогрессии».

По мере развития компьютерных технологий компьютерным инженерам понадобились способы одновременной отправки и хранения больших объемов информации. В результате битовая длина, используемая компьютерами, неуклонно росла на протяжении истории компьютеров. Если у вас новый iPhone, он использует 64-битный микропроцессор, а это означает, что он хранит и получает информацию в группах по 64 двоичных разряда, а это означает, что он способен хранить 2 64 или более 18 000 000 000 000 000 000 уникальных 64-битных комбинаций. двоичных целых чисел. Ого.

Идея кодирования информации большим количеством битов за раз для повышения мощности и эффективности компьютеров с самого начала была движущей силой компьютерной инженерии и до сих пор. Хотя этот отрывок из книги Душа новой машины был впервые опубликован в 1981 году, основной принцип кодирования информации в двоичном коде с возрастающей сложностью по-прежнему отражает развитие вычислительной мощности сегодня:

«В некоторых важных частях типичного современного компьютера биты — электрические символы — обрабатываются пакетами. Как и телефонные номера, пакеты имеют стандартный размер. Машины IBM традиционно обрабатывали информацию в пакетах длиной 32 бита. NOVA от Data General и большинство мини-компьютеров после него, включая Eclipses, работают с пакетами длиной всего 16 бит. Различие не имеет значения в теории, поскольку любой компьютер гипотетически способен делать то, что может делать любой другой компьютер. Но легкость и скорость, с которой разные компьютеры могут выполнять одну и ту же работу, сильно различаются, и в целом машина, которая обрабатывает символы порциями по 32 бита, работает быстрее, а для некоторых целей — обычно больших — она проще. программировать, чем машину, которая обрабатывает только 16 бит за раз».

Из книги ДУША НОВОЙ МАШИНЫ Трейси Киддер. Авторские права © 1981, Джон Трейси Киддер. Перепечатано с разрешения Little, Brown and Company, Нью-Йорк, штат Нью-Йорк. Все права защищены.

Является ли программирование языком цифровой эпохи?

Пожертвовать науке в пятницу

Сделайте подарок на конец года уже сегодня. Инвестируйте в качественную научную журналистику, сделав пожертвование в фонд Science Friday.

Чтобы понимать программирование, вам необходимо знать языки программирования. Вам также необходимо знать важность двоичных чисел, которые определяют способ хранения информации на вашем компьютере. Знание двоичного кода может дать вам еще один способ передачи важной информации, связанной с компанией, в которой вы работаете.

В этой статье мы определяем, что такое двоичный код, почему двоичный код важен, примеры двоичных буквенных кодов и способы записи в двоичном формате.

Что такое двоичный файл?

Двоичная система счисления состоит из нулей и единиц. Компьютер использует эти цифры для размещения данных внутри компьютера. Цифры могут представлять буквы, используемые для передачи важных сообщений. Например, ноль означает, что у вас нет электрического потока в аппаратных системах вашего компьютера, тогда как единица означает, что у вас есть достаточный электрический ток для его функциональной работы. Кроме того, каждый двоичный код должен быть представлен в физической форме, чтобы его можно было правильно хранить.

Почему важен двоичный код

Двоичный код важен, потому что он может использовать цифры нуля и единицы для решения сложных задач, связанных с механическими функциями компьютеров. Двоичные числа также облегчают создание дизайна для компьютеров и делают его более рентабельным. Эти цифры позволили организациям максимизировать выходную мощность этих систем, а также работать над надежными системами, которые повышают их производительность на рабочем месте.

Двоичные буквенные коды

Вы пишете двоичные коды произвольным образом, используя систему двоичного кодирования UTF-8. Эта система кодирования представляет собой совокупность систем, придающих фиксированное двоичное число всем буквам алфавита. Они также включают числа и символы и используются организациями по всему миру для создания универсального стандарта, повышающего производительность всех продуктов, использующих эту систему кодирования.

Давайте рассмотрим двоичные коды всех букв английского алфавита, чтобы дать вам представление о том, как писать функции в коде:

В Convert Binary вы можете найти буквы латинского алфавита ASCII в их двоичном кодовом представлении.

Вы ищете простой способ преобразования текста в двоичный формат? Для этого у нас есть удобный переводчик. Вы также можете преобразовать двоичный код в текст на английском языке или в формате ASCII.

Двоичный алфавит (ЗАГЛАВНЫЕ буквы)

Алфавит в двоичном формате (строчные буквы)

БукваДвоичный
A01000001
B01000010
C01000011
D01000100
E01000101
F01000110
G01000111
H01001000
I01001001
J01001010
К01001011
L 01001100
M01001101
N01001110
O01001111
P01010000
Q01010001
R01010010
S01010011
T01010100
U 01010101
В01010110
В 01010111
X01011000
Y01011001
Z01011010

Ознакомьтесь также с таблицей преобразования двоичных чисел.

Вопросы и ответы об алфавите в двоичном коде

Если вы хотите научиться преобразовывать двоичный код в текст вручную, вы можете прочитать это руководство или посмотреть соответствующий учебник.

Вам нужно преобразовать каждую букву вашего имени в двоичную форму.

Слово «привет» в двоичном коде: 0110100001100101011011000110110001101111 Разделив его на восьмизначные сегменты, легче увидеть двоичный байт, соответствующий каждой букве: 01101000 01100101 01101100 01101100 01101111 — вы можете проверить это с помощью переводчика.

01101001 — это двоичная кодировка кода ASCII 105, который представляет символ i , что можно проверить с помощью двоичного транслятора.

Примечание для изучения. При работе с этим разделом вам потребуется обращаться к Справочному руководству.

Нажмите ссылку "Просмотреть документ" ниже, чтобы прочитать Справочное руководство.

Просмотреть документ [ Совет: удерживайте ⌘ и щелкните ссылку, чтобы открыть ее в новой вкладке. (Скрыть совет) ]

Текст может быть представлен в компьютере последовательностью двоичных кодов, каждый из которых представляет собой букву алфавита или знак препинания. Числа также могут быть представлены таким образом, если это необходимо. Это может быть полезно, скажем, в текстовом редакторе, где не нужно выполнять никаких расчетов, и удобно кодировать цифру во фразе, такой как «мы договорились встретиться в 7 часов», так же, как все остальные символы в предложении закодированы.

Набор 7-битных кодов ASCII показан в приложении Справочного руководства, с которым вам следует ознакомиться сейчас.

Обратите внимание, что некоторые коды ASCII представляют собой не отображаемый символ, а действие (например, перевод строки, табуляция). Говорят, что эти коды представляют собой «управляющие символы». Эти символы в диапазоне

от 0000 0000 до 0001 1111, которые не показаны в приложении, являются управляющими символами.

Задание 19 (Самооценка)

Напишите последовательность двоичных кодов, которая формирует ответ на следующий вопрос, используя приложение к вашему Справочному руководству.

Ответить

Вопрос: 2 = 3? Итак, ответ: Нет. Это закодировано следующим образом:

Возможно, вы пропустили точку, и это нормально. Если у вас было «нет» вместо «Нет», то у вас будет:

Существенная проблема с ASCII заключается в том, что он не справляется с языками, в которых используются нелатинские символы, например, символ ß, используемый в немецком языке, или несколько кириллических символов, используемых в русском языке. Одним из решений было создание национальных вариантов ASCII, но, конечно, это вызывает проблемы при передаче файлов между разными языковыми областями.

Надежным решением является Unicode, который присваивает уникальный стандартный код каждому символу, используемому в основных письменных языках мира.В нем также есть коды для знаков препинания, диакритических знаков (таких как тильда ~, используемая над некоторыми символами, например, в испанском языке), математических символов и т. д. Unicode использует 16 бит, что позволяет закодировать более 65 000 символов. Он также позволяет использовать механизм расширения, позволяющий закодировать дополнительный 1 миллион символов.

Что касается латинского алфавита, между ASCII и Unicode есть сходство. Например, заглавная буква А в Unicode представлена ​​как

0000 0000 0100 0001

Последние 7 бит идентичны 7-битному коду ASCII для той же буквы.

Вставка 9. Размеры текстовых файлов

Возможно, вы захотите отправить текстовый файл в качестве вложения к своему электронному письму. Но насколько большим будет файл?

Предположим, вы набираете около сотни слов обычного текста (только один шрифт, без полужирного шрифта, без подчеркивания, без форматирования абзацев и т. д.) в текстовом процессоре и сохраняете полученный документ в виде файла. В английском слове в среднем пять или шесть букв, и между каждым словом есть пробел. Таким образом, вы сохраните около семисот символов, включая пробелы и знаки препинания. В ASCII, который использует один байт на символ, вы можете ожидать, что результирующий размер файла составит около 700 байт, но поскольку ваш компьютер, вероятно, округлит до ближайшего килобайта (килобайт равен 1024 байтам), вы можете ожидать, что он запишет файл размером около 700 байт. 1 килобайт. Даже в языке, в котором среднее количество букв в слове больше, чем в английском, вы вряд ли ожидаете, что размер файла превысит килобайт.

Тем не менее, я только что попробовал это с моим текстовым процессором, и размер полученного файла составил 20 килобайт!

Поспешу добавить, что когда я сохранил свои сто слов в виде обычного текста (один из вариантов, предлагаемых моим текстовым процессором), текстовый файл действительно был 1 килобайт. Так что в моей арифметике нет ничего плохого. Разница в ожидаемом и фактическом размерах файлов, когда мой текстовый процессор сохраняет в своем родном формате, заключается в том, как текстовый процессор сохраняет файлы. Например, он добавляет много собственной информации (кто создал файл, как он называется, когда он был создан, насколько он велик, какой шрифт и размер шрифта используется и т. д.). Он также помещает пользовательский текст и собственную дополнительную информацию в куски, размер которых (заранее определенный) довольно велик. Эти и другие подобные аспекты того, что сохраняет текстовый процессор, значительно увеличивают размер файла.

Поэтому, если форматирование не имеет значения, вы можете рассмотреть возможность отправки текстового файла в неформатированном виде. Если форматирование имеет значение, у вас есть возможность использовать метод сжатия без потерь (например, Zip), чтобы уменьшить размер файла примерно в 3 или 4 раза.

Читайте также:

БукваДвоичный
a01100001
b01100010
c01100011
d01100100
e01100101
f01100110
g01100111
ч01101000
i01101001
j01101010
k01101011
l 01101100
м01101101
n01101110
o01101111
p01110000
q01110001
r01110010
s01110011
t01110100
u 01110101
v01110110
w 01110111
x01111000
y01111001
з01111010