Что такое информация с точки зрения компьютера, так это последовательность символов букв символов

Обновлено: 21.11.2024

Один бит может иметь 2 возможных состояния. 2 1 =2. 0 или 1.
Два бита могут иметь 4 возможных состояния. 2 2 =4. 00,01,10,11. (т.е. 0-3)
Четыре бита могут иметь 16 возможных состояний. 2 4 =16. 0000,0001,0010,0011 и т. д. (т.е. 0-15)
Семь битов могут иметь 128 возможных состояний. 2 7 =128. 0000000,0000001,0000010 и т. д. (т.е. 0-127).
Восемь битов могут иметь 256 возможных состояний. 2 8 =256. 00000000,00000001,00000010 и т. д. (например, 0–255).

Восемь бит называются байтом. Однобайтовые наборы символов могут содержать 256 символов. Однако текущим стандартом является Unicode, который использует два байта для представления всех символов во всех системах письма в мире в одном наборе.

Общий код, используемый для символов с диакритическими знаками, — Quoted-Printable. Любые расширенные символы (больше 127) кодируются строкой из трех символов. Например, é = E9. 8BIT (по сути, несжатые символьные данные) также является допустимым кодом MIME и сегодня является наиболее распространенным способом отправки символов с диакритическими знаками.

Чтобы код работал на двух разных машинах с разными операционными системами и разными встроенными наборами символов, мы все должны согласовать стандартные наборы символов, в которые мы будем переводить. Международная организация по стандартизации (ISO) установила такие стандарты. Например, стандартный набор символов для западноевропейских языков — ISO-LATIN-I (или ISO-8859-1). Но пока компьютер знает, какой набор символов используется, его можно запрограммировать на перевод и отображение этих символов, независимо от того, какой у компьютера собственный набор символов. é — это 130-й символ в ISO-LATIN-I.

Программа электронной почты, совместимая с MIME, будет использовать заголовки электронной почты, чтобы отслеживать, какой набор символов и схема кодирования применяются к каждому сообщению электронной почты. Веб-браузер сделает то же самое. Это позволяет программе преобразовывать и знать, как отображать символы на любом заданном компьютере, поэтому вся система кодирования прозрачна (пользователь не замечает) для пользователя. Для MIME Quoted-Printable на западноевропейских языках эти заголовки могут выглядеть так:

    X-Mailer: QUALCOMM Windows Eudora версии 5.1
    Mime-версия: 1.0
    Тип контента: текстовый/обычный; charset=iso-8859-1
    Content-transfer-encoding: quoted-printable

И эти же заголовки MIME также используются на веб-страницах, чтобы веб-браузер, такой как Internet Explorer, Chrome или Firefox, знал, как отображать каждую страницу, независимо от того, где она была создана и где находится. просмотрено. Пока компьютер знает, какой набор символов представлен, он знает, какие символы отображать.

Клавиатуры

Вы также должны в первую очередь ввести символы в компьютер. Windows и Mac уже давно позволяют делать это с помощью сочетаний клавиш. Лучший способ ввода символов в Windows — это выбрать раскладку клавиатуры, которая включает символы, которые вы хотите ввести. Для ввода западноевропейских языков на американской клавиатуре самым безопасным и простым в использовании вариантом, если вы уже знаете, как печатать на американской клавиатуре, является международная клавиатура США. В Windows 7, 8, 10 найдите вкладку «Клавиатуры и языки» на панели управления «Регион и язык», чтобы изменить или добавить клавиатуру. Хотя многие программы могут иметь встроенные сочетания клавиш, преимущество использования клавиатуры в операционной системе (Windows, Mac) заключается в том, что она будет работать для всех программ.

Интерактивную справку по клавиатуре см.:

Справка по клавиатуре

Неанглийские клавиатуры Windows 7 ; Общие для Windows и Mac; Windows 10

Учебник по проблемам с кодами символов

Несмотря на то, что были приложены все усилия для соблюдения правил стиля цитирования, могут быть некоторые расхождения. Если у вас есть какие-либо вопросы, обратитесь к соответствующему руководству по стилю или другим источникам.

Наши редакторы рассмотрят то, что вы отправили, и решат, нужно ли пересматривать статью.

ASCII, сокращение от American Standard Code For Information Interchange, стандартный код передачи данных, который используется небольшими и менее мощными компьютерами для представления как текстовых данных (букв, цифр и знаков препинания), так и команд, не предназначенных для устройства ввода ( управляющие символы). Как и другие системы кодирования, она преобразует информацию в стандартизированные цифровые форматы, которые позволяют компьютерам взаимодействовать друг с другом, а также эффективно обрабатывать и хранить данные.

Код ASCII изначально был разработан для телетайпов, но со временем нашел широкое применение в персональных компьютерах. Стандартный код ASCII использует семизначные двоичные числа; то есть числа, состоящие из различных последовательностей нулей и единиц. Код может представлять 128 различных символов, поскольку существует 128 различных возможных комбинаций семи нулей и единиц.Двоичная последовательность 1010000, например, представляет собой букву «P» в верхнем регистре, а последовательность 1110000 представляет букву «p» в нижнем регистре.

Цифровые компьютеры используют двоичный код, состоящий из восьми, а не семи цифр или битов. Каждая такая восьмизначная группа называется байтом. Поскольку в цифровых компьютерах используются восьмибитные байты, код ASCII обычно встраивается в восьмибитное поле, состоящее из семи информационных битов и бита четности, которое используется для проверки ошибок или для представления специальных символов. Использование восьмибитной системы увеличило количество символов, которые может представлять код, до 256. Восьмибитная система, известная как расширенный код ASCII, была введена в 1981 году компанией International Business Machines Corporation (IBM) для использования. со своей первой моделью персонального компьютера. Этот расширенный код ASCII вскоре стал отраслевым стандартом для персональных компьютеров. В нем используются 32 кодовые комбинации для машинных и управляющих команд, таких как «начало текста», «возврат каретки» и «подача страницы». Следующая группа из 32 комбинаций используется для чисел и различных знаков препинания. Другая группа из 32 комбинаций используется для прописных букв и нескольких других знаков препинания, а последние 32 комбинации используются для строчных букв.

В мэйнфреймах и миникомпьютерах используется другая система кодирования, EBCDIC (расширенный двоично-десятичный код обмена).

Целевая аудитория: авторы контента, пользователи и все, кто не знает, что такое кодировка символов, и хочет получить краткую информацию о том, как она на них влияет.

Вопрос

Что такое кодировка символов и зачем мне это?

Ответить

Во-первых, какое мне дело?

Если вы используете какой-либо другой текст, кроме самого простого английского текста, люди могут не прочитать созданный вами контент, пока вы не скажете, какую кодировку символов вы использовали.

Например, вы можете сделать так, чтобы текст выглядел так:

но на самом деле это может выглядеть так:

Отсутствие информации о кодировке символов не только ухудшает читаемость отображаемого текста, но и может означать, что ваши данные не могут быть найдены поисковой системой или надежно обработаны машинами рядом других способов.

Так что же такое кодировка символов?

Слова и предложения в тексте создаются из файлов . Примеры символов включают латинскую букву á, китайскую иероглифику 請 или иероглиф деванагари ह .

Возможно, вы не сможете увидеть некоторые символы на этой странице, потому что у вас нет необходимых шрифтов. Если вы нажмете на то место, где вы ожидали увидеть символ, вы перейдете к графической версии. Эта страница закодирована в UTF-8.

Символы, необходимые для определенной цели, группируются в (также называемые ). (Для однозначного обращения к символам каждый символ связан с числом, называемым .)

Символы хранятся в компьютере как один или несколько .

В принципе, вы можете визуализировать это, предположив, что все символы хранятся в компьютерах с использованием специального кода, подобного шифрам, используемым в шпионаже. A предоставляет ключ для разблокировки (т.е. взлома) кода. Это набор сопоставлений между байтами в компьютере и символами в наборе символов. Без ключа данные выглядят как мусор.

Этот вводящий в заблуждение термин часто используется для обозначения того, что на самом деле является кодировкой символов. Вы должны знать об этом использовании, но по возможности придерживайтесь термина кодировки символов.

Таким образом, когда вы вводите текст с помощью клавиатуры или каким-либо другим способом, кодировка символов сопоставляет выбранные вами символы с определенными байтами в памяти компьютера, а затем для отображения текста считывает байты обратно в символы.

К сожалению, существует множество различных наборов символов и кодировок, т.е. множество различных способов отображения между байтами, кодовыми точками и символами. В разделе «Дополнительная информация» для тех, кто интересуется, немного больше подробностей.

Однако в большинстве случаев вам не нужно знать подробности. Вам просто нужно быть уверенным, что вы прислушаетесь к советам в разделе Как это на меня повлияет? ниже.

Как в это вписываются шрифты?

A — это набор определений глифов, т.е. определения фигур, используемых для отображения символов.

После того как ваш браузер или приложение определит, с какими символами он имеет дело, он будет искать в шрифте глифы, которые можно использовать для отображения или печати этих символов. (Конечно, если информация о кодировке была неверной, она будет искать глифы для неправильных символов.)

Заданный шрифт обычно охватывает один набор символов или, в случае большого набора символов, такого как Unicode, только подмножество всех символов в наборе.Если в вашем шрифте нет глифа для определенного символа, некоторые браузеры или программные приложения будут искать отсутствующие глифы в других шрифтах в вашей системе (это будет означать, что глиф будет отличаться от окружающего текста, например, примечание о выкупе). ). В противном случае вы обычно увидите квадратную рамку, вопросительный знак или какой-либо другой символ. Например:

Как это влияет на меня?

В настоящее время как автор или разработчик контента вы всегда должны выбирать кодировку символов UTF-8 для своего контента или данных. Эта кодировка Unicode является хорошим выбором, потому что вы можете использовать кодировку одного символа для обработки любого символа, который вам может понадобиться. Это сильно упрощает дело. Использование Unicode во всей вашей системе также избавляет от необходимости отслеживать и преобразовывать различные кодировки символов.

Авторам контента необходимо выяснить, как объявить кодировку символов, используемую для формата документа, с которым они работают.

Обратите внимание, что простое объявление другой кодировки на вашей странице не изменит байты; вам также нужно сохранить текст в этой кодировке.

Разработчикам необходимо убедиться, что различные части системы могут взаимодействовать друг с другом, понимать, какие кодировки символов используются, и поддерживать все необходимые кодировки и символы. (В идеале вы должны использовать кодировку UTF-8 везде и избавитесь от этой проблемы.)

По приведенным ниже ссылкам можно найти дополнительную информацию по этим темам.

Дополнительная информация

В этом разделе содержится небольшая дополнительная информация о сопоставлении между байтами, кодовыми точками и символами для тех, кому это интересно. Не стесняйтесь просто перейти к разделу «Дополнительная литература».

Обратите внимание, что числа кодовых точек обычно выражаются в шестнадцатеричной системе счисления, т.е. основание 16. Например, 233 в шестнадцатеричной форме равно E9. Значения кодовой точки Unicode обычно записываются в форме U+00E9.

В наборе кодированных символов ISO 8859-1 (также известном как Latin1) значение десятичного кода для буквы é равно 233. Однако в ISO 8859-5 та же самая кодовая точка представляет кириллический символ щ .

Эти наборы символов содержат менее 256 символов и напрямую сопоставляют кодовые точки со значениями байтов, поэтому кодовая точка со значением 233 представлена ​​одним байтом со значением 233. Обратите внимание, что только контекст определяет, будет ли этот байт представляет либо é, либо sch .

Есть и другие способы обработки символов из ряда сценариев. Например, с помощью набора символов Unicode вы можете представлять оба символа в одном наборе. На самом деле Unicode содержит в одном наборе, вероятно, все символы, которые вам когда-либо понадобятся. В то время как буква é по-прежнему представлена ​​кодовой точкой 233, кириллический символ щ теперь имеет кодовую точку 1097.

В наши дни байты обычно состоят из 8 бит. Существует только 2 8 (т.е. 256) уникальных способов объединения 8 битов.

С другой стороны, 1097 — слишком большое число, чтобы его можно было представить одним байтом*. Итак, если вы используете кодировку символов для текста Unicode, называемую UTF-8, щ будет представлена ​​двумя байтами. Однако значение кодовой точки получается не просто из значения двух соединенных вместе байтов — требуется более сложное декодирование.

Другие символы Юникода соответствуют одному, трем или четырем байтам в кодировке UTF-8.

Кроме того, обратите внимание, что буква é также представлена ​​двумя байтами в UTF-8, а не одним байтом, который используется в ISO 8859-1. (Только символы ASCII кодируются одним байтом в UTF-8.)

UTF-8 — это наиболее широко используемый способ представления текста Unicode на веб-страницах, и вы всегда должны использовать UTF-8 при создании своих веб-страниц и баз данных. Но, в принципе, UTF-8 — это лишь один из возможных способов кодировки символов Юникода. Другими словами, одна кодовая точка в наборе символов Unicode может фактически отображаться в различные последовательности байтов, в зависимости от того, какая кодировка использовалась для документа. Кодовые точки Unicode могут быть сопоставлены с байтами с использованием любой из кодировок, называемых UTF-8, UTF-16 или UTF-32. Символ деванагари क с кодовой точкой 2325 (что равно 915 в шестнадцатеричной записи) будет представлен двумя байтами при использовании кодировки UTF-16 (09 15), тремя байтами при использовании UTF-8 (E0 A4 95) или четырьмя байтами. байт с кодировкой UTF-32 (00 00 09 15).

Могут быть дополнительные сложности помимо описанных в этом разделе (например, порядок байтов и escape-последовательности), но описанные здесь подробности показывают, почему важно, чтобы приложение, с которым вы работаете, знало, какая кодировка символов подходит для ваших данных. , и знает, как обращаться с этой кодировкой.

Дополнительная литература

Начинаете? Введение в наборы символов и кодировки — указывает на другие документы W3C, связанные с наборами символов и кодировками

Учебное пособие, Работа с кодировками символов в HTML и CSS. Советы по выбору кодировки, ее объявлению и другим темам, связанным с HTML и CSS.

Настройка кодировки в веб-приложениях для разработки — как заставить ваш редактор сохранять в другой кодировке список сред редактирования.

Символ, обычно сокращенно обозначаемый как "char", представляет собой компьютерный символ, букву или число. [1] Клавиатура — это устройство ввода, которое вводит символ при нажатии клавиши. В Scratch символы используются в строках, аргументах и ​​любых ситуациях в редакторе Scratch или воспроизводимом проекте, где требуется текст.

Компьютеры используют наборы кодировок для представления символов. Поскольку компьютеры понимают только двоичный код, символы идентифицируются определенными двоичными последовательностями. В мире существует множество вариаций и стандартов, которые менялись на протяжении всей истории. [2]

Содержание

Типы персонажей

Письма

Буквы — это символы алфавита. В английском языке они состоят из строчных и прописных букв в диапазоне от букв «A» до «Z». Комбинируя буквы, можно создавать слова, а комбинируя слова, можно создавать предложения. «Персонаж» — это просто более универсальный мир, который включает в себя буквы и другие символы.

Символы

Эмодзи

Эмодзи – это небольшие изображения и смайлики, являющиеся частью технического стандарта Unicode [3], который применяется на большинстве компьютеров, телефонов и подобных устройств. Они являются распознаваемыми компьютерными символами и даже могут использоваться в названиях проектов и самих проектах (начиная с Scratch 3.0). В последнее десятилетие популярность смайликов резко возросла благодаря их забавному и визуальному характеру, а также легкому доступу на мобильных телефонах. Чтобы ввести эмодзи в проект, существуют различные способы:

  • Выполните ввод на мобильном телефоне со страницы проекта.
  • Скопируйте и вставьте эмодзи из другого интернет-источника
  • Использование экранной клавиатуры с поддержкой эмодзи на компьютере

В Windows 10 экранная клавиатура по умолчанию не поддерживает эмодзи. Однако есть вторая экранная клавиатура, называемая «Сенсорная клавиатура», которая поддерживает смайлики. Сенсорную клавиатуру можно использовать даже без сенсорного экрана; он поддерживает традиционную компьютерную мышь. Чтобы включить его, щелкните правой кнопкой мыши панель задач и выберите «Показать кнопку сенсорной клавиатуры». Оттуда значок сенсорной клавиатуры появится в правой части панели задач. На виртуальной клавиатуре кнопка «смайлик» отображает параметры эмодзи. Другой способ – нажать клавишу с логотипом Windows и клавишу с точкой, чтобы отобразить набор смайликов и каомодзи.

Числа

Числа также являются символами, часто используемыми для представления количества в контексте математических операций или в предложении. Отдельные числовые символы можно комбинировать для получения более крупных или более точных чисел. Основные числа находятся в диапазоне от «0» до «9». Десятичные числа часто используют "." символ для представления десятичной точки. В то время как "." сам по себе символ является символом, а не числом, его можно использовать с числом.

Непечатаемые символы

Некоторые символы "невидимы", так как компьютеры не отображают их на экране. [4] Примером этого является клавиша «escape». Другие примеры включают символ для клавиши «enter», клавиши «tab» и даже значение «null». Null — это не то, что имеет какое-либо визуальное представление, но важно в компьютерном программировании. В языке C символ "null" используется для обозначения конца строки.

Ограничения

Некоторые компьютерные программы могут разрешать использование определенных символов только в определенных обстоятельствах. Например, Scratch не позволяет вводить буквы или символы в цифровую вставку. Программист сам решает, какие символы разрешены, а какие нет. Многие веб-сайты позволяют использовать в именах пользователей только буквы, цифры и несколько символов. Пароли часто позволяют использовать больший диапазон символов для повышения безопасности.

Строки

Строка представляет собой цепочку символов. Строкой может быть фраза, слово или даже случайный набор символов. Передача идей, как правило, не может осуществляться с помощью одного персонажа, поэтому несколько символов используются в унисон. Однако строка может состоять из одного символа. В Scratch строки обычно используются в списках, блоках, таких как Say(), кодировании и декодировании облачных данных и многом другом.

Извлечение символа из строки

В Scratch буква () в блоке [] используется для извлечения одного символа из строки.Например, если необходимо получить первую букву слова «Hello World», в блок можно ввести аргументы, чтобы сформировать букву (1) слова [Hello World] .

Кодирование

Компьютер не распознает символы, как человек. Человек видит хмурый смайлик и интерпретирует его как грусть. Человек видит числа и ассоциирует с ними математику. Компьютер — это просто машина, которая представляет символы в стандартизированных форматах, известных как кодировка. [5] По сути, всем символам присвоены кодовые значения. Обычно значения кода организованы для удобства программиста. Например, коды букв будут упорядочены по алфавиту. Числа также будут в простом порядке.

ASCII

ASCII — это ограниченный набор символов из-за его истории. В прошлом компьютеры могли обрабатывать только до 8 бит, поэтому набор символов ASCII был ограничен 127 символами. В основном это были символы, наиболее связанные с английским языком. В следующей таблице приведены фрагменты некоторых символов из набора: [7]

Стандарты сопоставления

В разных странах разные символы ANSI представляют разные значения. Сама система кодирования (ANSI) использует ту же логику, но то, какие коды связаны с какими символами, различается. [9] Стандарт отображения — это метод определения кодов для желаемых символов. ISO-8859 и его варианты являются наиболее распространенными схемами сопоставления западных языков в ANSI. [10]

Ввод символов с клавиатуры

Клавиатуры имеют ограниченное количество символов. Если, например, кто-то хочет ввести символ «°», клавишу «alt» можно удерживать нажатой, в то время как «0176» набирается на правой цифровой клавиатуре клавиатуры. [11] «176» — это соответствующий код знака градуса в ANSI. Эта функция встроена в большинство клавиатур.

UTF-8 — это более современный стандарт, охватывающий более миллиона символов и не требующий обязательного использования нескольких байтов на символ. Стандарт можно использовать во всем мире, позволяя использовать китайские символы в том же тексте, что и испанские символы. [12] UTF-8 кодирует в определенные биты информацию о длине последовательности битов для представления символа. Например, если определенный символ имеет очень длинный код для представления самого себя, несколько битов будут действовать как «флажок», чтобы предупредить компьютер о том, что это более длинный символ. Затем компьютер будет учитывать следующий байт для одного символа.

Некоторые символы представлены в кодировке меньшим количеством байтов, чем другие. Таким образом, это позволяет файлам быть меньше по размеру, чем кодировка, которая обрабатывает каждый символ с одинаковым количеством байтов. Кодировка символов USC4 представляет все символы с 4 байтами. В то время как некоторые символы в UTF-8 могут быть представлены 4 байтами, многие представлены только 1 или 2. В следующей таблице показано количество байтов, необходимых для диапазона символов: [13]

Из-за этой настройки все исходные символы ASCII (0–127) по-прежнему занимают всего 1 байт в кодировке UTF-8. Наименее распространенные символы занимают большее количество байтов.

Другие варианты

Также существуют UTF-16 и UTF-32, но они менее распространены, чем UTF-8. UTF-16 использует минимум 16 бит или 2 байта для каждого символа. [14] Можно было бы предположить, что это сделает файлы больше, чем UTF-8, но некоторые символы в символе UTF-8, которые представлены 3 байтами, могут быть представлены 2 байтами в UTF-16. Символ, представленный 16 битами в UTF-8, на самом деле занимает 3 байта, потому что некоторые биты используются для обозначения того, что необходимо несколько байтов. В UTF-16 16-битный символ может быть представлен 2 байтами.

Юникод

Консорциум Unicode – это некоммерческая организация, которая разрабатывает стандарт Unicode для компьютерных символов.

Юникод — это стандартизированный набор символов, в котором может храниться более миллиона символов. UTF-8 кодирует набор символов Unicode. Сам Unicode не указывает, как кодировать свои данные в двоичный код, это просто большая база данных кодовых значений многих символов. [15] Unicode постоянно пополняется новыми значениями, так как еще не все заполнено.

Использование в Scratch

Предварительное знание стандартов компьютерного кодирования символов может быть полезным при разработке проектов Scratch. В частности, использование облачных переменных для хранения большего количества данных, чем значение счетчика или рекорда, требует специальной системы кодирования. Облачные переменные способны хранить только числа, поэтому, если необходимо сохранить текст, его необходимо преобразовать в числовые коды. Это соответствует тому, как работают компьютеры, поскольку они переводят текст в последовательности "1" и "0".

Подобно кодировке ASCII, можно разработать систему, в которой каждому символу назначается код, а облачная переменная содержит последовательность кодов.Когда данные должны быть прочитаны, их необходимо декодировать путем поиска символов, связанных с их соответствующими кодовыми значениями. Поскольку облачные переменные позволяют использовать числа от 0 до 9, меньшее количество цифр может представлять тот же диапазон символов, что и ASCII, для которого требуется 7 цифр (битов) в двоичном формате на символ.

UTF-8 также можно воспроизвести с помощью облачных переменных, используя некоторые цифры для представления того, сколько других цифр являются частью одного и того же символа перед переходом к следующему. Учтите, что первое число в облачной переменной означает, сколько следующих цифр составляет код следующего символа. Если закодированные данные облачной переменной — 3 564 2 98 , то код первого символа — «564», за которым следует «98». «3» означает, что в первом символе 3 цифры, а «2» означает, что во втором символе 2 цифры.

Тогда можно использовать список, где индекс соответствует коду символа. Этот тип системы был бы полезен, если проект должен распознавать большое количество символов. Ограничения можно установить, разрешив только определенные символы, используя более простую систему кодирования на основе ASCII с фиксированным количеством цифр на символ. Это, однако, может вызвать проблемы, если чье-то имя пользователя с «недопустимым» символом попытается закодировать в облачную переменную. Такие обстоятельства могли бы объясняться более сложной логикой.

Читайте также: