Слово для произнесения может храниться в файле размером в байтах, кавычки не учитываются при расчетах

Обновлено: 09.07.2026

В этом разделе описываются строковые/текстовые типы данных, включая двоичные строки, поддерживаемые в Snowflake, а также поддерживаемые форматы строковых констант/литералов.

В этой теме:

Типы данных для текстовых строк¶

Snowflake поддерживает следующие типы данных для текстовых (то есть символьных) строк.

VARCHAR¶

VARCHAR содержит символы Юникода.

При объявлении столбца типа VARCHAR можно указать необязательный параметр (N) , который представляет собой максимальное количество сохраняемых символов. Например:

Если длина не указана, по умолчанию используется максимально допустимая длина (16 777 216).

Хотя максимальная длина VARCHAR указывается в символах , максимальное количество VARCHAR также ограничено максимальным количеством байтов (16 777 216 (16 МБ)). Максимальное количество символов Unicode, которое может храниться в столбце VARCHAR, показано ниже:

От 8 388 608 (2 байта на символ) до 4 194 304 (4 байта на символ).

Например, если вы объявите столбец как VARCHAR(16777216), столбец может содержать не более 8 388 608 2-байтовых символов Юникода, даже если вы указали максимальную длину 1 6777216.

Столбец занимает место только для фактических данных. Например, односимвольная строка в столбце VARCHAR(16777216) занимает только один символ.

Нет никакой разницы в производительности при использовании объявления VARCHAR полной длины VARCHAR(16777216) или объявления меньшей длины. Обратите внимание, что в любой реляционной базе данных операторы SELECT, в которых предложение WHERE ссылается на столбцы VARCHAR или строковые столбцы, не так быстры, как операторы SELECT, отфильтрованные с использованием даты или числового условия столбца.

Некоторые инструменты BI/ETL определяют максимальный размер данных VARCHAR в хранилище или в памяти. Если вы знаете максимальный размер столбца, вы можете ограничить размер при добавлении столбца.

СИМВОЛ, СИМВОЛ¶

Синоним VARCHAR, за исключением того, что если длина не указана, по умолчанию используется CHAR(1).

В настоящее время Snowflake отличается от обычной семантики CHAR тем, что строки короче максимальной длины не дополняются пробелом в конце.

СТРОКА , ТЕКСТ¶

Синоним VARCHAR.

Примеры строк в столбцах таблицы¶

Типы данных для двоичных строк¶

Snowflake поддерживает следующие типы данных для двоичных строк.

ДВОИЧНЫЕ¶

Максимальная длина — 8 МБ (8 388 608 байт). В отличие от VARCHAR, тип данных BINARY не имеет представления о символах Юникода, поэтому длина всегда измеряется в байтах.

(Значения BINARY ограничены 8 МБ, поэтому они помещаются в пределах 16 МБ при преобразовании в шестнадцатеричные строки, например, с помощью TO_CHAR( , 'HEX') .)

Если длина не указана, по умолчанию используется максимальная длина.

VARBINARY¶

VARBINARY является синонимом BINARY.

Внутреннее представление¶

Когда Snowflake отображает ДВОИЧНЫЕ значения данных, Snowflake часто представляет каждый байт как 2 шестнадцатеричных символа. Например, слово «HELP» может отображаться как 48454C50 , где «48» — шестнадцатеричный эквивалент буквы «H» в кодировке ASCII (Unicode), «45» — шестнадцатеричное представление буквы «E» и т. д.< /p>

Дополнительную информацию о вводе и отображении ДВОИЧНЫХ данных см. в разделе Двоичный ввод и вывод .

Примеры двоичных файлов в столбцах таблицы¶

Строковые константы¶

Константы (также известные как литералы) относятся к фиксированным значениям данных. Строковые константы в Snowflake всегда должны быть заключены между символами-разделителями. Snowflake поддерживает использование одного из следующих способов разделения строковых констант:

Строковые константы в одинарных кавычках¶

Строковая константа может быть заключена в одинарные кавычки (например, «Это строка»). Чтобы включить символ одинарной кавычки в строковую константу, введите две смежные одинарные кавычки (например, '' ).

Две одинарные кавычки — это не то же самое, что символ двойной кавычки ( " ), который используется (при необходимости) для разделения идентификаторов объектов. Дополнительную информацию см. в разделе Требования к идентификаторам .

Escape-последовательности¶

Строковая константа в одинарных кавычках может включать символ одинарной кавычки (или другой специальный символ) с помощью управляющей последовательности. Символ обратной косой черты ( \ ) начинает escape-последовательность обратной косой черты.

Поскольку обратная косая черта является escape-символом, она не может использоваться сама по себе как буквальный символ. Чтобы использовать символ обратной косой черты в строковом литерале SQL, вы должны заменить символ обратной косой черты другим символом обратной косой черты. Например, чтобы включить один \ в строку, используйте \\ . Пример приведен ниже в этом разделе.

Escape-последовательности также можно использовать для вставки символов ASCII, указав числовое значение, соответствующее этому символу. Например, символ пробела может быть представлен как шестнадцатеричное число 20 (десятичное 32).

Существует три типа escape-последовательностей: простые, восьмеричные и шестнадцатеричные:

< tr >

Escape-последовательность	Представленный символ
Простые управляющие последовательности
\'	Одна символ кавычки ( ' )
\"	Символ двойной кавычки ( " )< /p>
\\	Символ обратной косой черты ( \ )
\b	Символ возврата
\f	Символ перевода страницы
\n < /td>	Символ новой строки (перевода строки)
\r	< p>Символ возврата каретки
\t	Символ табуляции
Восьмеричные управляющие последовательности
\ooo	Символ ASCII в восьмеричной системе счисления (т. е. где каждый o представляет восьмеричную цифру)
Шестнадцатеричные управляющие последовательности
\x hh	Символ ASCII в шестнадцатеричной системе счисления (т. е. где каждый h представляет собой шестнадцатеричную цифру)

Обратите внимание, что неспециальный символ, экранированный обратной косой чертой, просто интерпретируется как этот символ (например, '\z' становится 'z').

Строковые константы с долларовыми кавычками¶

Если строка содержит много символов кавычек, может быть проще заключать строковые константы в знаки доллара, а не в одинарные кавычки. Строковая константа в долларовых кавычках состоит из символов строки, окруженных парой знаков доллара ( $$ ).

Например, следующие строковые константы эквивалентны:

Строковая константа в долларовых кавычках может включать кавычки или любой другой символ без необходимости их экранирования. Содержимое строки всегда записывается буквально. Обратите внимание, что строковая константа не может содержать знаки двойного доллара.

В этой теме:

Типы данных для текстовых строк¶

Snowflake поддерживает следующие типы данных для текстовых (то есть символьных) строк.

VARCHAR¶

VARCHAR содержит символы Юникода.

Если длина не указана, по умолчанию используется максимально допустимая длина (16 777 216).

От 8 388 608 (2 байта на символ) до 4 194 304 (4 байта на символ).

СИМВОЛ, СИМВОЛ¶

Синоним VARCHAR, за исключением того, что если длина не указана, по умолчанию используется CHAR(1).

СТРОКА , ТЕКСТ¶

Синоним VARCHAR.

Примеры строк в столбцах таблицы¶

Типы данных для двоичных строк¶

Snowflake поддерживает следующие типы данных для двоичных строк.

ДВОИЧНЫЕ¶

Если длина не указана, по умолчанию используется максимальная длина.

VARBINARY¶

VARBINARY является синонимом BINARY.

Внутреннее представление¶

Когда Snowflake отображает ДВОИЧНЫЕ значения данных, Snowflake часто представляет каждый байт как 2 шестнадцатеричных символа.Например, слово «HELP» может отображаться как 48454C50 , где «48» — шестнадцатеричный эквивалент буквы «H» в кодировке ASCII (Unicode), «45» — шестнадцатеричное представление буквы «E» и т. д.< /p>

Дополнительную информацию о вводе и отображении ДВОИЧНЫХ данных см. в разделе Двоичный ввод и вывод .

Примеры двоичных файлов в столбцах таблицы¶

Строковые константы¶

Строковые константы в одинарных кавычках¶

Escape-последовательности¶

Существует три типа escape-последовательностей: простые, восьмеричные и шестнадцатеричные:

< tr >

Escape-последовательность	Представленный символ
Простые управляющие последовательности
\'	Одна символ кавычки ( ' )
\"	Символ двойной кавычки ( " )< /p>
\\	Символ обратной косой черты ( \ )
\b	Символ возврата
\f	Символ перевода страницы
\n < /td>	Символ новой строки (перевода строки)
\r	< p>Символ возврата каретки
\t	Символ табуляции
Восьмеричные управляющие последовательности
\ooo	Символ ASCII в восьмеричной системе счисления (т. е. где каждый o представляет восьмеричную цифру)
Шестнадцатеричные управляющие последовательности
\x hh	Символ ASCII в шестнадцатеричной системе счисления (т. е. где каждый h представляет собой шестнадцатеричную цифру)

Строковые константы с долларовыми кавычками¶

Например, следующие строковые константы эквивалентны:

Информация проходит через приложение небольшими дискретными значениями, очень похожими на ячейки электронной таблицы. Например, данные в полях «День рождения» и «Годовщина» будут передаваться как значение «Дата», которое включает год, месяц и день. Приложение знает, как форматировать эти значения, ограничивать ввод тем, что подходит для каждого из них, и делиться значениями с базой данных. Дни рождения отличаются от годовщин для людей, но система обрабатывает их точно так же. В этом случае Date является примером типа данных.

В этой статье подробно описаны типы данных, поддерживаемые приложениями на основе холста. Когда приложение подключается к внешнему источнику данных, каждый тип данных в этом источнике сопоставляется с типом данных для приложений на основе холста.

Многие из этих типов данных похожи и имеют одинаковое базовое представление, например, поле гиперссылки рассматривается как текст. Дополнительные типы данных улучшают работу форм и других элементов управления по умолчанию.

Пусто

Все типы данных могут иметь значение пусто (другими словами, без значения). Для этого понятия в базах данных часто используется термин "null".

Используйте функцию Blank с функцией Set или Patch, чтобы сделать переменную или поле пустой. Например, Set( x, Blank() ) удаляет любое значение глобальной переменной x.

Проверить значение пустое с помощью функции IsBlank. Замените возможные пустые значения непустыми значениями с помощью функции Coalesce.

Поскольку все типы данных поддерживают blank, типы данных Boolean и Two option фактически имеют три возможных значения.

Текст, гиперссылка, изображение и мультимедиа

Все четыре типа данных основаны на текстовой строке Unicode.

Встроенный текст

Встроенные в формулу текстовые строки заключаются в двойные кавычки. Используйте две двойные кавычки вместе, чтобы представить одну двойную кавычку в текстовой строке. Например, используя следующую формулу в свойстве OnSelect элемента управления Button:

при нажатии кнопки появляется баннер, в котором первая и последняя двойные кавычки опущены (поскольку они ограничивают текстовую строку), а вокруг Hello, World! повторяются двойные кавычки. заменяются одинарной двойной кавычкой:

Одинарные кавычки не используются для имен идентификаторов, которые содержат специальные символы и не имеют значения в текстовой строке.

Изображения и мультимедийные ресурсы

В меню «Файл» вы можете добавлять изображения, видео и аудиофайлы в качестве ресурсов приложения. Имя импортированного файла становится именем ресурса в приложении. На этом рисунке логотип Northwind Traders, который называется nwindlogo, был добавлен в приложение:

Чтобы использовать этот ресурс в приложении, укажите его в свойстве Image элемента управления Image:

URI для изображений и других медиафайлов

Вы можете углубиться в этот последний пример, задав для свойства Text элемента управления Label значение nwindlogo. Метка показывает текстовую строку:

Приложения на основе холста ссылаются на каждое изображение или другой мультимедийный файл, независимо от того, находится ли он в облаке или добавлен в качестве ресурса приложения, с помощью текстовой строки URI.

Например, свойство Image элемента управления изображением принимает не только ресурсы приложения, но и ссылки на изображения в Интернете, например "https://northwindtraders.com/logo.jpg". Свойство также принимает встроенные изображения, использующие схему URI данных, как в этом примере:

Этот URI отображает увеличенную версию двух фиолетовых ромбов:

Вы можете отобразить самое последнее изображение, снятое в элементе управления "Камера", если для свойства Image элемента управления изображением установить свойство Photo элемента управления камерой. Приложение хранит изображение в памяти, а свойство Photo элемента управления камерой возвращает ссылку URI на изображение. Например, вы можете сделать снимок, и свойство Photo камеры может вернуть «appres://blobmanager/7b12ffa2ea4547e5b3812cb1c7b0a2a0/1».

Вы используете URI для ссылки на изображение или другой мультимедийный файл, хранящийся в базе данных. Таким образом, приложение не извлекает фактические данные, пока они действительно не понадобятся. Например, вложение в таблице Microsoft Dataverse может возвращать «appres://datasources/Contacts/table/». Как и в примере с камерой, вы можете отобразить это изображение, задав для свойства Image элемента управления изображение эту ссылку, которая извлекает двоичные данные.

Когда вы сохраняете тип медиаданных, например изображение, в базу данных, приложение отправляет фактическое изображение или медиаданные, а не ссылку URI.

Ограничения по размеру

Как и текстовые строки и URI, эти типы данных не имеют предустановленных ограничений на длину.

Двоичные данные, на которые ссылаются эти типы данных, также не имеют предустановленного ограничения на размер. Например, изображение, снятое с помощью элемента управления камерой, которое теперь обозначается как «appres://.», может иметь такое большое и высокое разрешение, какое может обеспечить камера устройства. Разрешение, частота кадров и другие атрибуты медиафайлов не ограничиваются типом данных, но определенные элементы управления для воспроизведения и захвата медиафайлов могут иметь свои собственные ограничения.

Однако все размеры данных зависят от объема доступной памяти в приложении. Браузеры, работающие на настольном компьютере, обычно поддерживают более 100 мегабайт данных.Однако объем доступной памяти на таком устройстве, как телефон, может быть намного меньше, обычно в диапазоне 30–70 мегабайт. Чтобы определить, будет ли ваше приложение работать в этих пределах, протестируйте распространенные сценарии на всех устройствах, на которых оно должно работать.

Рекомендуется хранить данные в памяти ровно столько, сколько необходимо. Загружайте изображения в базу данных, как только сможете; загружать изображения только тогда, когда их запрашивает пользователь приложения.

Число и валюта

Типы данных "Число" и "Валюта" используют стандарт двойной точности с плавающей запятой IEEE 754. Этот стандарт обеспечивает очень широкий диапазон чисел для работы, от –1,79769 x 10 308 до 1,79769 x 10 308 . Наименьшее значение, которое может быть представлено, равно 5 x 10 –324 .

Арифметика с плавающей запятой является приблизительной, поэтому иногда она может давать неожиданные результаты во многих задокументированных примерах. Вы можете ожидать, что формула 55/100 * 100 вернет ровно 55, а (55/100 * 100) - 55 вернет ровно ноль. Однако последняя формула возвращает 7,1054 x 10 –15 , что очень мало, но не равно нулю. Эта крошечная разница обычно не вызывает проблем, и приложение округляет ее при отображении результата. Однако небольшие расхождения могут усугубляться в последующих расчетах и давать неверный ответ.

Системы баз данных часто хранят валюты и выполняют вычисления с использованием десятичной математики, которая предлагает меньший диапазон, но больший контроль над точностью. По умолчанию приложения на основе холста сопоставляют валюты со значениями с плавающей запятой и из них; поэтому результат может отличаться от вычислений, выполненных в родном десятичном типе данных. Если этот тип несоответствия вызовет проблемы, вы можете работать с этими значениями как с текстом, точно так же, как вы могли бы работать с большими целыми числами, описанными ранее в этом разделе.

Дата, время и дата/время

Часовые пояса

Значения даты/времени относятся к следующим категориям:

Локальный пользователь: эти значения хранятся в формате UTC (всемирное скоординированное время), но часовой пояс пользователя приложения влияет на то, как приложение отображает эти значения и как пользователь приложения их указывает. Например, один и тот же момент отображается для пользователя из Канады иначе, чем для пользователя из Японии.
Независимый от часового пояса: приложение показывает эти значения одинаково, и пользователь приложения указывает их одинаково, независимо от часового пояса. Один и тот же момент отображается для пользователя в Канаде так же, как и для пользователя в Японии. Авторы приложений, которые не ожидают, что их приложения будут работать в разных часовых поясах, используют эти значения, потому что в целом они проще.

В этой таблице приведены некоторые примеры:

Тип даты/времени	Значение, хранящееся в базе данных	Отображаемое и введенное значение в 7 часах западнее UTC	Отображаемое и введенное значение на 4 часа восточнее UTC
Локальный пользователь	Воскресенье, 19 мая 2019 г. 4:00	Суббота, 18 мая 2019 г. 21:00	Воскресенье, 19 мая 2019 г. 8:00
Часовой пояс не зависит	Воскресенье, 19 мая 2019 г. 4:00 AM	Воскресенье, 19 мая 2019 г. 4:00	Воскресенье, 19 мая 2019 г. 4:00

Для локальной даты/времени пользователя приложения на основе холста используют часовой пояс браузера или устройства, а приложения на основе модели используют пользовательские настройки в Dataverse. Эти настройки обычно совпадают, но результаты будут отличаться, если эти настройки различаются.

Используйте функции DateAdd и TimeZoneInformation для преобразования местного времени в формат UTC и обратно. См. примеры в конце документации по этим функциям.

Числовые эквиваленты

Приложения на основе холста хранят и вычисляют все значения даты и времени, независимо от того, являются ли они локальными для пользователя или независимыми от часового пояса в формате UTC. Приложение преобразует значения в зависимости от часового пояса пользователя приложения при их отображении и при указании пользователем приложения.

Когда приложение на основе холста считывает независимое от часового пояса значение из источника данных или записывает такое значение в источник данных, приложение автоматически корректирует значение, чтобы компенсировать часовой пояс пользователя приложения. Затем приложение обрабатывает это значение как значение в формате UTC, согласующееся со всеми другими значениями даты и времени в приложении. Из-за этой компенсации исходное значение, не зависящее от часового пояса, появляется, когда приложение корректирует значение UTC для часового пояса пользователя приложения.

Вы можете более внимательно наблюдать за этим поведением, используя функцию Value для доступа к базовому числовому значению для значения даты/времени. Эта функция возвращает значение даты/времени в виде количества миллисекунд с 00:00:00,000 UTC 1 января 1970 года.

Поскольку все значения даты/времени хранятся в формате UTC, формула Значение( Дата( 1970, 1, 1 )) не будет возвращать ноль в большинстве регионов мира, поскольку функция Date возвращает дату в формате UTC. Например, формула вернет 28 800 000 в часовом поясе, смещенном от UTC на восемь часов. Это число отражает количество миллисекунд в восьми часах.

Возвращаясь к нашему примеру выше:

Преобразование времени Unix

Время Unix отражает количество секунд, прошедших с 00:00:00 UTC 1 января 1970 года. Поскольку в приложениях на основе холста вместо секунд используются миллисекунды, вы можете преобразовать их, умножив или разделив на 1000.

Например, время Unix показывает 9 сентября 2001 года в 01:46:40 UTC как 1 000 000 000. Чтобы отобразить это значение даты и времени в приложении на основе холста, умножьте это число на 1000, чтобы преобразовать его в миллисекунды, а затем используйте его в функции Text. Формула Text( 1000000000 * 1000, DateTimeFormat.UTC ) возвращает строку 2001-09-09T01:46:40.000Z.

Однако эта функция возвращает субботу, 8 сентября 2001 г., 18:46:40, если вы используете формат DateTimeFormat.LongDateTime24 в часовом поясе, смещенном на -7 часов от UTC (7 часов к западу от UTC). Этот результат правильно отображает значение DateTime в зависимости от местного часового пояса.

Чтобы преобразовать время в Unix, разделите результат Value на 1000:
Округлить в меньшую сторону( Value( UnixTime ) / 1000, 0 )

Если вам нужно время Unix в значении даты для дальнейших вычислений или отображения в Power Apps, используйте следующую формулу:
DateAdd( Date( 1970,1,1 ), UnixTime, Seconds )

SQL-сервер

SQL Server имеет типы данных Datetime, Datetime2 и другие типы данных даты/времени, которые не включают смещение часового пояса и не указывают, в каком часовом поясе они находятся. Приложения Canvas предполагают, что эти значения хранятся в формате UTC и относиться к ним как к локальным пользователям. Если предполагается, что значения не зависят от часового пояса, исправьте переводы в формате UTC с помощью функции TimeZoneOffset.

Приложения на основе холста используют информацию о часовом поясе, включенную в поля Datetimeoffset, при преобразовании значения во внутреннее представление UTC приложения. Приложения всегда используют UTC в качестве часового пояса (смещение нулевого часового пояса) при записи данных.

Приложения на основе холста считывают и записывают значения типа данных Time в SQL Server в виде текстовых строк в формате длительности ISO 8601. Например, вы должны проанализировать этот формат строки и использовать функцию времени для преобразования текстовой строки "PT2H1M39S" в значение времени:

Смешивание информации о дате и времени

Дата, время и дата и время имеют разные имена, но все они содержат одинаковую информацию о дате и времени.

Значение даты может включать информацию о времени, обычно это полночь. Значение Time может содержать информацию о дате, обычно 1 января 1970 года. Dataverse также хранит информацию о времени в поле «Только дата», но по умолчанию показывает только информацию о дате. Точно так же приложения на основе холста иногда различают эти типы данных, чтобы определить форматы и элементы управления по умолчанию.

Добавлять и вычитать значения даты и времени напрямую не рекомендуется, поскольку преобразование часового пояса и другие преобразования могут привести к путанице. Либо используйте функцию Value, чтобы сначала преобразовать значения даты/времени в миллисекунды и принять во внимание часовой пояс пользователя приложения, либо используйте функции DateAdd и DateDiff, чтобы добавить или вычесть одно из этих значений.

Варианты и Да/Нет

Выборы и типы данных с двумя вариантами предоставляют пользователю приложения два или более вариантов выбора. Например, в разделе «Статус заказа» могут быть варианты «Новый», «Отправлено», «Выставлен счет» и «Закрыто». Тип данных с двумя параметрами предлагает только два варианта.

Оба этих типа данных отображают свои метки в контексте текстовой строки. Например, элемент управления меткой показывает один из параметров статуса заказа, если для свойства Text элемента управления задана формула, которая ссылается на этот выбор. Ярлыки параметров могут быть локализованы для пользователей приложения в разных странах.

Когда пользователь приложения выбирает вариант и сохраняет это изменение, приложение передает данные в базу данных, которая сохраняет эти данные в представлении, независимом от языка. Опция в выборе передается и сохраняется как число, а опция в типе данных с двумя опциями передается и сохраняется как логическое значение.

Ярлыки предназначены только для отображения. Вы не можете выполнять прямое сравнение с метками, потому что они специфичны для языка. Вместо этого у каждого выбора есть перечисление, которое работает с базовым числом или логическим значением. Например, вы не можете использовать эту формулу:

Если( ThisItem.OrderStatus = "Активный", .

Но вы можете использовать эту формулу:

Если( ThisItem.OrderStatus = OrderStatus.Active, .

Для глобальных вариантов выбора (какие общие таблицы) имя перечисления набора параметров совпадает с именем глобального выбора.Для локальных вариантов (которые ограничены таблицей) имя может содержать имя таблицы. Такое поведение позволяет избежать конфликтов, если в нескольких таблицах есть варианты с одинаковыми именами. Например, таблица Accounts может иметь значение OrderStatus, и ее имя может быть OrderStatus (Accounts). Это имя содержит один или несколько пробелов и круглых скобок, поэтому его необходимо заключить в одинарные кавычки, если вы ссылаетесь на него в формуле.

Кроме того, значения с двумя параметрами также могут вести себя как логические значения. Например, значение с двумя параметрами TaxStatus может иметь метки Taxable и Non-Taxable, которые соответствуют true и false соответственно. Чтобы продемонстрировать, вы можете использовать эту формулу:

Программа Python читается парсером. На вход синтаксического анализатора поступает поток токенов, сгенерированный лексическим анализатором. В этой главе описывается, как лексический анализатор разбивает файл на лексемы.

Python читает текст программы как кодовые точки Unicode; кодировка исходного файла может быть задана объявлением кодировки и по умолчанию UTF-8, подробности см. в PEP 3120. Если исходный файл не может быть декодирован, возникает ошибка SyntaxError.

2.1. Структура строки¶

Программа Python делится на несколько логических строк.

2.1.1. Логические линии¶

Конец логической строки представлен токеном NEWLINE. Операторы не могут пересекать границы логических строк, за исключением случаев, когда NEWLINE разрешен синтаксисом (например, между операторами в составных операторах). Логическая линия создается из одной или нескольких физических линий в соответствии с явными или неявными правилами соединения строк.

2.1.2. Физические линии¶

Физическая строка — это последовательность символов, заканчивающаяся последовательностью конца строки. В исходных файлах и строках может использоваться любая из стандартных последовательностей завершения строки платформы — форма Unix с использованием ASCII LF (перевод строки), форма Windows с использованием последовательности ASCII CR LF (возврат с последующим переводом строки) или старая форма Macintosh с использованием символ ASCII CR (возврат). Все эти формы можно использовать одинаково, независимо от платформы. Конец ввода также служит неявным терминатором для последней физической строки.

При встраивании Python строки исходного кода должны передаваться в API Python с использованием стандартных соглашений C для символов новой строки (символ \n, представляющий ASCII LF, является разделителем строки).

2.1.3. Комментарии¶

2.1.4. Декларации кодирования¶

Если комментарий в первой или второй строке скрипта Python соответствует регулярному выражению coding[=:]\s*([-\w.]+) , этот комментарий обрабатывается как объявление кодировки; первая группа этого выражения называет кодировку файла исходного кода. Объявление кодировки должно появиться на отдельной строке. Если это вторая строка, первая строка также должна быть строкой только для комментариев. Рекомендуемые формы выражения кодирования

который также распознается GNU Emacs, и

который распознается системой VIM Брэма Муленаара.

Если объявление кодировки не найдено, используется кодировка по умолчанию UTF-8. Кроме того, если первые байты файла представляют собой знак порядка байтов UTF-8 ( b'\xef\xbb\xbf' ), объявленная кодировка файла - UTF-8 (это поддерживается, среди прочего, блокнотом Microsoft). ).

Если объявлена кодировка, имя кодировки должно быть распознано Python. Кодировка используется для всего лексического анализа, включая строковые литералы, комментарии и идентификаторы.

2.1.5. Явное соединение строк¶

Две или более физические строки могут быть объединены в логические строки с помощью символов обратной косой черты ( \ ) следующим образом: когда физическая строка заканчивается обратной косой чертой, которая не является частью строкового литерала или комментария, она объединяется со следующим формированием одну логическую строку, удалив обратную косую черту и следующий символ конца строки. Например:

Строка, заканчивающаяся обратной косой чертой, не может содержать комментарий. Обратная косая черта не является продолжением комментария. Обратная косая черта не продолжает токен, за исключением строковых литералов (т. е. токены, отличные от строковых литералов, не могут быть разделены между физическими строками с помощью обратной косой черты). Обратная косая черта недопустима в любом месте строки вне строкового литерала.

2.1.6. Неявное соединение строк¶

Выражения в круглых, квадратных или фигурных скобках можно разделить на несколько физических строк без использования обратной косой черты. Например:

Неявно продолженные строки могут содержать комментарии. Отступ строк продолжения не имеет значения. Допускаются пустые строки продолжения. Между строками неявного продолжения нет токена NEWLINE. Неявно продолженные строки также могут встречаться в строках в тройных кавычках (см. ниже); в этом случае они не могут содержать комментарии.

2.1.7. Пустые строки¶

Логическая строка, содержащая только пробелы, символы табуляции, переводы форм и, возможно, комментарий, игнорируется (т. е. токен NEWLINE не создается).Во время интерактивного ввода операторов обработка пустой строки может отличаться в зависимости от реализации цикла чтения-оценки-печати. В стандартном интерактивном интерпретаторе полностью пустая логическая строка (т. е. не содержащая даже пробела или комментария) завершает многострочный оператор.

2.1.8. Отступ¶

Ведущие пробелы (пробелы и табуляции) в начале логической строки используются для вычисления уровня отступа строки, который, в свою очередь, используется для определения группировки операторов.

Табуляции заменяются (слева направо) от одного до восьми пробелов, так что общее количество символов до замены включительно кратно восьми (предполагается, что это то же правило, что и в Unix). Общее количество пробелов, предшествующих первому непустому символу, определяет отступ строки. Отступ нельзя разделить на несколько физических строк с помощью обратной косой черты; пробел до первой обратной косой черты определяет отступ.

Отступ отклоняется как несовместимый, если в исходном файле табуляция и пробелы смешиваются таким образом, что значение зависит от значения табуляции в пробелах; в этом случае возникает TabError.

Примечание о межплатформенной совместимости: из-за природы текстовых редакторов на платформах, отличных от UNIX, неразумно использовать сочетание пробелов и табуляции для отступов в одном исходном файле. Следует также отметить, что разные платформы могут явно ограничивать максимальный уровень отступа.

В начале строки может присутствовать символ перевода строки; он будет проигнорирован для расчетов отступов выше. Символы перевода страницы, встречающиеся где-либо в начальном пробеле, имеют неопределенный эффект (например, они могут сбросить счетчик пробелов до нуля).

Уровни отступа последовательных строк используются для создания токенов INDENT и DEDENT с использованием стека следующим образом.

Перед чтением первой строки файла в стек помещается один ноль; это никогда не выскочит снова. Числа, помещаемые в стек, всегда будут строго возрастать снизу вверх. В начале каждой логической строки уровень отступа строки сравнивается с вершиной стека. Если они равны, ничего не происходит. Если он больше, он помещается в стек и генерируется один токен INDENT. Если оно меньше, оно должно быть одним из чисел, встречающихся в стеке; все числа в стеке, которые больше, извлекаются, и для каждого числа, извлеченного из стека, генерируется токен DEDENT. В конце файла токен DEDENT создается для каждого оставшегося в стеке числа, которое больше нуля.

Вот пример правильного (хотя и сбивающего с толку) фрагмента кода Python с отступом:

В следующем примере показаны различные ошибки отступов:

(На самом деле синтаксический анализатор обнаруживает первые три ошибки; лексический анализатор находит только последнюю ошибку — отступ return r не соответствует уровню, извлеченному из стека.)

2.1.9. Пробелы между токенами¶

За исключением начала логической строки или строковых литералов, пробелы, табуляция и перевод страницы могут использоваться взаимозаменяемо для разделения токенов. Пробел необходим между двумя токенами только в том случае, если их конкатенация может иначе интерпретироваться как другой токен (например, ab — это один токен, а b — это два токена).

2.2. Другие токены¶

Кроме NEWLINE, INDENT и DEDENT, существуют следующие категории токенов: идентификаторы, ключевые слова, литералы, операторы и разделители. Пробельные символы (кроме разделителей строк, обсуждавшихся ранее) не являются токенами, а служат для разграничения токенов. Там, где существует двусмысленность, маркер представляет собой максимально длинную строку, которая образует допустимый маркер при чтении слева направо.

2.3. Идентификаторы и ключевые слова¶

Идентификаторы (также называемые именами) описываются следующими лексическими определениями.

Синтаксис идентификаторов в Python основан на стандартном приложении Unicode UAX-31 с уточнениями и изменениями, как указано ниже; см. также PEP 3131 для получения дополнительной информации.

В пределах диапазона ASCII (U+0001..U+007F) допустимые символы для идентификаторов такие же, как и в Python 2.x: прописные и строчные буквы от A до Z , символ подчеркивания _ и, за исключением первый символ, цифры от 0 до 9 .

Python 3.0 вводит дополнительные символы вне диапазона ASCII (см. PEP 3131). Для этих символов в классификации используется версия базы данных символов Unicode, включенная в модуль unicodedata.

Идентификаторы не ограничены по длине. Регистр имеет значение.

Упомянутые выше коды категорий Unicode означают:

Лу – прописные буквы

Ll – строчные буквы

Lt – заглавные буквы

Lm — буквы-модификаторы

Ло – другие буквы

Nl – цифры букв

Mn — знаки без пробелов

Mc – комбинированные знаки интервала

Nd – десятичные числа

ПК – знаки препинания на соединителях

Other_ID_Start — явный список символов в PropList.txt для поддержки обратной совместимости

При синтаксическом анализе все идентификаторы преобразуются в нормальную форму NFKC; сравнение идентификаторов основано на NFKC.

2.3.1. Ключевые слова¶

2.3.2. Мягкие ключевые слова¶

Новое в версии 3.10.

Некоторые идентификаторы зарезервированы только в определенных контекстах. Они известны как мягкие ключевые слова. Идентификаторы match , case и _ могут синтаксически действовать как ключевые слова в контекстах, связанных с оператором сопоставления с образцом, но это различие делается на уровне синтаксического анализатора, а не при токенизации.

В качестве мягких ключевых слов их использование с сопоставлением шаблонов возможно при сохранении совместимости с существующим кодом, который использует match , case и _ в качестве имен идентификаторов.

2.3.3. Зарезервированные классы идентификаторов¶

Некоторые классы идентификаторов (помимо ключевых слов) имеют особое значение. Эти классы идентифицируются шаблонами начальных и конечных символов подчеркивания:

Не импортируется из импорта модуля * .

В шаблоне case в операторе match _ – это мягкое ключевое слово, обозначающее подстановочный знак .

Отдельно интерактивный интерпретатор делает результат последней оценки доступным в переменной _ . (Он хранится во встроенном модуле вместе со встроенными функциями, такими как print .)

В других местах _ – это обычный идентификатор. Он часто используется для обозначения «специальных» элементов, но не для самого Python.

Имя _ часто используется в сочетании с интернационализацией; обратитесь к документации по модулю gettext для получения дополнительной информации об этом соглашении.

Он также обычно используется для неиспользуемых переменных.

Определяемые системой имена, неофициально называемые "dunder" именами. Эти имена определяются интерпретатором и его реализацией (включая стандартную библиотеку). Текущие имена систем обсуждаются в разделе «Имена специальных методов» и в других местах. Скорее всего, в будущих версиях Python будет определено больше. Любое использование имен __*__ в любом контексте, не соответствующее явно задокументированному использованию, подлежит нарушению без предупреждения.

Частные имена класса. Имена в этой категории, когда они используются в контексте определения класса, переписываются, чтобы использовать искаженную форму, чтобы избежать конфликтов имен между «личными» атрибутами базового и производного классов. См. раздел Идентификаторы (имена) .

2.4. Литералы¶

Литералы — это записи для постоянных значений некоторых встроенных типов.

2.4.1. Строковые и байтовые литералы¶

Строковые литералы описываются следующими лексическими определениями:

Одно синтаксическое ограничение, не указанное в этих постановках, заключается в том, что пробелы между строковым префиксом или префиксом байтов и остальной частью литерала не допускаются. Исходный набор символов определяется объявлением кодировки; это UTF-8, если в исходном файле не указано объявление кодировки; см. раздел Объявления кодирования .

На простом английском языке: оба типа литералов могут быть заключены в соответствующие одинарные кавычки ( ' ) или двойные кавычки ( " ). Они также могут быть заключены в соответствующие группы из трех одинарных или двойных кавычек (они обычно называются < em>строки в тройных кавычках). Обратная косая черта ( \ ) используется для экранирования символов, которые в противном случае имеют особое значение, таких как перевод строки, обратная косая черта или символ кавычек.

Байтовые литералы всегда имеют префикс 'b' или 'B'; они создают экземпляр типа bytes вместо типа str. Они могут содержать только символы ASCII; байты с числовым значением 128 или больше должны быть выражены с помощью escape-последовательности.

Как строковые, так и байтовые литералы могут иметь префикс с буквой 'r' или 'R'; такие строки называются необработанными строками и обрабатывают обратную косую черту как обычные символы. В результате в строковых литералах escape-символы '\U' и '\u' в необработанных строках не обрабатываются особым образом. Учитывая, что необработанные литералы Unicode в Python 2.x ведут себя иначе, чем в Python 3.x, синтаксис ur не поддерживается.

Новое в версии 3.3: префикс 'rb' необработанных байтовых литералов был добавлен как синоним 'br' .

Новое в версии 3.3: поддержка устаревшего литерала Unicode ( u'value' ) была повторно введена для упрощения обслуживания двух кодовых баз Python 2.x и 3.x. Дополнительную информацию см. в PEP 414.

Строковый литерал с префиксом 'f' или 'F' является форматированным строковым литералом; см. Форматированные строковые литералы. 'f' можно комбинировать с 'r' , но не с 'b' или 'u' , поэтому возможны необработанные форматированные строки, но не форматированные байтовые литералы.

В литералах с тройными кавычками допускаются (и сохраняются) неэкранированные символы новой строки и кавычки, за исключением того, что литерал завершается тремя неэкранированными кавычками подряд.(«Кавычка» — это символ, используемый для открытия литерала, то есть либо ', либо " .)

Я немного запутался в кодировках. Насколько я знаю, старые символы ASCII занимали один байт на символ. Сколько байтов требуется для символа Unicode?

Я предполагаю, что один символ Unicode может содержать все возможные символы любого языка. Я прав? Итак, сколько байтов нужно на символ?

А что означают UTF-7, UTF-6, UTF-16 и т. д.? Это разные версии Unicode?

Я прочитал статью в Википедии о Unicode, но для меня это довольно сложно. Я с нетерпением жду простого ответа.

Извините, простого ответа нет. Я нахожу все это немного беспорядком. Утверждалось, что Unicode использует два байта и может представлять все символы, но оказалось, что двух байтов недостаточно.

"Простой ответ": символ Юникода занимает 1-4 байта. Юникод охватывает множество языков, но не все. В прошлый раз, когда я смотрел, например, клингон не был официальным набором символов Unicode.

Клингон не является частью самого стандарта Unicode, нет. Вместо этого используется зона частного использования Uniode (U+F8D0 - U+F8FF).

Спасибо, вопрос - спасибо. Моя ситуация заключается в хранении данных через LMS, совместимые со SCORM 1.2. стандарт для SCORM 1.2 'cmi.suspend_data' составляет 4096 байт данных, что, по предположению предыдущего разработчика, означает, что мы можем хранить 4096 символов. О, чувак, он ошибался - я только что обнаружил, почему наши закладки не работают на длинных курсах. Итак, теперь я знаю, что поскольку мы используем UTF-8, для каждого символа требуется 4 байта, что дает нам 1024 символа.

12 ответов 12

Как ни странно, никто не указал, как рассчитать, сколько байт занимает один символ Unicode. Вот правило для строк в кодировке UTF-8:

Итак, быстрый ответ: он занимает от 1 до 4 байтов, в зависимости от первого, который указывает, сколько байтов он займет.

Большое спасибо! Я просто просматривал стандарт IETF и ничего не нашел о кодировании, а в статье, которую я читал, не было достаточно подробностей, чтобы сказать, сколько битов используется для представления количества завершающего кода. баллов за "символ".

Теперь это находится на второй странице моей шпаргалки "Введение для новых членов команды" вместе с первыми двумя забавными комментариями

0xF4 был не ошибкой, а уточнением. Кодовые точки Unicode находятся в диапазоне 0–0x10ffff, поэтому последняя кодовая точка кодируется как F4 8F BF BF.

@DJPJ В принципе вы правы, но UTF-8 не использует все доступное пространство для совместимости с UTF-16.

Вы не увидите простого ответа, потому что его нет.

Во-первых, Unicode не содержит "каждый символ из каждого языка", хотя и пытается это сделать.

Юникод сам по себе является отображением, он определяет кодовые точки, а кодовая точка — это число, связанное обычно с символом. Я говорю обычно, потому что есть такие понятия, как объединение символов. Возможно, вы знакомы с такими вещами, как акценты или умляуты. Их можно использовать с другим символом, таким как a или u, для создания нового логического символа. Таким образом, символ может состоять из 1 или более кодовых точек.

Чтобы быть полезными в вычислительных системах, нам нужно выбрать представление для этой информации. Это различные кодировки Unicode, такие как utf-8, utf-16le, utf-32 и т. д. Они отличаются в основном размером своих кодовых единиц. UTF-32 — самая простая кодировка, она имеет 32-битную кодовую единицу, что означает, что отдельная кодовая точка удобно вписывается в кодовую единицу. В других кодировках будут ситуации, когда для кодовой точки потребуется несколько кодовых единиц или эта конкретная кодовая точка вообще не может быть представлена в кодировке (это проблема, например, с UCS-2).

Из-за гибкости комбинирования символов даже в пределах данной кодировки количество байтов на символ может варьироваться в зависимости от символа и формы нормализации. Это протокол для работы с символами, которые имеют более одного представления (вы можете сказать «a» с акцентом, который представляет собой 2 кодовых точки, один из которых является комбинацией символов или «a» с ударением, который является одной кодовой точкой). ).

Читайте также:

Тип даты/времени	Значение, хранящееся в базе данных	Отображаемое и введенное значение в 7 часах западнее UTC	Функция значения возвращает
Локальный пользователь	Воскресенье, 19 мая 2019 г. 4:00	Суббота, 18 мая 2019 г. 21:00	1 558 238 400 000 (воскресенье, 19 мая 2019 г. 4:00 UTC)
Часовой пояс не зависит	Воскресенье, 19 мая 2019 г. 4:00 AM	Воскресенье, 19 мая 2019 г.< br />4:00 AM	1 558 263 600 000 (воскресенье, 19 мая 2019 г. 11:00 UTC)