iso_ir_6': 'ascii', 'maccyrillic': 'mac_cyrillic', 'iso_celtic': 'iso8859_14', 'ebcdic_cp_wt': 'cp037', 'ibm500': 'cp500', ... 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

iso_ir_6': 'ascii', 'maccyrillic': 'mac_cyrillic', 'iso_celtic': 'iso8859_14', 'ebcdic_cp_wt': 'cp037', 'ibm500': 'cp500', ...

Поиск

Строки

 

Строки в языкеPythonявляются типом данных,специально предназначенным для обработки текстовой информации.Строка может содержать произвольно длинный текст(ограниченный имеющейся памятью).

 

В новых версияхPythonимеются два типа строк:обычные строки(последовательность байтов)иUnicode-строки(последовательность символов).ВUnicode-строке каждый символ может занимать в памяти2или4байта,в зависимости от настроек периода компиляции.Четырехбайтовые знаки используются в основном для восточных языков.

Примечание:

 

В языке и стандартной библиотеке за некоторыми исключениями строки иUnicode-строки взаимозаменяемы,в собственных приложениях для совместимости с обоими видами строк следует избегать проверок на тип.Если это необходимо,можно проверять принадлежность базовому(для строк иUnicode-строк)типу с помощью isinstance(s, basestring).

 

При использованииUnicode-строк,следует мысленно принять точку зрения,относительно которой именноUnicode-представление является главным,а все остальные кодировки-лишь частные случаи представления текста,которые не могут передать всех символов.Без такой установки будет непонятно,почему преобразование из восьмибитной кодировки называется decode(декодирование).Для внешнего представления можно с успехом использовать кодировкуUTF-8,хотя,конечно,это зависит от решаемых задач.

 

Кодировка Python-программы

 

Для того чтобыUnicode-литералы вPython-программе воспринимались интерпретатором правильно,необходимо указать кодировку в начале программы,записав в первой или второй строке примерно следующее(дляUnix/Linux):

 

# -*- coding: koi8-r -*-

 

или(подWindows):

 

# -*- coding: cp1251 -*-

 

Могут быть и другие варианты:

 

# -*- coding: latin-1 -*-


 


# -*- coding: utf-8 -*-

# -*- coding: mac-cyrillic -*-

# -*- coding: iso8859-5 -*-

 

Полный перечень кодировок(и их псевдонимов):

 

>>> import encodings.aliases

>>> print encodings.aliases.aliases

 

 

Если кодировка не указана,то считается,что используется us-ascii.При этом интерпретаторPythonбудет выдавать предупреждения при запуске модуля:

 



Поделиться:


Последнее изменение этой страницы: 2024-06-27; просмотров: 63; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 216.73.217.128 (0.006 с.)