Для исключения неоднозначности документ вUnicodeможет быть в самом начале снабжен 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Для исключения неоднозначности документ вUnicodeможет быть в самом начале снабжен

Поиск

Для исключения неоднозначности документ вUnicodeможет быть в самом начале снабжен

 

BOM (byte-order mark - метка порядка байтов) - Unicode-символом с кодом 0xfeff. Для данной платформы строка байтов дляBOMбудет такой:

 

>>> codecs.BOM_LE '\xff\xfe'

 

Для преобразования строки вUnicodeнеобходимо знать,в какой кодировке закодирован текст.Предположим,что это cp1251.Тогда преобразовать текст вUnicodeможно следующим способом:

 

>>> s = "Строка в cp1251"

>>> s.decode("cp1251") u'\u0421\u0442\u0440\u043e\u043a\u0430 \u0432 cp1251'

 

То же самое с помощью встроенной функции unicode():

 

>>> unicode(s, 'cp1251') u'\u0421\u0442\u0440\u043e\u043a\u0430 \u0432 cp1251'

 

Одной из полезных функций этого модуля является функция codecs.open(),позволяющая открыть файл в другой кодировке:

 

vcodecs.open(filename, mode[, enc[, errors[, buffer]]])

 

Здесь:

 

filename

 

Имя файла.

 

mode

 

Режим открытия файла


 

 


enc

 

Кодировка.

 

errors

 

Режим реагирования на ошибки кодировки('strict' -возбуждать исключение, 'replace' -заменять отсутствующие символы, 'ignore' -игнорировать ошибки).

 

buffer

 

Режим буферизации(0 -без буферизации, 1 -построчно, n -байт буфера).

 

Заключение

 

В этой лекции были рассмотрены основные типы для манипулирования текстом:строки иUnicode-строки. Достаточно подробно описаны регулярные выражения - один из наиболее эффективных механизмов для анализа текста.В конце приведены некоторые функции для работы сUnicode.

 

Ссылки

 

NLTK

 

http://nltk.sourceforge.net


 

 


Лекция#7:Работа с данными в различных форматах

 

Формат CSV

 

Файл в форматеCSV (comma-separated values -значения,разделенные запятыми) -

 

универсальное средство для переноса табличной информации между приложениями(электронными таблицами, СУБД, адресными книгами и т.п.). К сожалению, формат файла не имеет строго определенного стандарта,поэтому между файлами,порождаемыми различными приложениями,существуют некоторые тонкие различия.Внутри файл выглядит примерно так(файл pr.csv):

 



Поделиться:


Последнее изменение этой страницы: 2024-06-27; просмотров: 50; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 216.73.217.128 (0.009 с.)