Заглавная страница
Избранные статьи
Случайная статья
Познавательные статьи
Новые добавления
Обратная связь
FAQ
Написать работу

ТОП 10 на сайте

Приготовление дезинфицирующих растворов различной концентрации

Техника нижней прямой подачи мяча.

Франко-прусская война (причины и последствия)

Организация работы процедурного кабинета

Смысловое и механическое запоминание, их место и роль в усвоении знаний

Коммуникативные барьеры и пути их преодоления

Обработка изделий медицинского назначения многократного применения

Образцы текста публицистического стиля

Четыре типа изменения баланса

Задачи с ответами для Всероссийской олимпиады по праву

Мы поможем в написании ваших работ!

ЗНАЕТЕ ЛИ ВЫ?

Влияние общества на человека

Приготовление дезинфицирующих растворов различной концентрации

Практические работы по географии для 6 класса

Организация работы процедурного кабинета

Изменения в неживой природе осенью

Уборка процедурного кабинета

Сольфеджио. Все правила по сольфеджио

Балочные системы. Определение реакций опор и моментов защемления

Главная Избранные Случайная статья Познавательные Новые добавления Обратная связь FAQ Написать работу

Для исключения неоднозначности документ вUnicodeможет быть в самом начале снабжен

↑

⇐ ПредыдущаяСтр 113 из 224Следующая ⇒

Для исключения неоднозначности документ вUnicodeможет быть в самом начале снабжен

BOM (byte-order mark - метка порядка байтов) - Unicode-символом с кодом 0xfeff. Для данной платформы строка байтов дляBOMбудет такой:

>>> codecs.BOM_LE '\xff\xfe'

Для преобразования строки вUnicodeнеобходимо знать,в какой кодировке закодирован текст.Предположим,что это cp1251.Тогда преобразовать текст вUnicodeможно следующим способом:

>>> s = "Строка в cp1251"

>>> s.decode("cp1251") u'\u0421\u0442\u0440\u043e\u043a\u0430 \u0432 cp1251'

То же самое с помощью встроенной функции unicode():

>>> unicode(s, 'cp1251') u'\u0421\u0442\u0440\u043e\u043a\u0430 \u0432 cp1251'

Одной из полезных функций этого модуля является функция codecs.open(),позволяющая открыть файл в другой кодировке:

vcodecs.open(filename, mode[, enc[, errors[, buffer]]])

Здесь:

filename

Имя файла.

mode

Режим открытия файла

enc

Кодировка.

errors

Режим реагирования на ошибки кодировки('strict' -возбуждать исключение, 'replace' -заменять отсутствующие символы, 'ignore' -игнорировать ошибки).

buffer

Режим буферизации(0 -без буферизации, 1 -построчно, n -байт буфера).

Заключение

В этой лекции были рассмотрены основные типы для манипулирования текстом:строки иUnicode-строки. Достаточно подробно описаны регулярные выражения - один из наиболее эффективных механизмов для анализа текста.В конце приведены некоторые функции для работы сUnicode.

Ссылки

NLTK

http://nltk.sourceforge.net

Лекция#7:Работа с данными в различных форматах

Формат CSV

Файл в форматеCSV (comma-separated values -значения,разделенные запятыми) -

универсальное средство для переноса табличной информации между приложениями(электронными таблицами, СУБД, адресными книгами и т.п.). К сожалению, формат файла не имеет строго определенного стандарта,поэтому между файлами,порождаемыми различными приложениями,существуют некоторые тонкие различия.Внутри файл выглядит примерно так(файл pr.csv):

⇐ Предыдущая 108 109 110 111 112113114 115 116 117 Следующая ⇒

Познавательные статьи:

Техника нижней прямой подачи мяча

Комплекс физических упражнений для развития мышц плечевого пояса

Стандарт Порядок надевания противочумного костюма

Общеразвивающие упражнения без предметов

Последнее изменение этой страницы: 2024-06-27; просмотров: 63; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 216.73.217.86 (0.009 с.)