Заглавная страница Избранные статьи Случайная статья Познавательные статьи Новые добавления Обратная связь FAQ Написать работу КАТЕГОРИИ: ТОП 10 на сайте Приготовление дезинфицирующих растворов различной концентрацииТехника нижней прямой подачи мяча. Франко-прусская война (причины и последствия) Организация работы процедурного кабинета Смысловое и механическое запоминание, их место и роль в усвоении знаний Коммуникативные барьеры и пути их преодоления Обработка изделий медицинского назначения многократного применения Образцы текста публицистического стиля Четыре типа изменения баланса Задачи с ответами для Всероссийской олимпиады по праву
Мы поможем в написании ваших работ! ЗНАЕТЕ ЛИ ВЫ?
Влияние общества на человека
Приготовление дезинфицирующих растворов различной концентрации Практические работы по географии для 6 класса Организация работы процедурного кабинета Изменения в неживой природе осенью Уборка процедурного кабинета Сольфеджио. Все правила по сольфеджио Балочные системы. Определение реакций опор и моментов защемления |
Статистическая обработка текстаСодержание книги
Похожие статьи вашей тематики
Поиск на нашем сайте Статистические методы в языкознании - методы использования счета и измерений для изучения языка и речи. Объектом применения статистических методов обычно является письменный текст (в первую очередь его лексический состав). Статистическая обработка текста используется для: - Математически точного различения стилей и жанров (статистическая стилистика) - Проведения атрибуции текстов (установление авторства анонимных текстов в историческом языкознании и т.д.) на основании неповторимого сочетания статистических параметров авторского текста; - Описания поведения языковых единиц (букв, морфем, слов) в тексте (их распределение, сочетаемость, частота употребления); - Измерения информативности текстов (количества информации содержащейся в тексте и его составных частях) - Восстановления текстов и языков по их фрагментам (описания структуры текста и языка на основании очень ограниченной исходной информации (в сочетании с дистрибутивным анализом, изучающим окружение отдельных единиц текста без использования сведений о его полном лексическом составе); - Определения уровня родства, скорости языковых изменений и времени разделения различных языков; - Определения типологии языков (их сравнительное соотношение и изучение независимо от характера генетических отношений) и т.д. Текстовый процессор MS Word анализирует свойства создаваемых в нем документов (название, автор, тема, ключевые слова, дата последнего изменения), которые служат для упрощения поиска документов. MS Word регистрирует и автоматически обновляет статистические данные документа: - количество символов, - количество символов и пробелов, - количество слов, - количество строк, - количество абзацев - количество страниц. Частотный словарь - пронумерованный список слов (словоформ, словосочетаний) текста (множества текстов) с указанием абсолютной частоты употребления этого слова в тексте. Частотные словари приводят числовые характеристики употребительности слов какого-либо языка. Частотные словари дают возможность сравнить численные закономерности в структуре словаря и текста.
Технологии речевого интерфейса Звуковая речь - генерируемое человеком звуковое сообщение. Речь может быть объективно зарегистрирована, измерена, сохранена, обработана, воспроизведена при помощи приборов и алгоритмов, представлена в виде некоторого речевого сигнала. Задачи компьютерной обработки текста: - Синтез речи (компьютер преобразует информацию, с которой он оперирует, в речевое сообщение, понятное человеку); - Распознавание речи (компьютер извлекает из речи человека полезную информацию) - Понимание речи (компьютер должен воспринимать не просто прямое значение, но смысл сказанного) Все системы распознавания речи можно разделить на два класса: - Системы, зависимые от диктора - настраиваются на речь диктора в процессе обучения. Для работы с другим диктором такие системы требуют полной перенастройки. - Системы, не зависимые от диктора - работа которых не зависит от диктора. Такие системы не требуют предварительного обучения и способны распознавать речь любого диктора. В существующих системах распознавания речи используются два принципиально разных подхода: - Распознавание голосовых меток - распознавание фрагментов речи по заранее записанному образцу. Этот подход широко используется в относительно простых системах, предназначенных для исполнения заранее записанных речевых команд. - Распознавание лексических элементов - предполагает распознавание фрагментов речи по заранее записанному образцу. Этот подход широко используется в относительно простых системах, предназначенных для исполнения заранее записанных речевых команд. Достоинства и ограничения речевого интерфейса: - Речевой интерфейс естественен для человека. - Взаимодействие с компьютером посредством речевого интерфейса требует определенного уровня звукоизоляции рабочего места пользователя; - Речевой интерфейс может привести к заболеванию голосовых связок (следствие напряженности и монотонности речи). - Современные системы речевого интерфейса чувствительны к четкости произношения человека и часто требуют специальной подготовки.
Технологии эффективного чтения Чтение - основанное на владении речью, восприятие и понимание семантики (содержания и смысла) текстовой информации. Параметры эффективного чтения: Художественную литературу, следует читать с той скоростью, при которой вы получите наиболее полное впечатление. Cтихи лучше читать медленно и только вслух. Журнальные и газетные материалы, следует читать методом скольжения, захватывая своим вниманием только то, что вас может заинтересовать. Техническую, научную, учебную литературу следует читать как можно быстрее и как можно тщательнее: анализируя, споря, соглашаясь, получая новое знание. Таблицы Шу́льте — таблицы со случайно расположенными объектами (обычно числами или буквами), служащие для тестирования и развития быстроты нахождения этих объектов в определённом порядке. Упражнения с таблицами позволяют улучшить периферическое зрительное восприятие, что важно, например, для скорочтения. Особенности экранного чтения - зрительная система человека, приспособлена к восприятию в отраженном свете. При экранном чтении приходится смотреть на источник света - дисплей. Х арактеристики электронных книг: 1) тип экрана: E-Ink (электронные чернила)/TFT, цветной/монохромный; 2)объём встроенной памяти; 3)ресурс аккумулятора; 4) Наличие Wi-Fi или 3G подключения к интернету 5) Поддержка форматов 6) дополнительные функции, как проигрывание музыки, просмотр изображений, сенсорный экран, будет приятным, но не обязательным бонусом. Электронная книга (eBook, BookReader) - портативное устройство, для чтения электронных текстов (eText), с помощью специального программного обеспечения (eReader). Электронная книга (eReader) - прикладная программа, предназначенная для чтения электронных текстов (eText). Электронная книга (eText) - специально отформатированные электронные документы, полноценно заменяющие полиграфические книги. Vortex - Текст выводится на экран не в форме строк, а по одному слову в установленную единицу времени! При некотором заданном интервале проговаривать слова становится невозможно просто физически. Поскольку каждое отдельное слово выводится на центр экрана, то и отпадает необходимость терять время на движение глаз слева направо.
Технологии компьютерной лексикографии
Лексикография изучает теорию и практику составления различных языковых словарей. Можно выделить следующие типы словарей: - переводные, - толковые, - диалектные, - региональные, - словари сленга, - исторические, - неологизмов, - этимологические, - крылатых. Кроме этого различают словари лингвистические и нелингвистические. Популярные электронные переводные словари: Lingvo, МультиЛекс, MultiTran, PROMT VER-Dict, Context, LingvoSoft Dictionary....
Технологии оптического распознавания OCR (Optical Character Recognition) - технология преобразования графического изображения текста в компьютерный текст с помощью алгоритма распознавания графических образов. OCR (Optical Character Recognition) - компьютерная программа перевода графического изображения текста в электронный текст через его распознание и сохранение в нужном для пользователя формате электронного документа. OCR используется: 1) при сканировании и фотографировании текстов. 2) для ввода больших объемов текстовой информации в компьютер (от 100 и более страниц в день). 3) для рукописного ввода текстовой информации в компьютер. 4) для преобразования одного формата в другой.
|
||
|
Последнее изменение этой страницы: 2016-08-16; просмотров: 1595; Нарушение авторского права страницы; Мы поможем в написании вашей работы! infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 216.73.216.236 (0.008 с.) |