Заглавная страница Избранные статьи Случайная статья Познавательные статьи Новые добавления Обратная связь FAQ Написать работу КАТЕГОРИИ: ТОП 10 на сайте Приготовление дезинфицирующих растворов различной концентрацииТехника нижней прямой подачи мяча. Франко-прусская война (причины и последствия) Организация работы процедурного кабинета Смысловое и механическое запоминание, их место и роль в усвоении знаний Коммуникативные барьеры и пути их преодоления Обработка изделий медицинского назначения многократного применения Образцы текста публицистического стиля Четыре типа изменения баланса Задачи с ответами для Всероссийской олимпиады по праву
Мы поможем в написании ваших работ! ЗНАЕТЕ ЛИ ВЫ?
Влияние общества на человека
Приготовление дезинфицирующих растворов различной концентрации Практические работы по географии для 6 класса Организация работы процедурного кабинета Изменения в неживой природе осенью Уборка процедурного кабинета Сольфеджио. Все правила по сольфеджио Балочные системы. Определение реакций опор и моментов защемления |
В. Авторазметка импортированного текста.Содержание книги
Поиск на нашем сайте Авторазметка запускается выбором следующих опций меню основного окна NooJ: Text – Linguistic Analysis. В результате текст размечается по выбранным ранее словарям и грамматикам. Для просмотра разметки проставьте флаг Show Text Annotation Structure (см. область 2 на рис. 11):
Рис. 11 – Окно размеченного импортированного текста После лингвистического анализа, помимо статистик по символам (Characters), токенам (Tokens) и биграммам (Bigrams), становятся доступны статистики по неизвестным словам (Unknowns), омонимичным словам (Ambiguties), неомонимичным словам (Unambiguous Words) (см. область 1 на рис. 11). Важно. Обратите внимание на разноцветные кнопки
Рис. 12 – Окна ЧС биграмм и конкорданса к выбранным биграммам
NooJ отображает списки неизвестных слов (Unknowns) и омонимичных слов (Ambiguties) в родном формате словаря NooJ. Эти два окна можно редактировать, пополняя и уточняя словари[8]. Работа с уже размеченными текстами. Единожды размеченные тексты можно открывать многократно. В пакет словарного модуля NooJ входит небольшое число уже размеченных текстов, которые вы найдете в папке /Projects. Использование регулярных выражений Регулярные выражения Perl В меню Text нажмите Locate всплывет окно Locate Panel. В поле Pattern in, выберите опцию a NooJ regular expression - Longest matches – only 100 [9] (обозначение ограничений в поиске), затем нажмите цветную кнопку; выплывет окно. В этом окне вы сможете увидеть конкорданс для коллекции строк, заданной регулярным выражением, а также выходить из контекста в полный текст.
Рис. 13 – Поиск с помощью регулярных выражений
Использование символа «дизъюнкция» (ИЛИ и "|") в регулярных выражениях. Пример: Анна | муж Значение запроса: найти все контексты для слов Анна или муж. Также для обозначения дизъюнкции NooJ принимает оператор «+». Но лучше использовать оператор «|», так как оператор «+» является неоднозначным, поскольку он также используется в качестве префикса для лексического анализа.
Рис. 14 – Поиск с помощью оператора дизъюнкции Также можно ограничивать контекст выдачи указанием числа слов до и после определяемого слова.
Рис. 15 – Конкорданс по запросу Анна|муж Использование символа группировки (круглые скобки) в регулярных выражениях. Есливы хотите найти последовательность слов вида: любое из слов, он или она + предлог в, введите: (он | она) в. См. пример на рис. 16 (NooJ нашел 4 контекста).
Рис. 16 – Поиск по запросу (он |она) в По выражению он | она в (то есть по выражению без скобок) будут выданы другие контесты:
Рис. 17 – Поиск по запросу он|она в
На этот раз NooJ нашел 109 высказываний. NooJ проиндексировал две последовательности: «он» и «она в», в этой комбинации приоритет имеет оператор «|». В первом регулярном выражении скобки используются для изменения порядка приоритетов, так что сфера действия «или» (оператора дизъюнкции) ограничивается словами он или она. Теперь попробуем найти несколько форм слова в тексте, для этого будем использовать функцию дизъюнкции. Выберите опцию «регулярные выражения NooJ», затем введите запрос: была|буду|будь|было|были|будете. На рис. ниже вы увидите результаты поиска по тексту М.Ф. Достоевский «Игрок», найдено 314 контекстов с этими словоформами.
Рис. 18 – Поиск по запросу была|буду|будь|было|были|будете В предыдущем примере осуществлялся поиск разных грамматических форм слова быть, но можно найти и единицы, разные структуре, например: Нью-Йорк |Большое\s+яблоко|город. Регулярные выражения Nooj Принципиальным отличием регулярных выражений этого типа является то, что при их обработке NooJ обращается к словарям. Чтобы узнать, сколько раз встречается, например, словоформа «это» в тексте А.П. Чехова «Дама с собачкой»,нужно установить опцию «NooJ regular expression» и ввести эту словоформу в поле запроса (то есть в строке запроса будет стоять: это). Nooj найдет контексты для этой словоформы, записанной как со строчной, так и с заглавной буквы (см. рис. 19). Чтобы найти словоформу «это» только в записи со строчной буквы, нужно использовать оператор «» (то есть в строке запроса будет стоять: «это»).
Рис. 19 – Включена опция NooJ regular expression; поиск запросу это Важно. Особенностью регулярных выражений Nooj является их интеграция со словарями Nooj. Таким образом, в регулярных выражениях Nooj можно обращаться к коллекции подстрок через их коды в словаре.
|
||
|
Последнее изменение этой страницы: 2016-08-01; просмотров: 502; Нарушение авторского права страницы; Мы поможем в написании вашей работы! infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 216.73.216.156 (0.009 с.) |