Основные методы поиска информации в Интернете 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Основные методы поиска информации в Интернете

Поиск

Получение информации

При получении информации большую роль играет способ восприятия и форма представления информации. Очень часто эти качества информации определяются получателем, его воспринимающей способностью. Например, бесполезно передавать информацию в звуковой форме человеку, который не слышит. Информация необходима человеку не вообще, а конкретно, в определённое время для ориентирования в окружающем мире и принятия решений о дальнейших действиях. Здесь важную роль играют свойства информации. Человек создаёт приборы, позволяющие получать информацию, недоступную его органам чувств. Аналогам органов чувств человека в технических приборах соответствуют различные датчики. Получение информации называется вводом. В персональном компьютере за ввод информации отвечают специальные устройства ввода: клавиатура, сканер, дигитайзер, микрофон, мышь и другие.

 

Передача информации

Информация передаётся по каналу связи, направляясь от источника к получателю в виде последовательности сигналов, составляющих информационное сообщение.

На бытовом уровне иногда подменяются понятия кодирования и шифрования. Шифр — секретный код информации. Защита информации — важный компонент процессов хранения, обработки, передачи и использования информации. Изобретением, изучением и использованием шифров занимается криптография — отрасль науки палеографии.

В процессе передачи информация может теряться, искажаться из-за помех и вредных воздействий. Причины таких воздействий могут быть как технического характера (перегрузки, вибрации, электрические и магнитные поля, перепады температур, давления, влажности окружающей среды), так и следствием человеческого вмешательства.

Обработка информации

Обработка — это преобразование информации с изменением её содержания или формы представления.

Редактирование текста, математические вычисления, логические умозаключения — примеры процедур изменения содержания информации.

Упорядочивание информации, шифрование или перевод текстов на другой язык — изменение формы. Обработка информации может производиться формально, по правилам или заданному алгоритму. А может применяться эвристический подход, при котором создаётся новая система действий или открываются неизвестные ранее закономерности изучаемой информации.

 Хранение информации

Информация не может существовать без своего носителя — среды, непосредственно хранящей информацию. Заметим, что слово «носитель» означает «нести в себе», то есть содержать, а не переносить информацию. Что может быть носителем? Любой предмет, явление, живое существо. Это могут быть волны различной природы (электромагнитные, в том числе световые, звуковые) или разные состояния вещества. Информация о предмете может быть в самом предмете или во внешнем носителе информации: записной книжке, магнитной записи, картине, фото- и кинодокументах и т. д. Для извлечения информации из внешних носителей необходимы дополнительные средства Для хранения носителей организуются хранилища: для книг — это библиотеки, для картин и рисунков — художественные музеи, для документов — архивы, патентные бюро и т. д.

22. Извлечение информации как базовый информационный процесс. Фазы извлечения информации. Формы, методы, подходы к извлечению информации.

Извлечение информации

Источник данных в любой предметной области – это объекты и их свойства, а также процессы и функции, выполняемые объектами. Каждая предметная область имеет три уровня представления: реальное, формальное и информационное. При извлечении информации она трижды оценивается: синтаксическая ценность (правильность представления), семантическая ценность (смысловая ценность), прагматическая ценность (потребительская, практическая).

Чтобы адекватно формализовать предметную область применяют объектно-ориентированный подход. Его основные понятия: объект, класс, экземпляр. Объект – это абстракция множества предметов реального мира, обладающих одинаковыми характеристиками и законами функционирования. Таким образом, объект – типичный неопределенный элемент такого множества. Основные характеристики объекта – его атрибуты (свойства). Экземпляр объекта – конкретный элемент

множества. Класс – множество предметов реального мира, связанных общностью структуры и поведения. Элемент класса – это конкретный элемент данного множества.

 

Извлечение информации фазы.

накопление — системное или бессистемное (стихийное) накопление информации в рамках предметной области;

структурирование — выделение основных понятий, выработка структуры представления информации, обладающей максимальной наглядностью, простотой изменения и дополнения;

формализация — представление структурированной информации в форматах машинной обработки, т. е. на языках описания данных и знаний;

обслуживание — корректировка формализованных данных и знаний (добавление, обновление), удаление устаревшей информации, фильтрация данных и знаний для поиска информации, необходимой пользователям

Формы и методы извлечения

· нахождение ассоциаций, связанных с привязкой к какому либо событию;

· нахождение последовательностей событий во времени;

· нахождение скрытых закономерностей по наборам данных путем определения причинно-следственных связей между значениями определенных косвенных параметров исследуемого объекта (ситуации, процесса);

· оценка влияния (важности) параметров на события и ситуации;

· классифицирование (распознавание), осуществляемое путем поиска критериев, по которым можно было бы относить объем (события, ситуации, процессы) к той или иной классификационной категории;

· кластеризация, основанная на группировании объектов по каким-либо признакам;

· прогнозирование событий и ситуаций.

23. Понятие объектно-ориентированного подхода, принципы ООП.

Объе́ктно-ориенти́рованное программи́рование (ООП) — парадигма программирования, в которой основнымиконцепциями являются понятия объектов и классов. В случае языков с прототипированием вместо классов используются объекты-прототипы.

Объектно-ориентированное программирование базируется на трех важнейших принципах, придающих объектам новые свойства. Этими принципами являются инкапсуляция, наследование и полиморфизм.

1. Инкапсуляция - это объединение в единое целое данных и алгоритмов обработки этих данных. В рамках ООП данные называются полями объекта (свойствами), а алгоритмы - объектными методами или просто методами.

2. Наследование - есть свойство объектов порождать своих потомков. Объект-потомок автоматически наследует от родителя все поля и методы, может дополнять объекты новыми полями и заменять (перекрывать) методы родителя или дополнять их.

3. Полиморфизм - это свойство родственных объектов (т.е. объектов, имеющих одного общего родителя) решать схожие по смыслу проблемы разными способами. В рамках ООП поведенческие свойства объекта определяются набором входящих в него методов. Изменяя алгоритм того или иного метода в потомках объекта, программист может придавать этим потомкам отсутствующие у родителя специфические свойства. Для изменения метода необходимо перекрыть его в потомке, то есть объявить в потомке одноименный метод и реализовать в нем нужные действия. В результате в объекте-родителе и объекте-потомке будут действовать два одноименных метода, имеющие разную алгоритмическую основу и, следовательно, придающие объектам разные свойства. Это и называется полиморфизмом объектов.

24. Методы обогащения информации.

Среди методов обогащения информации различают структурное,

статистическое, семантическое и прагматическое обогащения.

Структурное обогащение предполагает изменение параметров

сообщения, отображающего информацию в зависимости от частотного

спектра исследуемого процесса, скорости обслуживания источников

информации и требуемой точности.

При статистическом обогащении осуществляют накопление

статистических данных и обработку выборок из генеральных совокупностей

накопленных данных.

Семантическое обогащение означает минимизацию логической

формы, исчислений и высказываний, выделение и классификацию понятий,

содержания информации, переход от частных понятий к более общим. В

итоге семантического обогащения удается обобщенно представить

обрабатываемую либо передаваемую информацию и устранить логическую

противоречивость в ней.

Прагматическое обогащение является важной ступенью при

использовании информации для принятия решения, при котором из полученной информации отбирается наиболее ценная, отвечающая целям и задачам пользователя.

 

 

25. Технологии Data Mining и Text Mining.

Data Mining (рус. добыча данных, интеллектуальный анализ данных, глубинный анализ данных) — собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Термин введён Григорием Пятецким-Шапиро в 1989 году[1][2][3].

 

Английское словосочетание «Data Mining» пока не имеет устоявшегося перевода на русский язык. При передаче на русском языке используются следующие словосочетания[4]: просев информации, добыча данных, извлечение данных, а, также, интеллектуальный анализ данных[5][6][7]. Более полным и точным является словосочетание «обнаружение знаний в базах данных» (англ. knowledge discovery in databases, KDD).

 

Основу методов Data Mining составляют всевозможные методы классификации, моделирования и прогнозирования, основанные на применении деревьев решений, искусственных нейронных сетей, генетических алгоритмов, эволюционного программирования, ассоциативной памяти, нечёткой логики. К методам Data Mining нередко относят статистические методы (дескриптивный анализ, корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ, компонентный анализ, дискриминантный анализ, анализ временных рядов, анализ выживаемости, анализ связей). Такие методы, однако, предполагают некоторые априорные представления об анализируемых данных, что несколько расходится с целями Data Mining (обнаружение ранее неизвестных нетривиальных и практически полезных знаний).

 

Одно из важнейших назначений методов Data Mining состоит в наглядном представлении результатов вычислений (визуализация), что позволяет использовать инструментарий Data Mining людьми, не имеющими специальной математической подготовки. В то же время, применение статистических методов анализа данных требует хорошего владения теорией вероятностей и математической статистикой.

Text Mining - это набор технологий и методов, предназначенных для извлечения информации из текстов. Основная цель - дать аналитику возможность работать с большими объемами исходных данных за счет автоматизации процесса извлечения нужной информации.

Основные задачи Text Mining

Как и большинство когнитивных технологий, Text Mining – это алгоритмическое выявление прежде не известных связей и корреляций в уже имеющихся текстовых данных.

Важная задача технологии Text Mining связана с извлечением из текста его характерных элементов или свойств, которые могут использоваться как метаданные документа, ключевых слов, аннотаций.

Другая важная задача состоит в отнесении документа к некоторым категориям из заданной схемы их систематизации. Text Mining также обеспечивает новый уровень семантического поиска документов.

Возможности современных систем Text Mining могут применяться при управлении знаниями для выявления шаблонов в тексте, для автоматического «выталкивания» или размещения информации по интересующим пользователей профилям, создавать обзоры документов.

 

Основные элементы Text Mining

В соответствии с уже сформированной методологии к основным элементам Text Mining относятся:

классификация (classification)

При классификации текстов используются статистические корреляции для построения правил размещения документов в определенные категории. Задача классификации - это классическая задачу распознавания, где по некоторой контрольной выборке система относит новый объект к той или другой категории.

Особенность систем Text Mining заключается в том, что количество объектов и их атрибутов может быть очень большой, поэтому должны быть предусмотрены интеллектуальные механизмы оптимизации процесса классификации.

•     кластеризация (clustering)

Кластеризация в Text Mining рассматривается как процесс выделения компактных подгрупп объектов с близкими свойствами. Система должна самостоятельно найти признаки и разделить объекты по подгруппам. Различают два основных типа кластеризации - иерархическую и бинарную.

•     построение семантических сетей,

Построение семантических сетей или анализ связей, которые определяют появление дескрипторов (ключевых фраз) в документе для обеспечения навигации.

•     извлечение фактов, понятий (feature extraction),

Извлечение фактов, предназначенное для получения некоторых фактов из текста с целью улучшения классификации, поиска и кластеризации.

•     суммаризация (summarization),

•     ответ на запросы (question answering),

•     тематическое индексирование (thematic indexing),

•     поиск по ключевым словам (keyword searching).

26. Методы поиска информации в сети Интернет (ИПС: поисковые машины, поисковые каталоги).

Можно выделить следующие основные методы поиска информации в Интернете, которые, в зависимости от целей и задач ищущего, используются по отдельности или в комбинации друг с другом:



Поделиться:


Последнее изменение этой страницы: 2024-06-27; просмотров: 43; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 216.73.217.21 (0.006 с.)