Вероятностное латентно-семантическое индексирование (PLSI) 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Вероятностное латентно-семантическое индексирование (PLSI)

Поиск

Анализ новых ресурсов

 

Поиск по новообразованным ресурсам может оказаться необходимым при проведении повторных циклов поиска, поиска наиболее свежей информации или для анализа тенденций развития объекта исследования в динамике.

Другой возможной причиной может явиться то, что большинство поисковых машин обновляет свои индексы со значительной задержкой, вызванной гигантскими объемами обрабатываемых данных, и эта задержка обычно тем больше, чем менее популярна интересующая тема.

Это соображение может оказаться весьма существенным при проведении поиска в узкоспециальной предметной области.

 

27. Процесс формирования информационных ресурсов и их представление в ИПС.

В общем случае информационные ресурсы формируются в результате деятельности, как органов государственной власти, так и государственных и негосударственных предприятий, научных, учебных и общественных организаций. Они включают информацию, знания, а также лингвистические средства, применяемые для описания конкретной предметной области и для доступа к информации и знаниям.

В процессе формирования и использования информационных ресурсов осуществляются сбор, обработка, хранение, поиск и выдача информации по запросам или регламенту. По формам собственности информационные ресурсы подразделяются:

· государственные;

· межгосударственные;

· негосударственные (в том числе коммерческие);

· смешанной собственности.

Основу информационных ресурсов в области научной и технической информации составляют печатные издания и документы. Все больше растет количество первоисточников в электронной форме. В результате весь информационный массив может быть представлен в виде следующих основных групп:

· традиционные (печатные) издания: первичные отечественные и зарубежные издания – журналы, книги, депонированные научные работы, стандарты;

· электронные издания: первичные отечественные и зарубежные издания – книги, журналы; вторичные издания: реферативные журналы, сигнальная информация, экспресс-информация;

· базы и банки данных, генерируемые в России и получаемые из-за рубежа.

Очень часто эти формы дублируют или дополняют друг друга.

Главной задачей любой ИПС является поиск информации в соответствии с информационными потребностями пользователя, формируемыми в виде запроса. Очень важно в результате проведенного поиска ничего не потерять, то есть найти в индексе все документы, относящиеся к запросу (полнота поиска), и не найти ничего лишнего (точность поиска). Поэтому вводится качественная характеристика процедуры поиска – релевантность.

 

28. Лексическое, вероятностное, скрытое семантическое индексирование. Использование нейронных сетей для поиска документов.

Индексирование- в информационном поиске - процесс описания документов и запросов в терминах информационно-поискового языка. По результатам индексирования каждому документу назначается набор ключевых слов, отражающих его смысловое содержание.

 

Координатное(возможно она это имела ввиду, т.к. Лексического индексирования в природе - нет)индексирование - индексирование, предусматривающее многоаспектное выражение основного смыслового содержания документа или смыслового содержания информационного запроса множеством ключевых слов или дескрипторов.

Алгоритм координатного индексирования документов основан на учете классификационных признаков входящих в текст терминов (слов и словосочетаний), характеризующих ту или иную предметную область. Для этого необходимо создание словаря терминов предметной области, причем в этом словаре должны быть установлены связи между терминами и проведена классификация терминов. Такой словарь называется тезаурусом.

 

Это метод выделения скрытых факторов, характеризующих значение отдельных термов и документов из заданного массива документов. В отличие от традиционного, данный метод основан на вероятностном подходе. Метод вероятностного латентно-семантического индексирования ставит своей задачей выявление латентных, скрытых факторов (тем), присутствующих в информационном массиве и связанных с его документами и словами.

 

Скрытое семантическое индексирование (LSI – Latent Semantic Indexing)– методология автоматической классификации документа, в результате которой проводится исследование слов во всей совокупности документов и производится подсчет одинаковых характеристик для каждого документа или употребляемого термина.

Скрытое семантическое индексирование с точностью определяет релевантность документа по отношению к поисковой фразе, даже если эта поисковая фраза не встречается в документе. Оценка релевантности – ключевой компонент алгоритма ранжирования поисковыми системами. При использовании данного компонента поисковыми системами LSI оказывает существенное влияние на ранжирование страниц.

 

Искусственная нейронная сеть (ИНС) — математическая модель, а также её программная или аппаратная реализация, построенная по принципу организации и функционирования биологических нейронных сетей — сетей нервных клеток живого организма.

 

Определение тематики текстовых сообщений — пример успешного использования искусственных нейронных сетей. Так, сервер новостей Convectis (продукт компании Aptex Software, Inc.) был выбран в 1997 году компанией PointCast, Inc., являвшейся лидером персонализированной доставки новостей в Интернете, для автоматической рубрикации сообщений по категориям. Определяя значения ключевых слов по контексту, сервер Convectis был способен в реальном времени распознавать тематику и автоматически рубрицировать огромные потоки текстовых сообщений, передаваемых по таким информационным сетям, как Reuters, NBC и CBS.

 

29. Транспортирование информации как базовый информационный процесс.

Основным физическим способом реализации операции транспортировки является использование локальных сетей и сетей передачи данных. При разработке и использовании сетей для обеспечения совместимости используется ряд стандартов, объединенных в семиуровневую модель открытых систем, принятую во всем мире и определяющую правила взаимодействия компонентов сети на данном уровне (протокол уровня) и правила взаимодействия компонентов различных уровней (межуровневый интерфейс). Международные стандарты в области сетевого информационного обмена нашли отражение в эталонной семиуровневой модели, известной как модель OSI (Open System Interconnection – связь открытых систем).

 

30. Модель OSI, характеристика уровней.



Поделиться:


Последнее изменение этой страницы: 2024-06-27; просмотров: 38; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 216.73.217.21 (0.007 с.)