Доступно онлайн

  • Статьи 3759
  • Тома 11
  • Номера 120

УДК: 004.62, 004.623, 930.25

2017. - Т. 31. - № 8(189). - С. 81-83

Владислав Андреевич Шевченко, Алексей Михайлович Васецкий,

АВТОМАТИЗАЦИЯ СБОРА БОЛЬШИХ ОБЪЁМОВ ДАННЫХ С ИНТЕРНЕТ САЙТА

Ассматриваются вопросы автоматического скачивания материалов сайта по заданным критериям поиска. На первом этапе двухступенчатого алгоритма формируется подборка документов, удовлетворяющих заданному пользователем запросу к внутренней поисковой системе сайта на базе ElasticSearch. На втором этапе происходит автоматическое скачивание всех страниц, относящихся к выбранным документам. Для этого используется разработанное нами программное обеспечение на основе .NET фреймворка и загрузчика Wget.

Скачать PDF

Первая страница статьи

АВТОМАТИЗАЦИЯ СБОРА БОЛЬШИХ ОБЪЁМОВ ДАННЫХ С ИНТЕРНЕТ САЙТА

Ссылки

  1. 1. Архивный сайт «Память народа» [Электронный ресурс]. Режим доступа: https://pamyat-naroda.ru (дата обращения 27.05.2017).
  2. 2. Васецкий А.М., Лисовский А.А., Филиппова Е.Б. Расширение функционала поискового механизма сайта программными средствами // Успехи в химии и химической технологии. 2016. Т. 30, № 4 (173). С. 103-105.
  3. 3. Сайт «Elastic» [Электронный ресурс]. Режим доступа: https://www.elastic.co/ (дата обращения 27.05.2017).
  4. 4. Обобщённый электронный банк данных «Мемориал» [Электронный ресурс]. Режим доступа: https://www.obd-memorial.ru (дата обращения 27.05.2017).
  5. 5. Архивный сайт «Подвиг народа» [Электронный ресурс]. Режим доступа: http://www.podvignaroda.mil.ru (дата обращения 27.05.2017).

Ключевые слова

archive   collection   ElasticSearch   request   script   site   Wget   поиск   сайт   скрипт   электронный архив  


Индексирование журнала

  • Elibrary.ru
  • Винити

Наши друзья

  • Фонд "Научная перспектива"
  • Минобрнауки
  • РХО им. Д.И. Менделеева