Археология данных — Википедия

Археология данных (англ. Data archaeology) — реконструкция и дешифровка данных с носителей информации, которые вышли из употребления или были повреждены в результате природной или техногенной катастрофы. Также к археологии данных относится процесс дешифровки информации, записанной в устаревшем формате данных.

Вышедшие из употребления форматы данных и устаревшие носители[править | править код]

Методы археологии данных чаще всего применяются для восстановления научной и финансовой информации. В частности, значительная часть астрономической информации до сих пор хранится на физически и морально устаревших носителях. Коммерческие организации обязаны хранить финансовую информацию многие годы; однако ранние финансовые записи часто становятся недоступными для использования из-за смены форматов и поколений носителей информации.

Термин «data archaeology» был впервые использован в 1993 году в описании проекта Global Oceanographic Data Archaeology and Rescue Project (GODAR). Целью проекта была реконструкция данных со спутника Nimbus 2, работавшего в 60-х годах XX века. Реконструкция этих данных позволила получить уникальную информацию об изменениях климата Арктики того времени[1].

Другим крупным «археологическим» проектом стал Lunar Orbiter Image Recovery Project (LOIRP). Специалисты NASA использовали методы археологии данных для спасения астрономической информации со старинной компьютерной ленты, созданной в середине прошлого века[2].

Носители, повреждённые в результате катастрофы[править | править код]

Повреждённый файл формата jpeg

Методы археологии данных были использованы при ликвидации последствий урагана Мэрилин в 1996 году. Так, Национальное управление архивов и документации США в содружестве с Национальной медиа-лабораторией США (National Media Lab) произвели успешное восстановление информации с дискет, повреждённых морской водой и песком[3].

Методы[править | править код]

Археология данных использует многие из общих методов восстановления информации, но не сводится к ним. Это связано с тем, что в рамках археологии данных недостаточно просто восстановить информацию, нужно сделать её понимаемой[3].

Важным фактором в процессе извлечения информации является соотношение важности информации и затрат на её извлечение; при неограниченных ресурсах информация может быть извлечена и дешифрована почти с любого носителя[4].

Использование тех или иных методов главным образом зависит от типа носителя. К примеру, для археологии данных, размещенных на магнитной ленте, на подготовительном этапе могут применяться реабсорбция покрытия ленты, нанесение на ленту специальной смазки, применение специальных методов очистки ленты[5][6][6].

Существуют специализированные организации, использующие методы археологии данных для восстановления информации с устаревших или повреждённых носителей, среди крупнейших — National Media Lab USA и Storelab Data Recovery[7][8].

Концепция Цифровой тёмный век[править | править код]

Цифровой тёмный век — сценарий возможного будущего, при котором многие исторические цифровые документы и мультимедиа будут фактически утеряны, так как никто не сможет их открыть. Несовместимое оборудование и операционные системы, утерянные кодеки и вышедшие из употребления форматы данных сделают невозможным доступ ко многим файлам XX—XXI веков[9][10].

Археология данных в искусстве[править | править код]

  • В фильме «Искусственный разум» Стивена Спилберга высокоразвитая раса гуманоидов реконструирует информацию, сохранившуюся в древнем дефектном роботе, для воссоздания обстановки, в которой он существовал.
  • Главный герой романа «Глубина в небе» использует методы археологии данных для получения контроля над программным обеспечением, писавшимся несколько столетий.
  • В аниме «Бледный кокон» люди будущего занимаются восстановлением различных данных о прошлом Земли из цифровых архивов.

См. также[править | править код]

Примечания[править | править код]

  1. Techno-archaeology rescues climate data from early satellites Архивная копия от 26 ноября 2010 на Wayback MachineU.S. National Snow and Ice Data Center (NSIDC), January 2010
  2. LOIRP Overview Архивная копия от 31 января 2011 на Wayback MachineNASA website November 14, 2008
  3. 1 2 [1] Архивная копия от 9 июля 2017 на Wayback Machine Study on website October 23, 2011
  4. [2] Архивная копия от 9 июля 2017 на Wayback Machine p.17
  5. [3] Архивная копия от 9 июля 2017 на Wayback Machine pp.17-18
  6. 1 2 [4] Архивная копия от 9 июля 2017 на Wayback Machine pp.18
  7. Imation Government Solutions: National Media Lab. Дата обращения: 12 января 2013. Архивировано 28 января 2013 года.
  8. WD RE4-GP 1,5 Тбайт: накопитель корпоративного класса с технологией GreenPower | THG.RU. Дата обращения: 12 января 2013. Архивировано 6 января 2013 года.
  9. Архивированная копия. Дата обращения: 11 января 2013. Архивировано 9 мая 2008 года.
  10. Escaping the Digital Dark Age. Дата обращения: 12 января 2013. Архивировано 23 сентября 2005 года.

Литература[править | править код]

  • World Wide Words: Data Archaeology
  • O’Donnell, James Joseph. Avatars of the Word: From Papyrus to Cyperspace Harvard University Press, 1998.
  • Ross, Seamus and Gow, Ann. «Digital Archaeology: Rescuing Neglected and Damaged Data Resources» Library Information Technology Centre, 1999.