Слияние данных — Википедия

Слияние данных является процессом объединения источников данных для получения более согласующейся, точной и полезной информации, чем информация от одного отдельного источника[1].

Слияние данных из двух источников (измерения №1 и №2) могут дать классификатор, превосходящий классификаторы, основанные лишь на измерениях №1 или измерениях №2

Процессы слияния данных часто группируются как низкое, среднее или высокое слияние, в зависимости от стадии обработки, на котором слияние производится[2]. Низкоуровневое слияние данных комбинирует некоторые источники сырых данных для получения других сырых данных. Требуется, чтобы слитые данные были более информативны и синтетические[en], чем исходные данные.

Например, сбор и обобщение данных от датчиков[en] известно как (мультисенсорное) слияние данных и является подмножеством объединения информации[en].

Люди как пример слияния данных[править | править код]

Люди являются прямым примером слияния данных. Как люди, мы опираемся широко на наши чувства, такие как Зрение, Запах, Вкус, Звук и Физическое движение. Комбинация всех этих чувств комбинируется постоянно, чтобы помочь нам в выполнении большинства, если не всех, задач в нашей повседневной жизни. То есть это является прямым примером слияния данных. Мы опираемся на слияние запаха, вкуса и осязание пищи, чтобы убедиться, что она съедобна. Аналогично, мы опираемся на наше зрение и нашу возможность слышать и контролировать движение нашего тела для прогулок или вождения автомобиля и осуществляем большинство задач в нашей жизни. Во всех этих случаях мозг осуществляет слияние и контролирует, что мы должны сделать в следующий момент. Наш мозг опирается на слияние данных, собранных из вышеперечисленных органов чувств[3].

Геопространственные приложения[править | править код]

В геопространственной области исследования (GIS) слияние данных является часто синонимом интеграции данных. В этих приложениях имеется часто необходимость комбинировать различные наборы данных в объединённые (слитые) наборы данных, которые включает все точки данных. Слитые наборы данных отличаются от простого объединения в том, что точки в слитом наборе данных содержат атрибуты и метаданные, которые могут не содержаться у точек в оригинальном наборе данных.

Упрощённый пример этого процесса показан ниже, где набор данных α сливается с набором данных β, образуя слитый набор данных δ. Точки данных в множестве α имеют пространственные координаты X и Y и атрибуты A1 и A2. Точки данных в множестве β имеют пространственные координаты X и Y и атрибуты B1 и B2. Слитый набор данных содержит все точки и атрибуты.

Входной набор данных α Входной набор данных β Слитый набор данных δ
Точка X Y A1 A2
α1 10 10 M N
α2 10 30 M N
α3 30 10 M N
α4 30 30 M N
Точка X Y B1 B2
β1 20 20 Q R
β2 20 40 Q R
β3 40 20 Q R
β4 40 40 Q R
Точка X Y A1 A2 B1 B2
δ1 10 10 M N Q? R?
δ2 10 30 M N Q? R?
δ3 30 10 M N Q? R?
δ4 30 30 M N Q? R?
δ5 20 20 M? N? Q R
δ6 20 40 M? N? Q R
δ7 40 20 M? N? Q R
δ8 40 40 M? N? Q R

В простом случае, когда все атрибуты однородны по всей области, атрибуты могут быть назначены просто: M?, N?, Q?, R? в M, N, Q, R. В действительных приложениях атрибуты не однородны и нужны обычно некоторые виды интерполяции для правильного назначения атрибутов точкам данных в слитом наборе.

Визуализация слитых наборов данных для движения лангуста в Тасмановом море. Изображение образовано с помощью программы Eonfusion компанией Myriax Pty. Ltd. — eonfusion.myriax.com
Визуализация слитых наборов данных для движения лангуста в Тасмановом море. Изображение образовано с помощью программы Eonfusion компанией Myriax Pty. Ltd. — eonfusion.myriax.com

В существенно более сложном приложении исследователи морских животных использовали слияние данных о движении животных с батиметрическими и метеорологическими данными, с температурой поверхности моря[en] и местообитанием животных для рассмотрения и понимания поведения животных как реакция на внешние воздействия, такие как погода и температура воды. Каждый из этих наборов данных представляет различные пространственные решётки и частоту отбора данных, так что простая комбинация данных, скорее всего, дала бы необоснованные предположения и испортила бы результаты анализа. Однако путём слияния данных все данные и атрибуты собираются вместе в одно целое, в котором создаётся более полная картина окружения. Это даёт возможность учёным определить ключевые места и время и образует новое представление о взаимодействии окружающей среды и поведения животного.

На изображении справа изучаются лобстеры на берегу Тасманского моря. Хью Педерсон из Университета Тасмани использовал программы слияния данных для слияния данных слежения передвижения южного каменного лобстера[en] (на изображении кодирован жёлтым цветом и чёрным для дневного и ночного времени соответственно) с батиметрическими и данными местообитания в одну 4-мерную картину поведения лобстера.

Интеграция данных[править | править код]

В приложениях вне геопространственных областей использование терминов интеграция данных и слияние данных различается. В таких областях, как бизнес-аналитика, например, термин «интеграция данных» используется для описания комбинирования данных, в то время как термин «слияние данных» является интеграцией с последующим уплотнением и заменой данных. Интеграцию данных можно рассматривать как комбинацию множеств, при которой большее множество сохраняется, в то время как слияние является техникой сокращения множества с улучшением надёжности.

Модель JDL/DFIG[править | править код]

В середине 1980-х содиректора Лабораторий (англ. Joint Directors of Laboratories, JDL) образовали Подкомиссию Слияния Данных (которая позднее стала известна как Группа Слияния Данных, англ. Data Fusion Group, DFG). С появлением «Всемирной паутины» (World Wide Web) слияние данных стало включать слияние датчиков и слияние информации. Группа JDL/DFIG представила модель слияния данных, которая разделяется на различные процессы. В настоящее время есть шесть уровней модели Группы Слияния Данных (англ. Data Fusion Information Group, DFIG):

Level 0: Предварительная обработка исходных данных/Оценка содержания (англ. Source Preprocessing/subject Assessment)

Level 1: Оценка объекта (англ. Object Assessment)

Level 2: Оценка ситуации (англ. Situation Assessment)

Level 3: Оценка влияния (англ. Impact Assessment) (или Отыскание угроз, англ. Threat Refinement)

Level 4: Усовершенствование процесса (англ. Process Refinement)

Level 5: Пользовательское улучшение (англ. User Refinement или Когнитивное улучшение, англ. Cognitive Refinement)

Хотя модель JDL (уровни 1–4) используется по сей день, она часто критикуется за требование, чтобы уровни обязательно реализовывались в указанном порядке, а также отсутствия адекватного представления участия человека. Модель DFIG (уровни 0–5) учитывает влияние осведомлённости об окружающей обстановке, пользовательские улучшения и управление работами[4]. Несмотря на недостатки, модели JDL/DFIG полезны для визуализации процесса слияния данных, что способствует обсуждению и общему пониманию[5], также имеет важное значение для разработки слияния информации на системном уровне[4].

Области применения[править | править код]

От различных датчиков трафика на дороге[править | править код]

Данные от различных сенсорных технологий могут быть скомбинированы разумным образом для определения точного состояния трафика. Подход, основанный на слиянии данных, который использует полученные от дороги акустические данные, изображения и данные датчиков, показывает преимущество комбинирования различных индивидуальных методов[6].

Объединение решений[править | править код]

Во многих случаях географически разбросанные датчики строго ограничены по потреблению энергии и пропускной способности. Поэтому сырые данные, касающиеся определённого явления, часто приводятся к нескольким битам для каждого датчика. Когда делаем вывод о бинарном событии (т.е. или ), в крайнем случае только бинарное решение посылается от датчика в центр объединения решений и комбинируется для получения улучшенной классификации[7][8][9].

Для улучшения контекстуальной осведомлённости[править | править код]

С большим числом встроенных датчиков, включая датчики движения, датчиков окружающей среды, датчиков положения, современные мобильные устройства обычно дают мобильным приложениям получить доступ к большому числу данных от датчиков, которые могут быть использованы для улучшения контекстуальной осведомлённости. Используя техники обработки сигналов и слияния данных, таких как генерация признаков, оценка целесообразности и метод главных компонент для анализа таких данных от датчиков, существенно улучшают классификацию движения и контекстуальное состояния устройства[10].


Примечания[править | править код]

Литература[править | править код]

Цитаты[править | править код]

Источники[править | править код]

Ссылки[править | править код]

  1. Haghighat, Abdel-Mottaleb, Alhalabi, 2016, с. 1984-1996.