Слияние данных — Википедия

Слияние данных является процессом объединения источников данных для получения более согласующейся, точной и полезной информации, чем информация от одного отдельного источника^[1].

Процессы слияния данных часто группируются как низкое, среднее или высокое слияние, в зависимости от стадии обработки, на котором слияние производится^[2]. Низкоуровневое слияние данных комбинирует некоторые источники сырых данных для получения других сырых данных. Требуется, чтобы слитые данные были более информативны и синтетические^[en], чем исходные данные.

Например, сбор и обобщение данных от датчиков^[en] известно как (мультисенсорное) слияние данных и является подмножеством объединения информации^[en].

Люди как пример слияния данных[править | править код]

Люди являются прямым примером слияния данных. Как люди, мы опираемся широко на наши чувства, такие как Зрение, Запах, Вкус, Звук и Физическое движение. Комбинация всех этих чувств комбинируется постоянно, чтобы помочь нам в выполнении большинства, если не всех, задач в нашей повседневной жизни. То есть это является прямым примером слияния данных. Мы опираемся на слияние запаха, вкуса и осязание пищи, чтобы убедиться, что она съедобна. Аналогично, мы опираемся на наше зрение и нашу возможность слышать и контролировать движение нашего тела для прогулок или вождения автомобиля и осуществляем большинство задач в нашей жизни. Во всех этих случаях мозг осуществляет слияние и контролирует, что мы должны сделать в следующий момент. Наш мозг опирается на слияние данных, собранных из вышеперечисленных органов чувств^[3].

Геопространственные приложения[править | править код]

В геопространственной области исследования (GIS) слияние данных является часто синонимом интеграции данных. В этих приложениях имеется часто необходимость комбинировать различные наборы данных в объединённые (слитые) наборы данных, которые включает все точки данных. Слитые наборы данных отличаются от простого объединения в том, что точки в слитом наборе данных содержат атрибуты и метаданные, которые могут не содержаться у точек в оригинальном наборе данных.

Упрощённый пример этого процесса показан ниже, где набор данных α сливается с набором данных β, образуя слитый набор данных δ. Точки данных в множестве α имеют пространственные координаты X и Y и атрибуты A1 и A2. Точки данных в множестве β имеют пространственные координаты X и Y и атрибуты B1 и B2. Слитый набор данных содержит все точки и атрибуты.

Входной набор данных α

Входной набор данных β

Слитый набор данных δ

Точка	X	Y	A1	A2
α1	10	10	M	N
α2	10	30	M	N
α3	30	10	M	N
α4	30	30	M	N

Точка	X	Y	B1	B2
β1	20	20	Q	R
β2	20	40	Q	R
β3	40	20	Q	R
β4	40	40	Q	R

Точка	X	Y	A1	A2	B1	B2
δ1	10	10	M	N	Q?	R?
δ2	10	30	M	N	Q?	R?
δ3	30	10	M	N	Q?	R?
δ4	30	30	M	N	Q?	R?
δ5	20	20	M?	N?	Q	R
δ6	20	40	M?	N?	Q	R
δ7	40	20	M?	N?	Q	R
δ8	40	40	M?	N?	Q	R

В простом случае, когда все атрибуты однородны по всей области, атрибуты могут быть назначены просто: M?, N?, Q?, R? в M, N, Q, R. В действительных приложениях атрибуты не однородны и нужны обычно некоторые виды интерполяции для правильного назначения атрибутов точкам данных в слитом наборе.

В существенно более сложном приложении исследователи морских животных использовали слияние данных о движении животных с батиметрическими и метеорологическими данными, с температурой поверхности моря^[en] и местообитанием животных для рассмотрения и понимания поведения животных как реакция на внешние воздействия, такие как погода и температура воды. Каждый из этих наборов данных представляет различные пространственные решётки и частоту отбора данных, так что простая комбинация данных, скорее всего, дала бы необоснованные предположения и испортила бы результаты анализа. Однако путём слияния данных все данные и атрибуты собираются вместе в одно целое, в котором создаётся более полная картина окружения. Это даёт возможность учёным определить ключевые места и время и образует новое представление о взаимодействии окружающей среды и поведения животного.

На изображении справа изучаются лобстеры на берегу Тасманского моря. Хью Педерсон из Университета Тасмани использовал программы слияния данных для слияния данных слежения передвижения южного каменного лобстера^[en] (на изображении кодирован жёлтым цветом и чёрным для дневного и ночного времени соответственно) с батиметрическими и данными местообитания в одну 4-мерную картину поведения лобстера.

Интеграция данных[править | править код]

В приложениях вне геопространственных областей использование терминов интеграция данных и слияние данных различается. В таких областях, как бизнес-аналитика, например, термин «интеграция данных» используется для описания комбинирования данных, в то время как термин «слияние данных» является интеграцией с последующим уплотнением и заменой данных. Интеграцию данных можно рассматривать как комбинацию множеств, при которой большее множество сохраняется, в то время как слияние является техникой сокращения множества с улучшением надёжности.

Модель JDL/DFIG[править | править код]

В середине 1980-х содиректора Лабораторий (англ. Joint Directors of Laboratories, JDL) образовали Подкомиссию Слияния Данных (которая позднее стала известна как Группа Слияния Данных, англ. Data Fusion Group, DFG). С появлением «Всемирной паутины» (World Wide Web) слияние данных стало включать слияние датчиков и слияние информации. Группа JDL/DFIG представила модель слияния данных, которая разделяется на различные процессы. В настоящее время есть шесть уровней модели Группы Слияния Данных (англ. Data Fusion Information Group, DFIG):

Level 0: Предварительная обработка исходных данных/Оценка содержания (англ. Source Preprocessing/subject Assessment)

Level 1: Оценка объекта (англ. Object Assessment)

Level 2: Оценка ситуации (англ. Situation Assessment)

Level 3: Оценка влияния (англ. Impact Assessment) (или Отыскание угроз, англ. Threat Refinement)

Level 4: Усовершенствование процесса (англ. Process Refinement)

Level 5: Пользовательское улучшение (англ. User Refinement или Когнитивное улучшение, англ. Cognitive Refinement)

Хотя модель JDL (уровни 1–4) используется по сей день, она часто критикуется за требование, чтобы уровни обязательно реализовывались в указанном порядке, а также отсутствия адекватного представления участия человека. Модель DFIG (уровни 0–5) учитывает влияние осведомлённости об окружающей обстановке, пользовательские улучшения и управление работами^[4]. Несмотря на недостатки, модели JDL/DFIG полезны для визуализации процесса слияния данных, что способствует обсуждению и общему пониманию^[5], также имеет важное значение для разработки слияния информации на системном уровне^[4].

Области применения[править | править код]

От различных датчиков трафика на дороге[править | править код]

Данные от различных сенсорных технологий могут быть скомбинированы разумным образом для определения точного состояния трафика. Подход, основанный на слиянии данных, который использует полученные от дороги акустические данные, изображения и данные датчиков, показывает преимущество комбинирования различных индивидуальных методов^[6].

Объединение решений[править | править код]

Во многих случаях географически разбросанные датчики строго ограничены по потреблению энергии и пропускной способности. Поэтому сырые данные, касающиеся определённого явления, часто приводятся к нескольким битам для каждого датчика. Когда делаем вывод о бинарном событии (т.е. ${\mathcal {H}}_{0}$ или ${\mathcal {H}}_{1}$ ), в крайнем случае только бинарное решение посылается от датчика в центр объединения решений и комбинируется для получения улучшенной классификации^[7]^[8]^[9].

Для улучшения контекстуальной осведомлённости[править | править код]

С большим числом встроенных датчиков, включая датчики движения, датчиков окружающей среды, датчиков положения, современные мобильные устройства обычно дают мобильным приложениям получить доступ к большому числу данных от датчиков, которые могут быть использованы для улучшения контекстуальной осведомлённости. Используя техники обработки сигналов и слияния данных, таких как генерация признаков, оценка целесообразности и метод главных компонент для анализа таких данных от датчиков, существенно улучшают классификацию движения и контекстуальное состояния устройства^[10].

Примечания[править | править код]

↑ Haghighat, Abdel-Mottaleb, Alhalabi, 2016, с. 1984-1996.
↑ Klein, 2004, с. 51.
↑ Penn State WebAccess Secure Login: (англ.). ieeexplore-ieee-org.ezaccess.libraries.psu.edu. Дата обращения: 27 июня 2018.
↑ ¹ ² Blasch, Bossé, Lambert, 2012.
↑ Liggins, Hall, Llinas, 2008.
↑ Joshi, Rajamani, Takayuki, Prathapaneni, Subramaniam, 2013.
↑ Ciuonzo, Papa, Romano, Salvo Rossi, Willett, 2013, с. 861–864.
↑ Ciuonzo, Salvo Rossi, 2014, с. 208–212.
↑ Ciuonzo, De Maio, Salvo Rossi, 2015, с. 1249–1253.
↑ Guiry, van de Ven, Nelson, 2014, с. 5687–5701.

Литература[править | править код]

Цитаты[править | править код]

Haghighat M., Abdel-Mottaleb M., Alhalabi W. Discriminant Correlation Analysis: Real-Time Feature Level Fusion for Multimodal Biometric Recognition // IEEE Transactions on Information Forensics and Security. — 2016. — Т. 11, вып. 9.
Lawrence A. Klein. Sensor and data fusion: A tool for information assessment and decision making. — SPIE Press, 2004. — ISBN 0-8194-5435-4.
Erik P. Blasch, Éloi Bossé, Dale A. Lambert. High-Level Information Fusion Management and System Design. — Norwood, MA: Artech House Publishers, 2012.
Martin E. Liggins, David L. Hall, James Llinas. Multisensor Data Fusion, Second Edition: Theory and Practice (Multisensor Data Fusion). — CRC, 2008.
Joshi V., Rajamani N., Takayuki K., Prathapaneni N., Subramaniam L. V. Information Fusion Based Learning for Frugal Traffic State Sensing // Proceedings of the Twenty-Third International Joint Conference on Artificial Intelligence. — 2013.
Ciuonzo D., Papa G., Romano G., Salvo Rossi P., Willett P. One-Bit Decentralized Detection With a Rao Test for Multisensor Fusion // IEEE Signal Processing Letters. — 2013. — Т. 20, вып. 9. — ISSN 1070-9908. — doi:10.1109/LSP.2013.2271847. — Bibcode: 2013ISPL...20..861C. — arXiv:1306.6141.
Ciuonzo D., Salvo Rossi P. Decision Fusion With Unknown Sensor Detection Probability // IEEE Signal Processing Letters. — 2014. — Т. 21, вып. 2. — ISSN 1070-9908. — doi:10.1109/LSP.2013.2295054. — Bibcode: 2014ISPL...21..208C. — arXiv:1312.2227.
Ciuonzo D., De Maio A., Salvo Rossi P. A Systematic Framework for Composite Hypothesis Testing of Independent Bernoulli Trials // IEEE Signal Processing Letters. — 2015. — Т. 22, вып. 9. — ISSN 1070-9908. — doi:10.1109/LSP.2015.2395811. — Bibcode: 2015ISPL...22.1249C.
John J. Guiry, Pepijn van de Ven, John Nelson. Multi-Sensor Fusion for Enhanced Contextual Awareness of Everyday Activities with Ubiquitous Devices // Sensors. — 2014. — Т. 14, вып. 3. — С. 5687–5701. — doi:10.3390/s140305687. — PMID 24662406. — PMC 4004015.

Источники[править | править код]

Dave L. Hall, James Llinas. Introduction to Multisensor Data Fusion // Proceedings of the IEEE. — 1997. — Т. 85, № 1. — С. 6–23.
Erik Blasch, Ivan Kadar, John Salerno, Mieczyslaw M. Kokar, Subrata Das, Gerald M. Powell, Daniel D. Corkill, Enrique H. Ruspini. Issues and Challenges in Situation Assessment (Level 2 Fusion) // Journal of Advances in Information Fusion. — 2006. — Т. 1. Архивировано 27 мая 2015 года.
David L. Hall, Sonya A. H. McMullen. Mathematical Techniques in Multisensor Data Fusion, Second Edition. — Norwood, MA: Artech House, Inc., 2004. — ISBN 1-5805-3335-3.
Mitchell H. B. Multi-sensor Data Fusion – An Introduction. — Berlin: Springer-Verlag, 2007.
Das S. High-Level Data Fusion. — Norwood, MA: Artech House Publishers, 2008.

Ссылки[править | править код]

↑ Haghighat, Abdel-Mottaleb, Alhalabi, 2016, с. 1984-1996.

[_68977570139c9e20-1] Haghighat, Abdel-Mottaleb, Alhalabi, 2016, с. 1984-1996.

[_d5dee9f47416b042-2] Klein, 2004, с. 51.

[3] Penn State WebAccess Secure Login: (англ.). ieeexplore-ieee-org.ezaccess.libraries.psu.edu. Дата обращения: 27 июня 2018.

[_315be3fc374fa3a5-4] ¹ ² Blasch, Bossé, Lambert, 2012.

[_8dead41e07951102-5] Liggins, Hall, Llinas, 2008.

[_3ab2e7104bb25503-6] Joshi, Rajamani, Takayuki, Prathapaneni, Subramaniam, 2013.

[_a7357bfe7b673f26-7] Ciuonzo, Papa, Romano, Salvo Rossi, Willett, 2013, с. 861–864.

[_e722e9616579eb7e-8] Ciuonzo, Salvo Rossi, 2014, с. 208–212.

[_2275e61e1c72b274-9] Ciuonzo, De Maio, Salvo Rossi, 2015, с. 1249–1253.

[_89a67f0c6137503a-10] Guiry, van de Ven, Nelson, 2014, с. 5687–5701.

[_68977570139c9e20-11] Haghighat, Abdel-Mottaleb, Alhalabi, 2016, с. 1984-1996.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[1]