Верификация данных
Верификация данных (англ. Data verification) — это процесс проверки данных различных типов по критериям поступление из доверенного источника, точность, согласованность и соответствие формату представления после выполнения операций миграции, трансформации и других операций с данными. Термин Верификация применим как к данным, так и их наборам — датасетам. Особую важность верификация данных приобретает в условиях автоматизированной обработки данных в информационных системах, внесении данных в базы данных[1] и при применении технологий машинного обучения при подготовке обучающих и тестовых датасетов.
Верификация данных позволяет определить, были ли данные точно перенесены из одного источника в другой, являются ли они полными и поддерживают ли процессы в новой системе. В качестве методов верификации можно применять проверку идентичности исходных и производных наборов данных путем побайтового сравнения, подсчета контрольных сумм, вычитки текстов и другие методы[2].
Верификация данных связана с валидацией данных, но между ними есть существенное отличие. В процессе верификации проверяется формальное соответствие заданным критериям результатов операций с данными, в то время как в процессе валидации проверяется корректность самого набора данных и применимость данных для решения конкретных вычислительных и других задач.