Synthetic Data

Ieder AI-project steunt op grote hoeveelheden data. Goede data kan moeilijk of duur zijn om te verzamelen, en daarnaast zijn er ook privacy-verzuchtingen als de data verband houdt met personen. De GDPR legt op Europees niveau hoge standaarden en restricties op voor dataverzameling, -beheer en -gebruik.

De consument wordt zo optimaal beschermd, maar het werk van de datawetenschapper wordt niet gemakkelijker. Mede daarom vindt het concept van “synthetic data” opgang: fictieve gegevens, die de statistische eigenschappen van de oorspronkelijke dataset simuleert. Toepassingen zijn het herbalanceren van een dataset, het maskeren of anonimiseren van gevoelige data, of het maken van simulatieomgevingen voor machine learning toepassingen.

Reden genoeg om er eens een blik op te werpen! In dit artikel voor de Smals Research blog ga ik dieper in op het wat en waarom van synthetische data.