Grunnleggende data rengjøring av Shawn Deny

data rensing eller rensing er thecorrection av data som ikke er i samsvar med settet format av databasen orrecord settet, som også er kjent som skitt eller grove data. Dette kan gjøres byeither slette feil (eller en streng rengjøring), eller modifisere incorrectentries som samsvarer med riktige svar (eller en uklar rengjøring). På denne måten er thehomogeneity poster i databasen vedlikeholdt, og feil gjort whileprocessing dataene er minimert. Rengjøring data er forskjellig fra datavalidation, som også en fremgangsmåte for (vanligvis) avvise feilføring, men for det meste forekommer på tidspunktet for dataregistrering. Rengjøring utføres på entriesin en eksisterende database.

rengjøring gjøres typisk byremoving typografiske feil, eller validere mot riktige poster. Foreksempel, kan et telefonnummer ikke inneholder noen bokstaver, og hvis en oppføring ved acustomer på et elektronisk skjema ikke inneholder retningsnummeret, deretter koden kan beadded dersom plasseringen av kunden er kjent. Tilsvarende relevante registre kanskje vedlagte sammen, for eksempel telefonnumre og adresser, eller universitets rollnumbers med avdelingsnavn og årsklasser.

Grov data i en company'sdatabase, for eksempel feil e-postadresser eller telefonnumre, kan vise seg å bedetrimental til selskapets utvikling, siden det kan føre til incorrectlyplaced bestillinger, sende e-post til feil folk, manglende evne kontakt acustomer, og flere lager problemer som bestiller fabrikken feil quantityfrom eller miscalculating ansattes paychecks. Tilsvarende i nationalcitizenship databaser, kan feil føre til unøyaktige undersøkelser, whichwill føre til feilaktig økonomisk politikk med hensyn til helsetjenester, utdanning andinfrastructure .

Mens rensing data, er thefollowing parametere gransket: .

· Gyldighet, som er i hvilken grad de datafollows reglene for databasen, for eksempel lengde, data-type, og expressionpatterns

· fullstendighet og nøyaktighet. Nøyaktige data må Beas nær den "sanne" verdi. Mens 100% nøyaktig vanskelig å få tak i, canbe det gjort av kryssreferanser, for eksempel ved hjelp av strekkoder og produkt namestogether å sjekke prisen .

· Konsistens og ensartethet, som sjekker om thesame data er representert på samme måte på tvers av ulike databaser. Foreksempel, hvis vektenhet er satt som kilo, så det bør ikke være pounds inanother koblet database.

Selvfølgelig, det er severalproblems med å forsøke å rette alle dataene, den vanligste av disse isthe fjerning av data og tap av informasjon. For eksempel, i et forsøk på å fitaddresses i et sett format, er alle detaljer som ville ha blitt vist seg å være morehelpful skåret ut, noe som resulterer i en vanskelig å lokalisere kunde. God kvalitet data rengjøring programvare, for eksempel at fromDataTools, må ta hensyn til at viktige detaljer i dataene er notremoved på grunn av rask og effektiv behandling . Anmeldelser