Ein Anwender von DataMining sollte sich aber auch überlegen, wie sinnvoll es ist, an dem Datensatz, der eine Vermutung erst ausgelöst hat, gleich auch die Richtigkeit dieser Vermutung (im Sinne eines Signifikanztests) überprüfen zu wollen. DataMining zum Entdecken von interessanten Regelmäßigkeiten ist logisch nicht verwerflich. DataMining zur Bestätigung der aufgrund der Daten gefassten Vermutung ist logisch nicht haltbar, aber eine Übertragung der Besonderheiten des ausgewerteten Datensatzes auf ein allgemeines Gesetz ist für eine Anwendung der Besonderheiten in dem betrachteten Datensatz auch nicht notwendig. |
Ein Beispiel: Eine Internet-Umfrage mit 100 Fragen soll auf ihren Gehalt analysiert werden. Die eingegangenen Antworten sind das Trainings-Set. Über DataMining bekommt man Abschätzungen, ob die Antworten auf eine statistische Korrelation der Fragen hinweisen. So könnten z. B. die Frage, ob ein Softwareunternehmen nach CMM (CapabilityMaturityModel) arbeitet und die Frage, ob das Unternehmen Qualität hoch bewertet, statistisch signifikante Ähnlichkeiten bei der Beantwortung aufweisen.
Wer sich mit DataMining beschäftigt, sollte einen Blick auf SpracheR werfen.
Ein Anwender von DataMining sollte sich aber auch überlegen, wie sinnvoll es ist, an dem Datensatz, der eine Vermutung erst ausgelöst hat, gleich auch die Richtigkeit dieser Vermutung (im Sinne eines Signifikanztests) überprüfen zu wollen. DataMining zum Entdecken von interessanten Regelmäßigkeiten ist logisch nicht verwerflich. DataMining zur Bestätigung der aufgrund der Daten gefassten Vermutung ist logisch nicht haltbar, aber eine Übertragung der Besonderheiten des ausgewerteten Datensatzes auf ein allgemeines Gesetz ist für eine Anwendung der Besonderheiten in dem betrachteten Datensatz auch nicht notwendig.