Eksploracja danych
Eksploracja danych to proces pozyskiwania wiedzy z baz danych, który polega na identyfikacji ukrytych wzorców w zgromadzonych informacjach. Z wykorzystaniem komputerów, możliwe jest odkrywanie prawidłowości, które mogą umknąć ludzkiej percepcji, głównie z powodu ograniczeń czasowych. Techniki te czerpią z różnych dziedzin, takich jak statystyka i uczenie maszynowe.
Techniki eksploracji danych
W eksploracji danych wykorzystuje się różnorodne metody, które można kategoryzować jako:
- wizualizacje na wykresach
- metody statystyczne
- sieci neuronowe
- uczenie maszynowe
- metody ewolucyjne
- logika rozmyta
- zbiory przybliżone
Metody przetwarzania
W ramach eksploracji danych rozwijane są różne metody przetwarzania, takie jak:
- streszczanie danych
- poszukiwanie asocjacji
- analiza jakościowa i ilościowa
- klasyfikacja
- grupowanie
Proces odkrywania danych i obszary zastosowania
Odkrywanie danych (KDD – Knowledge Discovery in Databases) łączy metody statystyki, sztucznej inteligencji i eksploracji danych. Jego zastosowania obejmują obszary, w których gromadzi się dane, takie jak technika, medycyna, astronomia, ekonomia i biznes. Oto przykłady zastosowań KDD:
- eksploracja danych o ruchu internetowym
- rozpoznawanie sygnałów obrazu, mowy i pisma
- wspomaganie diagnostyki medycznej
- badania genetyczne
- analiza operacji bankowych
- projektowanie hurtowni danych
- tworzenie reklam skierowanych
- prognozowanie sprzedaży
- wykrywanie nadużyć
- ocena ryzyka kredytowego
- segmentacja klientów
Wizualizacja danych
Wizualizacja danych jest kluczowa dla analizy, pozwala na identyfikację różnic i tendencji. Przykłady wizualizacji to:
- Wykresy gęstości: lepiej pokazują różnice, gdy linie klas są wyraźnie rozdzielone.
- Wykresy pudełkowe: służą do analizy kwantyli i wartości ekstremalnych.
- Histogramy: im bardziej zróżnicowane słupki, tym lepsza analiza rozkładu danych.
Literatura
- Hand D., Mannila H., Smyth P., Eksploracja danych, WNT, Warszawa 2005
- Larose D. T., Odkrywanie wiedzy z danych, Wyd. Nauk. PWN, Warszawa 2006