TFIDF

TFIDF (ang. TF – term frequency, IDF – inverse document frequency) - ważenie częstością termów - odwrotna częstość w dokumentach - jedna z metod obliczania wagi słów w oparciu o liczbę ich wystąpień, należąca do grupy algorytmów obliczających statystyczne wagi termów. Każdy dokument reprezentowany jest przez wektor, składający się z wag słów występujących w tym dokumencie. TFIDF informuje o częstości wystąpienia termów uwzględniając jednocześnie odpowiednie wyważenie znaczenia lokalnego termu i jego znaczenia w kontekście pełnej kolekcji dokumentów.

Algorytm stosowany jako metoda oceny relatywności dokumentu w wyszukiwarkach internetowych, kolejnym zastosowaniem jest ocena podobieństwa dokumentów w systemach grupowania wyników oraz systemach typu antyplagiat.

Wartość TF-IDF oblicza się ze wzoru:
 \mathrm{tf-idf} = \mathrm{tf} \cdot \log \left( \frac{|D|}{|(d_{j}\supset t_{j})|}\right)

gdzie:
 \mathrm{tf} = \frac{n_i}{\sum_k n_k}
ni - liczba wystąpień termu w przeszukiwanym zbiorze
nk
k
- liczba wszystkich termów w przeszukiwanym zbiorze

[edytuj] Zobacz też

[edytuj] Linki zewnętrzne


wymiana linkami system wymiany linków SEO Tools system wymiany linków system wymiany linków tanie kredyty gotówkowe kreatyna Plaza 3 star hotel Los Angeles krynica noclegi Sejm Tyk