\[ d_{\text{Eucl},XY} = \sqrt{\sum_{j=1}^p (x_j - y_j)^2} \]
\[ d_{\text{Manh},XY} = \sum^p_{j=1} |x_j - y_j| \]
Визуализацию можно посмотреть тут.
\[ \text{WSS} = \sum_{j=1}^k \sum^{|C_j|}_{i=1} (x_{ij} − \bar x_j)^2, \]
где \(k\) — число кластеров, \(|C_j|\) — количество объектов в данном кластере.
\[ \text{BSS} = n \cdot \sum_{j=1}^k (\bar x_j - \bar x)^2, \]
где \(k\) — число кластеров.
Кластер | \((1,3)\) | \((2,5)\) | \((4,8)\) | \((7,9)\) |
---|---|---|---|---|
1 | 0.8 | 0.7 | 0.2 | 0.1 |
2 | 0.2 | 0.3 | 0.8 | 0.9 |
\[ V_{ij} = \frac{\sum_{k=1}^n \gamma_{ik}^m x^{(j)}_k}{\sum_{k=1}^n \gamma_{ik}^m}, \]
где \(\gamma\) — membership value, \(m\) — fuzziness parameter (степень нечеткости кластеров, стандартное значение — от 1.2 до 2), \(x^{(j)}_k\) — координата наблюдения, \(i\) — номер кластера, \(j\) — номера координаты.
Для представленной таблицы координаты центроидов будут таковы:
\[ \begin{split} \mathbf{V}_1 &= (V_{11}, V_{12}) = (1.568, 4.051) \\ \mathbf{V}_1 &= (V_{21}, V_{22}) = (5.350, 8.215) \end{split} \]
Если использовать евклидово расстояние, то для рассматриваемого примера они будут такими:
Кластер | \((1,3)\) | \((2,5)\) | \((4,8)\) | \((7,9)\) |
---|---|---|---|---|
1 | \(d_{11} = 1.2\) | \(d_{21} = 1.04\) | \(d_{31} = 4.63\) | \(d_{41} = 7.34\) |
2 | \(d_{12} = 6.79\) | \(d_{22} = 4.64\) | \(d_{32} = 1.36\) | \(d_{42} = 1.82\) |
\[ \gamma_{pi} = \Bigg( \sum_{j=1}^J \Big( \frac{d_{pi}^2}{d_{pj}^2} \Big) ^{\frac{1}{m-1}} \Bigg)^{-1}, \]
где \(i\) — номер кластера, \(p\) — номер наблюдения, \(d\) — расстояние между наблюдением и центром кластера, \(J\) — количество кластеров, \(m\) — fuzziness parameter.
В рассматриваемом примере получатся такие значения:
Кластер | \((1,3)\) | \((2,5)\) | \((4,8)\) | \((7,9)\) |
---|---|---|---|---|
1 | 0.97 | 0.95 | 0.08 | 0.06 |
2 | 0.03 | 0.05 | 0.92 | 0.94 |
По полученой таблице и определяется структура данных — или её отсутствие.
Антон Ангельгардт
WLM 2023