こんにちは。データサイエンスチーム tmtkです。
この記事では、SLIC (Simple Linear Iterative Clustering) を紹介します。紹介にあたって、私がPython 3で実装したものを使って解説していきます。
(今回処理する画像。choco.jpg として保存)


SLIC (Simple Linear Iterative Clustering) とは、画像認識にかかわるアルゴリズムのひとつです。Radhakrishna Achanta, Appu Shaji, Kevin Smith, Aurelien Lucchi, Pascal Fua, and Sabine Süsstrunkらが2010年に発明したようです(文献[1, 3])。



  1. 画像を読み込み、グレースケールやRGB[latex](r, g, b)[/latex]であらわされている値をLab色空間[latex](l, a, b)[/latex]に変換する
  2. 座標[latex](x, y)[/latex]にある色[latex](l, a, b)[/latex]の画素の特徴量として、5次元ユークリッド空間上の点[latex](l, a, b, x, y)[/latex]を使う
  3. 手順2.で得た画素の特徴量の空間に、k平均法の亜種を適用し、クラスタリングを行う



import sys, math
import numpy as np
from skimage import io, color


class SLIC:

コンストラクタで各種パラメータを定義します。[latex]k[/latex]は計算するsuperpixel(クラスタ)の数、[latex]m[/latex]は画素[latex](l, a, b, x, y)[/latex]の距離を計算するとき色成分[latex](l, a, b)[/latex]に比べて近さ成分[latex](x, y)[/latex]をどれだけ重視するかを決めるパラメータです。文献[2]では[latex]1\leq m \leq 40[/latex]で決めるよう書かれているので、デフォルトで[latex]m=20[/latex]とすることにします。

    def __init__(self, k, m = 20):
        """ Constructor.
        k: the number of superpixels.
        m: a parameter to weigh the relative importance of spatial proximity.
        self.k = k
        self.m = m
        self.iter_max = 10 # c.f. the paper.


    def fit(self, img_path):
        """ Calculate superpixels.
        Returns the mask array.
        return self.l


  1. 画像をLab色空間に変換する
  2. 位置[latex](x, y)[/latex]にある色[latex](l, a, b)[/latex]の画素を座標[latex](l, a, b, x, y)[/latex]の点とみなす
    (コンピュータで処理する都合上、座標は[latex](x, y)[/latex]ではなく[latex](height, width)[/latex]という逆転した順番になっています)
  3. [latex]k[/latex]個のクラスタの中心を等間隔に初期化する
  4. [latex]i[/latex]番目の点と最寄のクラスタの中心の距離[latex]d[i][/latex]を[latex]\infty[/latex]に初期化する
  5. クラスタの直径の近似値[latex]S=\sqrt{N/k}[/latex]([latex]N[/latex]は画素数)を計算しておく


    def fit_init(self, img_path):
        Read the image from img_path,
        convert to Lab color space,
        and initialize cluster centers.
        img_rgb = io.imread(img_path)
        if img_rgb.ndim != 3 or img_rgb.shape[2] != 3:
            raise Exception("Non RGB file. The shape was {}.".format(img_rgb.shape))
        img_lab = color.rgb2lab(img_rgb)
        self.height = img_lab.shape[0]
        self.width = img_lab.shape[1]
        self.pixels = []
        for h in range(self.height):
            for w in range(self.width):
                self.pixels.append(np.array([img_lab[h][w][0], img_lab[h][w][1], img_lab[h][w][2], h, w]))
        self.size = len(self.pixels)
        # Initialize cluster centers to be regularly spaced.
        self.cluster_center = []
        k_w = int(math.sqrt(self.k * self.width / self.height)) + 1
        k_h = int(math.sqrt(self.k * self.height / self.width)) + 1
        for h_cnt in range(k_h):
            h = (2 * h_cnt + 1) * self.height // (2 * k_h)
            for w_cnt in range(k_w):
                w = (2 * w_cnt + 1) * self.width // (2 * k_w)
                self.cluster_center.append(self.pixels[h*self.width + w])
        self.k = k_w*k_h
        self.l = [None] * self.size # The cluster labels
        self.d = [math.inf] * self.size # The distance between a pixel and the nearest cluster center
        self.S = int(math.sqrt(self.size/self.k)) # The approximate distance between cluster centers
        self.metric = np.diagflat([1/(self.m**2)]*3 +  [1/(self.S**2)]*2)

各クラスタの中心[latex](l_j, a_j, b_j, x_j, y_j)[/latex]ごとに、[latex]i[/latex]番目の点[latex](l_i, a_i, b_i, x_i, y_i)[/latex]との距離を計算します。その際、中心から[latex]x, y[/latex]の差が[latex]S[/latex]以下(つまり[latex]x_j-S\leq x_i\leq x_j+S, y_j – S \leq y_i \leq y_j + S[/latex])の点のみについて距離を計算します。そして、その距離が記録されている最小距離[latex]d[i][/latex]より小さかった場合、[latex]i[/latex]番目の点は[latex]j[/latex]番目のクラスタに所属する、と更新します。おおむね通常のk平均法と同じですが、クラスタの中心との距離を計算する点が、クラスタの中心の位置と画素の位置が近い点のみに絞られていることが特徴です。
また、距離の定義も通常のユークリッド距離とは別の距離を用います(distance())。点[latex](l_1, a_1, b_1, x_1, y_1)[/latex]と点[latex](l_2, a_2, b_2, x_2, y_2)[/latex]の距離は、[latex]\sqrt{\frac{(l_1-l_2)^2+(a_1-a_2)^2+(b_1-b_2)^2}{m^2}+\frac{(x_1-x_2)^2+(y_1-y_2)^2}{S^2}}[/latex]と定義します。これは、色の尺度[latex](l, a, b)[/latex]と位置の尺度[latex](x, y)[/latex]のスケールが異なるためです。

    def fit_iter(self):
        """ Iteration step.
        for iter_cnt in range(self.iter_max):
            for center_idx, center in enumerate(self.cluster_center):
                for h in range(max(0, int(center[3])-self.S), min(self.height, int(center[3])+self.S)):
                    for w in range(max(0, int(center[4])-self.S), min(self.width, int(center[4])+self.S)):
                        d = self.distance(self.pixels[h*self.width + w], center)
                        if d < self.d[h*self.width + w]:
                            self.d[h*self.width + w] = d
                            self.l[h*self.width + w] = center_idx
    def distance(self, x, y):
        """ Squared distance between x and y.
        return (x-y).dot(self.metric).dot(x-y)
    def calc_new_center(self):
        """ Caluclate new cluster centers.
        cnt = [0] * self.k
        new_cluster_center = [np.array([0., 0., 0., 0. ,0.]) for _ in range(self.k)]
        for i in range(self.size):
            new_cluster_center[self.l[i]] += self.pixels[i]
            cnt[self.l[i]] += 1
        for i in range(self.k):
            new_cluster_center[i] /= cnt[i]
        self.cluster_center = new_cluster_center

ここまでの実装で、 SLIC(k=100).fit("choco.jpg") などとすると座標[latex](x, y)[/latex]ごとに何番目のsuperpixelに所属するのかのラベルの配列が計算できるようになりました。

    def transform(self):
        """ Returns new image RGB ndarray """
        cnt = [0] * self.k
        cluster_color = [np.array([0., 0., 0.]) for _ in range(self.k)]
        for i in range(self.size):
            cluster_color[self.l[i]] += self.pixels[i][:3]
            cnt[self.l[i]] += 1
        for i in range(self.k):
            cluster_color[i] /= cnt[i]
        new_img_lab = np.zeros((self.height, self.width, 3))
        for h in range(self.height):
            for w in range(self.width):
                new_img_lab[h][w] = cluster_color[self.l[h*self.width + w]]
        return color.lab2rgb(new_img_lab)


    slic = SLIC(k = 100)"choco.jpg")
    res = slic.transform()


from skimage import io, segmentation, color
img = io.imread("choco.jpg")
label = segmentation.slic(img, compactness=20)
out = color.label2rgb(label, img, kind = 'avg')
io.imsave("lena_skimage.png", out)



パラメータ[latex]m[/latex]を自動的に決めるSLICOという手法もあります(文献[1, 2])。



  1. Superpixel segmentation | IVRL
  2. Radhakrishna Achanta, Appu Shaji, Kevin Smith, Aurelien Lucchi, Pascal Fua, and Sabine Süsstrunk, SLIC Superpixels Compared to State-of-the-art Superpixel Methods, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 34, num. 11, p. 2274 – 2282, May 2012.
  3. Radhakrishna Achanta, Appu Shaji, Kevin Smith, Aurelien Lucchi, Pascal Fua, and Sabine Süsstrunk, SLIC Superpixels, EPFL Technical Report no. 149300, June 2010.
  4. k平均法 – Wikipedia
  5. Lab色空間 – Wikipedia
  6. バレンタインのチョコレートケーキを焼く女性|ぱくたそフリー素材
  7. scikit-image: Image processing in Python — scikit-image
  8. Normalized Cut — skimage v0.14dev docs

