TensorFlow MNIST For ML Beginnersの認識結果を可視化で確認する
今更感がありますが、TensorFlow MNIST For ML Beginnersのチュートリアルを実施してみたので、その学習結果、認識結果を画像の可視化で確認できるコードをメモしておきます。
Contents
手書き数字の学習
まず手書き数字を学習させるところから。
これは腐るほどたくさんの解説があちこちで見られるのでコードを掲載するだけにとどめます。
一応、可視化させるための「matplotlib」をインポートする必要があるので、それを最初に宣言しておきます。
#!/usr/bin/env python
# -*- coding: utf-8 -*-
from matplotlib import pyplot as plt
from matplotlib import cm
import numpy as np
import tensorflow as tf
from tensorflow.examples.tutorials.mnist import input_data
mnist = input_data.read_data_sets("MNIST_data/", one_hot=True)
x = tf.placeholder(tf.float32, [None, 784])
W = tf.Variable(tf.zeros([784, 10]))
b = tf.Variable(tf.zeros([10]))
y = tf.nn.softmax(tf.matmul(x, W) + b)
y_ = tf.placeholder(tf.float32, [None, 10])
cross_entropy = -tf.reduce_sum(y_*tf.log(y))
train_step = tf.train.GradientDescentOptimizer(0.001).minimize(cross_entropy)
init = tf.initialize_all_variables()
sess = tf.Session()
sess.run(init)
for i in range(1000):
batch_xs, batch_ys = mnist.train.next_batch(100)
sess.run(train_step, feed_dict={x: batch_xs, y_: batch_ys})
correct_prediction = tf.equal(tf.argmax(y,1), tf.argmax(y_,1))
accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))
print(sess.run(accuracy, feed_dict={x: mnist.test.images, y_: mnist.test.labels}))
とりあえず結果は以下のようになります。
Extracting MNIST_data/train-images-idx3-ubyte.gz Extracting MNIST_data/train-labels-idx1-ubyte.gz Extracting MNIST_data/t10k-images-idx3-ubyte.gz Extracting MNIST_data/t10k-labels-idx1-ubyte.gz 0.9098
matplotlibで可視化
次に、実際にテストデータとしてどんな手書き数字が用いられているのかと、その手書き数字に対してどのような回答を出したかを確認してみます。
上記に続いて以下のコードを書くことで、テストデータの配列の最初から20番目までの回答結果がターミナルに出力されます。
for i in range(20):
print(str(i+1)+"番目:"+str(sess.run(tf.argmax(y, 1), feed_dict={x: [mnist.test.images[i]]})))
出力は以下のようになりました。
1番目に対しては「7」、2番目のテストデータに対しては「2」と回答しています。
1番目:[7] 2番目:[2] 3番目:[1] 4番目:[0] 5番目:[4] 6番目:[1] 7番目:[4] 8番目:[9] 9番目:[6] 10番目:[9] 11番目:[0] 12番目:[6] 13番目:[9] 14番目:[0] 15番目:[1] 16番目:[5] 17番目:[9] 18番目:[7] 19番目:[3] 20番目:[4]
では実際のテストデータの手書き画像はどんなものでしょうか。
以下のコードで、1番目から20番目までの手書き画像が表示されます。
X = mnist.test.images
y = mnist.test.labels
# Xにテストデータ画像55000点を格納、yにその画像が実際にどの数字を表しているかのデータを格納。
for i in range(20):
plt.subplot(5, 5, i + 1)
# テスト画像データを 一行に5枚表示されるようにする
plt.imshow(X[i].reshape(28, 28))
#画像データを28*28ピクセルの画像で表示
plt.axis("off")
for index, j in enumerate(y[i]):
if j == 1:
plt.title(index, fontsize=20, color="yellow")
#ラベルデータは10個の配列でできており、正答の数字以外は0、正答は1のフラグが立っているので、1の部分だけを抽出して表示。
plt.show()
結果は以下。
ぱっと見全体的に合っているようですが、9番目の手書き数字が「5」であるのに対し、訓練結果では「6」と誤答している模様。
確かに画像では6の特徴があるようにも見えるので紛らわしいです。
というわけで視覚的に訓練結果を軽く確認することをやってみました。
まだまだディープラーニングの入り口にしかいないので、もっと色々といじってみたいです。
