Втрати та точність валідації залишаються постійними


12

Я намагаюся реалізувати цей документ на наборі медичних зображень. Я роблю це в Керасі. Мережа, по суті, складається з 4 шарів conv і max-пулу з подальшим повністю пов'язаним шаром і м'яким класифікатором max.

Наскільки я знаю, я дотримувався архітектури, згаданої в роботі. Однак втрати та точність перевірки просто залишаються рівними протягом усього часу. Здається, точність фіксується на рівні ~ 57,5%.

Будемо дуже вдячні за будь-яку допомогу, де я можу помилитися.

Мій код:

from keras.models import Sequential
from keras.layers import Activation, Dropout, Dense, Flatten  
from keras.layers import Convolution2D, MaxPooling2D
from keras.optimizers import SGD
from keras.utils import np_utils
from PIL import Image
import numpy as np
from sklearn.utils import shuffle
from sklearn.cross_validation import train_test_split
import theano
import os
import glob as glob
import cv2
from matplotlib import pyplot as plt

nb_classes = 2
img_rows, img_cols = 100,100
img_channels = 3


#################### DATA DIRECTORY SETTING######################

data = '/home/raghuram/Desktop/data'
os.chdir(data)
file_list = os.listdir(data)
##################################################################

## Test lines
#I = cv2.imread(file_list[1000])
#print np.shape(I)
####
non_responder_file_list = glob.glob('0_*FLAIR_*.png')
responder_file_list = glob.glob('1_*FLAIR_*.png')
print len(non_responder_file_list),len(responder_file_list)

labels = np.ones((len(file_list)),dtype = int)
labels[0:len(non_responder_file_list)] = 0
immatrix = np.array([np.array(cv2.imread(data+'/'+image)).flatten() for image in file_list])
#img = immatrix[1000].reshape(100,100,3)
#plt.imshow(img,cmap = 'gray')


data,Label = shuffle(immatrix,labels, random_state=2)
train_data = [data,Label]
X,y = (train_data[0],train_data[1])
# Also need to look at how to preserve spatial extent in the conv network
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=4)
X_train = X_train.reshape(X_train.shape[0], 3, img_rows, img_cols)
X_test = X_test.reshape(X_test.shape[0], 3, img_rows, img_cols)
X_train = X_train.astype('float32')
X_test = X_test.astype('float32')

X_train /= 255
X_test /= 255

Y_train = np_utils.to_categorical(y_train, nb_classes)
Y_test = np_utils.to_categorical(y_test, nb_classes)

model = Sequential()

## First conv layer and its activation followed by the max-pool layer#
model.add(Convolution2D(16,5,5, border_mode = 'valid', subsample = (1,1), init = 'glorot_normal',input_shape = (3,100,100))) # Glorot normal is similar to Xavier initialization
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size = (2,2),strides = None))
# Output is 48x48

print 'First layer setup'
###########################Second conv layer#################################
model.add(Convolution2D(32,3,3,border_mode = 'same', subsample = (1,1),init = 'glorot_normal'))
model.add(Activation('relu'))
model.add(Dropout(0.6))
model.add(MaxPooling2D(pool_size = (2,2),strides = None))
#############################################################################

print ' Second layer setup'
# Output is 2x24

##########################Third conv layer###################################
model.add(Convolution2D(64,3,3, border_mode = 'same', subsample = (1,1), init = 'glorot_normal'))
model.add(Activation('relu'))
model.add(Dropout(0.6))
model.add(MaxPooling2D(pool_size = (2,2),strides = None))
#############################################################################
# Output is 12x12

print ' Third layer setup'
###############################Fourth conv layer#############################
model.add(Convolution2D(128,3,3, border_mode = 'same', subsample = (1,1), init = 'glorot_normal'))
model.add(Activation('relu'))
model.add(Dropout(0.6))
model.add(MaxPooling2D(pool_size = (2,2),strides = None))
############################################################################# 

print 'Fourth layer setup'

# Output is 6x6x128
# Create the FC layer of size 128x6x6#
model.add(Flatten()) 
model.add(Dense(2,init = 'glorot_normal',input_dim = 128*6*6))
model.add(Dropout(0.6))
model.add(Activation('softmax'))

print 'Setting up fully connected layer'
print 'Now compiling the network'
sgd = SGD(lr=0.01, decay=1e-4, momentum=0.6, nesterov=True)
model.compile(loss = 'mse',optimizer = 'sgd', metrics=['accuracy'])

# Fit the network to the data#
print 'Network setup successfully. Now fitting the network to the data'
model. fit(X_train,Y_train,batch_size = 100, nb_epoch = 20, validation_split = None,verbose = 1)
print 'Testing'
loss,accuracy = model.evaluate(X_test,Y_test,batch_size = 32,verbose = 1)
print "Test fraction correct (Accuracy) = {:.2f}".format(accuracy)

Чи знижується втрата тренувань?
Ян ван дер Вегт

Ні, втрати тренувань також залишаються постійними протягом усього часу.
Рагурам

Ви не встановили жодних даних перевірки або validation_split у своєму придатному дзвінку, для чого це підтверджуватиметься? Або ти мав на увазі тест?
Ян ван дер Вегт

Це після експериментів навколо. Я встановив validation_split = 0,2 перед тим, як встановити його на None, і також експериментував з цим.
Рагурам

2
Чи можете ви підходити до однієї партії багато разів, щоб побачити, чи зможете ви зменшити втрату тренувань?
Ян ван дер Вегт

Відповіді:


4

Здається, що ви використовуєте MSE як функцію втрати, з огляду на папері здається, що вони використовують NLL (перехресна ентропія), MSE вважається схильним чутливим до дисбалансу даних серед інших питань, і це може бути причиною проблеми досвід, я б спробував тренуватися з використанням втрати categorical_crossentropy у вашому випадку, більше того, рівень навчання 0,01 здається занадто великим, я б спробував пограти з ним і спробувати 0,001 або навіть 0,0001


2

Хоча я тут трохи запізнююся, я хотів би поставити свої два центи, оскільки це допомогло мені вирішити подібне питання останнім часом. Що мені допомогло допомогти - це масштабування функцій у (0,1) діапазоні, крім категоричної крос-ентропійної втрати. Тим не менш, варто сказати, що масштабування функцій допомагає лише в тому випадку, якщо функції належать до різних метрик і мають більше варіацій (в порядку величин) відносно один одного, як у моєму випадку. Крім того, масштабування може бути дуже корисним, якщо використовувати hingeвтрати, оскільки класифікатори максимальної маржі, як правило, чутливі до відстаней серед значень функції. Сподіваюся, це допоможе майбутнім відвідувачам!

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.