add static word vectors version

practicingman · practicingman · commit 8ec9bdded469 · 2018-12-29T16:35:57.000+08:00
diff --git a/.gitignore b/.gitignore
@@ -102,3 +102,6 @@ trees
 
 # pycharm
 .idea
+
+#word2vec
+sgns.zhihu.word  
diff --git a/README.md b/README.md
@@ -18,6 +18,6 @@ python3 main.py
 ```
 
 ## 结构
--[x] CNN-non-static
--[ ] CNN-static
+-[x] CNN-non-static 随机初始化Embedding
+-[x] CNN-static 使用预训练的静态词向量
 -[ ] CNN-multichannel
diff --git a/main.py b/main.py
@@ -1,6 +1,8 @@
 import argparse
 import torch
 import torchtext.data as data
+from torchtext.vocab import Vectors
+
 import model
 import train
 import dataset
@@ -14,7 +16,6 @@
                     help='how many steps to wait before logging training status [default: 1]')
 parser.add_argument('-test-interval', type=int, default=100,
                     help='how many steps to wait before testing [default: 100]')
-parser.add_argument('-save-interval', type=int, default=500, help='how many steps to wait before saving [default:500]')
 parser.add_argument('-save-dir', type=str, default='snapshot', help='where to save the snapshot')
 parser.add_argument('-early-stopping', type=int, default=1000,
                     help='iteration numbers to stop without performance increasing')
@@ -26,6 +27,12 @@
 parser.add_argument('-filter-num', type=int, default=100, help='number of each size of filter')
 parser.add_argument('-filter-sizes', type=str, default='3,4,5',
                     help='comma-separated filter sizes to use for convolution')
+
+parser.add_argument('-static', type=bool, default=False, help='whether to use static pre-trained word vectors')
+parser.add_argument('-pretrained-name', type=str, default='sgns.zhihu.word',
+                    help='filename of pre-trained word vectors')
+parser.add_argument('-pretrained-path', type=str, default='pretrained', help='path of pre-trained word vectors')
+
 # device
 parser.add_argument('-device', type=int, default=-1, help='device to use for iterate data, -1 mean cpu [default: -1]')
 
@@ -34,9 +41,18 @@
 args = parser.parse_args()
 
 
-def load_dataset(text_field, label_field, **kwargs):
+def load_word_vectors(model_name, model_path):
+    vectors = Vectors(name=model_name, cache=model_path)
+    return vectors
+
+
+def load_dataset(text_field, label_field, args, **kwargs):
     train_dataset, dev_dataset = dataset.get_dataset('data', text_field, label_field)
-    text_field.build_vocab(train_dataset, dev_dataset)
+    if args.static and args.pretrained_name and args.pretrained_path:
+        vectors = load_word_vectors(args.pretrained_name, args.pretrained_path)
+        text_field.build_vocab(train_dataset, dev_dataset, vectors=vectors)
+    else:
+        text_field.build_vocab(train_dataset, dev_dataset)
     label_field.build_vocab(train_dataset, dev_dataset)
     train_iter, dev_iter = data.Iterator.splits(
         (train_dataset, dev_dataset),
@@ -46,19 +62,24 @@ def load_dataset(text_field, label_field, **kwargs):
     return train_iter, dev_iter
 
 
-print("Loading data...")
+print('Loading data...')
 text_field = data.Field(lower=True)
 label_field = data.Field(sequential=False)
-train_iter, dev_iter = load_dataset(text_field, label_field, device=-1, repeat=False, shuffle=True)
+train_iter, dev_iter = load_dataset(text_field, label_field, args, device=-1, repeat=False, shuffle=True)
 
 args.vocabulary_size = len(text_field.vocab)
+if args.static:
+    args.embedding_dim = text_field.vocab.vectors.size()[-1]
+    args.vectors = text_field.vocab.vectors
 args.class_num = len(label_field.vocab)
 args.cuda = args.device != -1 and torch.cuda.is_available()
 args.filter_sizes = [int(size) for size in args.filter_sizes.split(',')]
 
-print("Parameters:")
+print('Parameters:')
 for attr, value in sorted(args.__dict__.items()):
-    print("\t{}={}".format(attr.upper(), value))
+    if attr in {'vectors'}:
+        continue
+    print('\t{}={}'.format(attr.upper(), value))
 
 text_cnn = model.TextCNN(args)
 if args.snapshot:
diff --git a/model.py b/model.py
@@ -8,14 +8,17 @@ def __init__(self, args):
         super(TextCNN, self).__init__()
         self.args = args
 
-        vocabulary_size = args.vocabulary_size
-        embedding_dimension = args.embedding_dim
         class_num = args.class_num
         chanel_num = 1
         filter_num = args.filter_num
         filter_sizes = args.filter_sizes
 
+        vocabulary_size = args.vocabulary_size
+        embedding_dimension = args.embedding_dim
         self.embedding = nn.Embedding(vocabulary_size, embedding_dimension)
+        if args.static:
+            self.embedding = self.embedding.from_pretrained(args.vectors)
+
         self.convs = nn.ModuleList(
             [nn.Conv2d(chanel_num, filter_num, (size, embedding_dimension)) for size in filter_sizes])
         self.dropout = nn.Dropout(args.dropout)
diff --git a/train.py b/train.py
@@ -43,8 +43,8 @@ def train(train_iter, dev_iter, model, args):
                         save(model, args.save_dir, 'best', steps)
                 else:
                     if steps - last_step >= args.early_stopping:
-                        print('\nearly stop by {} steps.'.format(args.early_stopping))
-                        break
+                        print('\nearly stop by {} steps, acc: {:.4f}%'.format(args.early_stopping, best_acc))
+                        raise KeyboardInterrupt
 
 
 def eval(data_iter, model, args):