alokkumary2j
diff --git a/‎MaxEntSemanticAnalysis.ipynb
Lines changed: 256 additions & 0 deletions b/‎MaxEntSemanticAnalysis.ipynb
Lines changed: 256 additions & 0 deletions
@@ -0,0 +1,256 @@
+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "metadata": {
+    "collapsed": true
+   },
+   "outputs": [],
+   "source": [
+    "import collections\n",
+    "import nltk.classify.util, nltk.metrics\n",
+    "from nltk.classify import MaxentClassifier\n",
+    "from nltk.corpus import movie_reviews\n",
+    "from nltk.metrics import scores\n",
+    "from nltk import precision\n",
+    "import itertools\n",
+    "from nltk.collocations import BigramCollocationFinder\n",
+    "from nltk.metrics import BigramAssocMeasures"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "metadata": {
+    "collapsed": true
+   },
+   "outputs": [],
+   "source": [
+    "def evaluate_classifier(featx,collocationFunc):\n",
+    "    #negFiles = movie_reviews.fileids('neg')\n",
+    "    #posFiles = movie_reviews.fileids('pos')\n",
+    "    #negWordsList=[movie_reviews.words(fileids=[f]) for f in negFiles]\n",
+    "    #posWordsList=[movie_reviews.words(fileids=[f]) for f in posFiles]\n",
+    "    #negfeats = [(featx(negWords), 'neg') for negWords in negWordsList]\n",
+    "    #posfeats = [(featx(posWords), 'pos') for posWords in posWordsList]\n",
+    "\n",
+    "    negids = movie_reviews.fileids('neg')\n",
+    "    posids = movie_reviews.fileids('pos')\n",
+    " \n",
+    "    negfeats = [(featx(movie_reviews.words(fileids=[f]),collocationFunc), 'neg') for f in negids]\n",
+    "    posfeats = [(featx(movie_reviews.words(fileids=[f]),collocationFunc), 'pos') for f in posids]\n",
+    "\n",
+    "#    lenNegFeats=min(len(negfeats),24)\n",
+    "#    lenPosFeats=min(len(posfeats),24)\n",
+    "    lenNegFeats=len(negfeats)\n",
+    "    lenPosFeats=len(posfeats)\n",
+    "    negcutoff = int(lenNegFeats*3/4)\n",
+    "    poscutoff = int(lenPosFeats*3/4)\n",
+    " \n",
+    "    trainfeats = negfeats[:negcutoff] + posfeats[:poscutoff]\n",
+    "    testfeats = negfeats[negcutoff:lenNegFeats] + posfeats[poscutoff:lenPosFeats]\n",
+    " \n",
+    "    classifier = MaxentClassifier.train(trainfeats)\n",
+    "    refsets = collections.defaultdict(set)\n",
+    "    testsets = collections.defaultdict(set)\n",
+    " \n",
+    "    for i, (feats, label) in enumerate(testfeats):\n",
+    "            refsets[label].add(i)\n",
+    "            observed = classifier.classify(feats)\n",
+    "            testsets[observed].add(i)\n",
+    "    evaluationMetrics={}\n",
+    "    classifier.show_most_informative_features()\n",
+    "    evaluationMetrics['accuracy']=nltk.classify.util.accuracy(classifier, testfeats)\n",
+    "    evaluationMetrics['posPrec']=nltk.precision(refsets['pos'], testsets['pos'])\n",
+    "    evaluationMetrics['posRecall']=nltk.recall(refsets['pos'], testsets['pos'])\n",
+    "    evaluationMetrics['posF_Score']=nltk.f_measure(refsets['pos'], testsets['pos'])\n",
+    "    evaluationMetrics['negPrec']=nltk.precision(refsets['neg'], testsets['neg'])\n",
+    "    evaluationMetrics['negRecall']=nltk.recall(refsets['neg'], testsets['neg'])\n",
+    "    evaluationMetrics['negF_Score']=nltk.f_measure(refsets['neg'], testsets['neg'])\n",
+    "    return evaluationMetrics"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "metadata": {
+    "collapsed": false
+   },
+   "outputs": [],
+   "source": [
+    "from nltk.corpus import stopwords\n",
+    "stopset = set(stopwords.words('english'))\n",
+    "evaluations=[] \n",
+    "def stopword_filtered_word_feats(words,collocator):\n",
+    "    return dict([(word, True) for word in words if word not in stopset])\n",
+    "#evaluations.append(evaluate_classifier(stopword_filtered_word_feats,None)) "
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 6,
+   "metadata": {
+    "collapsed": true
+   },
+   "outputs": [],
+   "source": [
+    "#Bigram Collocations- Handle Cases like “not good”, here B-O-W Approach will Fail\n",
+    "def bigram_word_feats(words, score_fn, n=200):\n",
+    "    bigram_finder = BigramCollocationFinder.from_words(words)\n",
+    "    bigrams = bigram_finder.nbest(score_fn, n)\n",
+    "    return dict([(ngram, True) for ngram in itertools.chain(words, bigrams)])\n",
+    " \n",
+    "#evaluations.append(evaluate_classifier(bigram_word_feats,BigramAssocMeasures.chi_sq))#Works best for this Data\n",
+    "#evaluations.append(evaluate_classifier(bigram_word_feats,BigramAssocMeasures.jaccard))\n",
+    "#evaluations.append(evaluate_classifier(bigram_word_feats,BigramAssocMeasures.likelihood_ratio))"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 3,
+   "metadata": {
+    "collapsed": false
+   },
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "1583820 39768 [(',', 77717), ('the', 76529), ('.', 65876), ('a', 38106), ('and', 35576), ('of', 34123), ('to', 31937), (\"'\", 30585), ('is', 25195), ('in', 21822), ('s', 18513), ('\"', 17612), ('it', 16107), ('that', 15924), ('-', 15595), (')', 11781), ('(', 11664), ('as', 11378), ('with', 10792), ('for', 9961)]\n",
+      "1583820 ['pos', 'neg'] dict_items([('pos', FreqDist({',': 35269, 'the': 35058, '.': 32162, 'a': 17910, 'and': 15680, 'of': 15487, 'to': 15420, \"'\": 15317, 'is': 11136, 'in': 10097, ...})), ('neg', FreqDist({',': 42448, 'the': 41471, '.': 33714, 'a': 20196, 'and': 19896, 'of': 18636, 'to': 16517, \"'\": 15268, 'is': 14059, 'in': 11725, ...}))])\n",
+      "751256 832564\n"
+     ]
+    }
+   ],
+   "source": [
+    "from nltk.collocations import *\n",
+    "from nltk.probability import FreqDist\n",
+    "from nltk.probability import ConditionalFreqDist\n",
+    "word_fd = FreqDist()\n",
+    "label_word_fd = ConditionalFreqDist()\n",
+    "\n",
+    "testNegWords = movie_reviews.words(categories=['pos'])\n",
+    "testPosWords = movie_reviews.words(categories=['neg'])\n",
+    "\n",
+    "for word in testNegWords:\n",
+    "    word_fd[word.lower()]+=1\n",
+    "    label_word_fd['neg'][word.lower()]+=1\n",
+    "for word in testPosWords:\n",
+    "    word_fd[word.lower()]+=1\n",
+    "    label_word_fd['pos'][word.lower()]+=1\n",
+    "print(word_fd.N(),word_fd.B(),word_fd.most_common(20))\n",
+    "print(label_word_fd.N(),label_word_fd.conditions(),label_word_fd.items())\n",
+    "print(label_word_fd['pos'].N(),label_word_fd['neg'].N())"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {
+    "collapsed": false
+   },
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "  ==> Training (100 iterations)\n",
+      "\n",
+      "      Iteration    Log Likelihood    Accuracy\n",
+      "      ---------------------------------------\n",
+      "             1          -0.69315        0.500"
+     ]
+    }
+   ],
+   "source": [
+    "# n_ii = label_word_fd[label][word]\n",
+    "# n_ix = word_fd[word]\n",
+    "# n_xi = label_word_fd[label].N()\n",
+    "# n_xx = label_word_fd.N()\n",
+    "#         w1    ~w1\n",
+    "#      ------ ------\n",
+    "#  w2 | n_ii | n_oi | = n_xi\n",
+    "#      ------ ------\n",
+    "# ~w2 | n_io | n_oo |\n",
+    "#     ------ ------\n",
+    "#      =n_ix         TOTAL = n_xx\n",
+    "# A number of measures are available to score collocations or other associations. The arguments to measure \n",
+    "# functions are marginals of a contingency table, in the bigram case (n_ii, (n_ix, n_xi), n_xx):\n",
+    "# n_ii = label_word_fd[label][word]\n",
+    "# n_ix = word_fd[word]\n",
+    "# n_xi = label_word_fd[label].N()\n",
+    "# n_xx = label_word_fd.N()\n",
+    "# Chi-Sq Contingency Table : Relating Word w1 with \"pos\" classification \n",
+    "#         w1    ~w1\n",
+    "#      ------ ------\n",
+    "# +ve | n_ii | n_oi | = n_xi\n",
+    "#      ------ ------\n",
+    "# -ve | n_io | n_oo |\n",
+    "#     ------ ------\n",
+    "#      =n_ix         TOTAL = n_xx\n",
+    "# n_ix : Total Freq of word w1, n_xi: pos_word_count \n",
+    "pos_word_count = label_word_fd['pos'].N()\n",
+    "neg_word_count = label_word_fd['neg'].N()\n",
+    "total_word_count = pos_word_count + neg_word_count\n",
+    " \n",
+    "word_scores = {}\n",
+    "\n",
+    "#print(word_fd.items())\n",
+    "for word, freq in word_fd.items():\n",
+    "    pos_score = BigramAssocMeasures.chi_sq(label_word_fd['pos'][word],(freq, pos_word_count), total_word_count)\n",
+    "    neg_score = BigramAssocMeasures.chi_sq(label_word_fd['neg'][word],(freq, neg_word_count), total_word_count)\n",
+    "    word_scores[word] = pos_score + neg_score\n",
+    "import operator\n",
+    "best1 = sorted(word_scores.items(), key=operator.itemgetter(1), reverse=True)[:10000]\n",
+    "bestwords = set([w for w, s in best1])\n",
+    " \n",
+    "def best_word_feats(words,biGramMeasure):\n",
+    "    return dict([(word, True) for word in words if word in bestwords])\n",
+    " \n",
+    "evaluations.append(evaluate_classifier(best_word_feats,BigramAssocMeasures.chi_sq))\n",
+    " \n",
+    "def best_bigram_word_feats(words, score_fn=BigramAssocMeasures.chi_sq, n=200):\n",
+    "    bigram_finder = BigramCollocationFinder.from_words(words)\n",
+    "    bigrams = bigram_finder.nbest(score_fn, n)\n",
+    "    d = dict([(bigram, True) for bigram in bigrams])\n",
+    "    d.update(best_word_feats(words,score_fn))\n",
+    "    return d\n",
+    "#evaluations.append(evaluate_classifier(best_bigram_word_feats,BigramAssocMeasures.chi_sq))"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {
+    "collapsed": true
+   },
+   "outputs": [],
+   "source": [
+    "for modelEvalMetrics in evaluations:\n",
+    "    print(modelEvalMetrics)"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.5.1"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 0
+}