alokkumary2j
diff --git a/‎BayesSemanticAnalyzer.ipynb
+392 b/‎BayesSemanticAnalyzer.ipynb
+392
@@ -0,0 +1,392 @@
+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "metadata": {
+    "collapsed": false
+   },
+   "outputs": [],
+   "source": [
+    "import collections\n",
+    "import nltk.classify.util, nltk.metrics\n",
+    "from nltk.classify import NaiveBayesClassifier\n",
+    "from nltk.corpus import movie_reviews\n",
+    "from nltk.metrics import scores\n",
+    "from nltk import precision"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "metadata": {
+    "collapsed": false
+   },
+   "outputs": [],
+   "source": [
+    "def evaluate_classifier(featx,collocationFunc):\n",
+    "    #negFiles = movie_reviews.fileids('neg')\n",
+    "    #posFiles = movie_reviews.fileids('pos')\n",
+    "    #negWordsList=[movie_reviews.words(fileids=[f]) for f in negFiles]\n",
+    "    #posWordsList=[movie_reviews.words(fileids=[f]) for f in posFiles]\n",
+    "    #negfeats = [(featx(negWords), 'neg') for negWords in negWordsList]\n",
+    "    #posfeats = [(featx(posWords), 'pos') for posWords in posWordsList]\n",
+    "\n",
+    "    negids = movie_reviews.fileids('neg')\n",
+    "    posids = movie_reviews.fileids('pos')\n",
+    " \n",
+    "    negfeats = [(featx(movie_reviews.words(fileids=[f]),collocationFunc), 'neg') for f in negids]\n",
+    "    posfeats = [(featx(movie_reviews.words(fileids=[f]),collocationFunc), 'pos') for f in posids]\n",
+    "\n",
+    "    negcutoff = int(len(negfeats)*3/4)\n",
+    "    poscutoff = int(len(posfeats)*3/4)\n",
+    " \n",
+    "    trainfeats = negfeats[:negcutoff] + posfeats[:poscutoff]\n",
+    "    testfeats = negfeats[negcutoff:] + posfeats[poscutoff:]\n",
+    " \n",
+    "    classifier = NaiveBayesClassifier.train(trainfeats)\n",
+    "    refsets = collections.defaultdict(set)\n",
+    "    testsets = collections.defaultdict(set)\n",
+    " \n",
+    "    for i, (feats, label) in enumerate(testfeats):\n",
+    "            refsets[label].add(i)\n",
+    "            observed = classifier.classify(feats)\n",
+    "            testsets[observed].add(i)\n",
+    "    evaluationMetrics={}\n",
+    "    classifier.show_most_informative_features()\n",
+    "    evaluationMetrics['accuracy']=nltk.classify.util.accuracy(classifier, testfeats)\n",
+    "    evaluationMetrics['posPrec']=nltk.precision(refsets['pos'], testsets['pos'])\n",
+    "    evaluationMetrics['posRecall']=nltk.recall(refsets['pos'], testsets['pos'])\n",
+    "    evaluationMetrics['posF_Score']=nltk.f_measure(refsets['pos'], testsets['pos'])\n",
+    "    evaluationMetrics['negPrec']=nltk.precision(refsets['neg'], testsets['neg'])\n",
+    "    evaluationMetrics['negRecall']=nltk.recall(refsets['neg'], testsets['neg'])\n",
+    "    evaluationMetrics['negF_Score']=nltk.f_measure(refsets['neg'], testsets['neg'])\n",
+    "    return evaluationMetrics"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 3,
+   "metadata": {
+    "collapsed": false
+   },
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Most Informative Features\n",
+      "             magnificent = True              pos : neg    =     15.0 : 1.0\n",
+      "             outstanding = True              pos : neg    =     13.6 : 1.0\n",
+      "               insulting = True              neg : pos    =     13.0 : 1.0\n",
+      "              vulnerable = True              pos : neg    =     12.3 : 1.0\n",
+      "               ludicrous = True              neg : pos    =     11.8 : 1.0\n",
+      "                  avoids = True              pos : neg    =     11.7 : 1.0\n",
+      "             uninvolving = True              neg : pos    =     11.7 : 1.0\n",
+      "             fascination = True              pos : neg    =     10.3 : 1.0\n",
+      "              astounding = True              pos : neg    =     10.3 : 1.0\n",
+      "                 idiotic = True              neg : pos    =      9.8 : 1.0\n"
+     ]
+    }
+   ],
+   "source": [
+    "from nltk.corpus import stopwords\n",
+    "stopset = set(stopwords.words('english'))\n",
+    "evaluations=[] \n",
+    "def stopword_filtered_word_feats(words,collocator):\n",
+    "    return dict([(word, True) for word in words if word not in stopset])\n",
+    "evaluations.append(evaluate_classifier(stopword_filtered_word_feats,None)) "
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 4,
+   "metadata": {
+    "collapsed": false,
+    "scrolled": true
+   },
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Most Informative Features\n",
+      "             magnificent = True              pos : neg    =     15.0 : 1.0\n",
+      "             outstanding = True              pos : neg    =     13.6 : 1.0\n",
+      "               insulting = True              neg : pos    =     13.0 : 1.0\n",
+      "       ('matt', 'damon') = True              pos : neg    =     12.3 : 1.0\n",
+      "          ('give', 'us') = True              neg : pos    =     12.3 : 1.0\n",
+      "              vulnerable = True              pos : neg    =     12.3 : 1.0\n",
+      "               ludicrous = True              neg : pos    =     11.8 : 1.0\n",
+      "             uninvolving = True              neg : pos    =     11.7 : 1.0\n",
+      "                  avoids = True              pos : neg    =     11.7 : 1.0\n",
+      "    ('absolutely', 'no') = True              neg : pos    =     10.6 : 1.0\n",
+      "Most Informative Features\n",
+      "             magnificent = True              pos : neg    =     15.0 : 1.0\n",
+      "             outstanding = True              pos : neg    =     13.6 : 1.0\n",
+      "               insulting = True              neg : pos    =     13.0 : 1.0\n",
+      "       ('matt', 'damon') = True              pos : neg    =     12.3 : 1.0\n",
+      "          ('give', 'us') = True              neg : pos    =     12.3 : 1.0\n",
+      "              vulnerable = True              pos : neg    =     12.3 : 1.0\n",
+      "               ludicrous = True              neg : pos    =     11.8 : 1.0\n",
+      "             uninvolving = True              neg : pos    =     11.7 : 1.0\n",
+      "                  avoids = True              pos : neg    =     11.7 : 1.0\n",
+      "    ('absolutely', 'no') = True              neg : pos    =     10.6 : 1.0\n",
+      "Most Informative Features\n",
+      "             magnificent = True              pos : neg    =     15.0 : 1.0\n",
+      "             outstanding = True              pos : neg    =     13.6 : 1.0\n",
+      "               insulting = True              neg : pos    =     13.0 : 1.0\n",
+      "       ('matt', 'damon') = True              pos : neg    =     12.3 : 1.0\n",
+      "              vulnerable = True              pos : neg    =     12.3 : 1.0\n",
+      "               ludicrous = True              neg : pos    =     11.8 : 1.0\n",
+      "        ('the', 'worst') = True              neg : pos    =     11.7 : 1.0\n",
+      "             uninvolving = True              neg : pos    =     11.7 : 1.0\n",
+      "                  avoids = True              pos : neg    =     11.7 : 1.0\n",
+      "          ('give', 'us') = True              neg : pos    =     11.0 : 1.0\n"
+     ]
+    }
+   ],
+   "source": [
+    "#Bigram Collocations- Handle Cases like “not good”, here B-O-W Approach will Fail\n",
+    "import itertools\n",
+    "from nltk.collocations import BigramCollocationFinder\n",
+    "from nltk.metrics import BigramAssocMeasures\n",
+    " \n",
+    "def bigram_word_feats(words, score_fn, n=200):\n",
+    "    bigram_finder = BigramCollocationFinder.from_words(words)\n",
+    "    bigrams = bigram_finder.nbest(score_fn, n)\n",
+    "    return dict([(ngram, True) for ngram in itertools.chain(words, bigrams)])\n",
+    " \n",
+    "evaluations.append(evaluate_classifier(bigram_word_feats,BigramAssocMeasures.chi_sq))#Works best for this Data\n",
+    "evaluations.append(evaluate_classifier(bigram_word_feats,BigramAssocMeasures.jaccard))\n",
+    "evaluations.append(evaluate_classifier(bigram_word_feats,BigramAssocMeasures.likelihood_ratio))"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "metadata": {
+    "collapsed": true
+   },
+   "outputs": [],
+   "source": [
+    "negFids = movie_reviews.fileids('neg')\n",
+    "posFids = movie_reviews.fileids('pos')"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 6,
+   "metadata": {
+    "collapsed": false
+   },
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "1583820 39768 [(',', 77717), ('the', 76529), ('.', 65876), ('a', 38106), ('and', 35576), ('of', 34123), ('to', 31937), (\"'\", 30585), ('is', 25195), ('in', 21822), ('s', 18513), ('\"', 17612), ('it', 16107), ('that', 15924), ('-', 15595), (')', 11781), ('(', 11664), ('as', 11378), ('with', 10792), ('for', 9961)]\n",
+      "1583820 ['neg', 'pos'] dict_items([('neg', FreqDist({',': 42448, 'the': 41471, '.': 33714, 'a': 20196, 'and': 19896, 'of': 18636, 'to': 16517, \"'\": 15268, 'is': 14059, 'in': 11725, ...})), ('pos', FreqDist({',': 35269, 'the': 35058, '.': 32162, 'a': 17910, 'and': 15680, 'of': 15487, 'to': 15420, \"'\": 15317, 'is': 11136, 'in': 10097, ...}))])\n",
+      "751256 832564\n"
+     ]
+    }
+   ],
+   "source": [
+    "from nltk.collocations import *\n",
+    "from nltk.probability import FreqDist\n",
+    "from nltk.probability import ConditionalFreqDist\n",
+    "word_fd = FreqDist()\n",
+    "label_word_fd = ConditionalFreqDist()\n",
+    "\n",
+    "testNegWords = movie_reviews.words(categories=['pos'])\n",
+    "testPosWords = movie_reviews.words(categories=['neg'])\n",
+    "\n",
+    "for word in testNegWords:\n",
+    "    word_fd[word.lower()]+=1\n",
+    "    label_word_fd['neg'][word.lower()]+=1\n",
+    "for word in testPosWords:\n",
+    "    word_fd[word.lower()]+=1\n",
+    "    label_word_fd['pos'][word.lower()]+=1\n",
+    "print(word_fd.N(),word_fd.B(),word_fd.most_common(20))\n",
+    "print(label_word_fd.N(),label_word_fd.conditions(),label_word_fd.items())\n",
+    "print(label_word_fd['pos'].N(),label_word_fd['neg'].N())"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 7,
+   "metadata": {
+    "collapsed": false
+   },
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Most Informative Features\n",
+      "             magnificent = True              pos : neg    =     15.0 : 1.0\n",
+      "             outstanding = True              pos : neg    =     13.6 : 1.0\n",
+      "               insulting = True              neg : pos    =     13.0 : 1.0\n",
+      "              vulnerable = True              pos : neg    =     12.3 : 1.0\n",
+      "               ludicrous = True              neg : pos    =     11.8 : 1.0\n",
+      "                  avoids = True              pos : neg    =     11.7 : 1.0\n",
+      "             uninvolving = True              neg : pos    =     11.7 : 1.0\n",
+      "             fascination = True              pos : neg    =     10.3 : 1.0\n",
+      "              astounding = True              pos : neg    =     10.3 : 1.0\n",
+      "                 idiotic = True              neg : pos    =      9.8 : 1.0\n",
+      "Most Informative Features\n",
+      "             magnificent = True              pos : neg    =     15.0 : 1.0\n",
+      "             outstanding = True              pos : neg    =     13.6 : 1.0\n",
+      "               insulting = True              neg : pos    =     13.0 : 1.0\n",
+      "       ('matt', 'damon') = True              pos : neg    =     12.3 : 1.0\n",
+      "          ('give', 'us') = True              neg : pos    =     12.3 : 1.0\n",
+      "              vulnerable = True              pos : neg    =     12.3 : 1.0\n",
+      "               ludicrous = True              neg : pos    =     11.8 : 1.0\n",
+      "             uninvolving = True              neg : pos    =     11.7 : 1.0\n",
+      "                  avoids = True              pos : neg    =     11.7 : 1.0\n",
+      "    ('absolutely', 'no') = True              neg : pos    =     10.6 : 1.0\n"
+     ]
+    }
+   ],
+   "source": [
+    "# n_ii = label_word_fd[label][word]\n",
+    "# n_ix = word_fd[word]\n",
+    "# n_xi = label_word_fd[label].N()\n",
+    "# n_xx = label_word_fd.N()\n",
+    "#         w1    ~w1\n",
+    "#      ------ ------\n",
+    "#  w2 | n_ii | n_oi | = n_xi\n",
+    "#      ------ ------\n",
+    "# ~w2 | n_io | n_oo |\n",
+    "#     ------ ------\n",
+    "#      =n_ix         TOTAL = n_xx\n",
+    "# A number of measures are available to score collocations or other associations. The arguments to measure \n",
+    "# functions are marginals of a contingency table, in the bigram case (n_ii, (n_ix, n_xi), n_xx):\n",
+    "# n_ii = label_word_fd[label][word]\n",
+    "# n_ix = word_fd[word]\n",
+    "# n_xi = label_word_fd[label].N()\n",
+    "# n_xx = label_word_fd.N()\n",
+    "# Chi-Sq Contingency Table : Relating Word w1 with \"pos\" classification \n",
+    "#         w1    ~w1\n",
+    "#      ------ ------\n",
+    "# +ve | n_ii | n_oi | = n_xi\n",
+    "#      ------ ------\n",
+    "# -ve | n_io | n_oo |\n",
+    "#     ------ ------\n",
+    "#      =n_ix         TOTAL = n_xx\n",
+    "# n_ix : Total Freq of word w1, n_xi: pos_word_count \n",
+    "pos_word_count = label_word_fd['pos'].N()\n",
+    "neg_word_count = label_word_fd['neg'].N()\n",
+    "total_word_count = pos_word_count + neg_word_count\n",
+    " \n",
+    "word_scores = {}\n",
+    "\n",
+    "#print(word_fd.items())\n",
+    "for word, freq in word_fd.items():\n",
+    "    pos_score = BigramAssocMeasures.chi_sq(label_word_fd['pos'][word],(freq, pos_word_count), total_word_count)\n",
+    "    neg_score = BigramAssocMeasures.chi_sq(label_word_fd['neg'][word],(freq, neg_word_count), total_word_count)\n",
+    "    word_scores[word] = pos_score + neg_score\n",
+    "import operator\n",
+    "best1 = sorted(word_scores.items(), key=operator.itemgetter(1), reverse=True)[:10000]\n",
+    "bestwords = set([w for w, s in best1])\n",
+    " \n",
+    "def best_word_feats(words,biGramMeasure):\n",
+    "    return dict([(word, True) for word in words if word in bestwords])\n",
+    " \n",
+    "evaluations.append(evaluate_classifier(best_word_feats,BigramAssocMeasures.chi_sq))\n",
+    " \n",
+    "def best_bigram_word_feats(words, score_fn=BigramAssocMeasures.chi_sq, n=200):\n",
+    "    bigram_finder = BigramCollocationFinder.from_words(words)\n",
+    "    bigrams = bigram_finder.nbest(score_fn, n)\n",
+    "    d = dict([(bigram, True) for bigram in bigrams])\n",
+    "    d.update(best_word_feats(words,score_fn))\n",
+    "    return d\n",
+    "evaluations.append(evaluate_classifier(best_bigram_word_feats,BigramAssocMeasures.chi_sq))"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 8,
+   "metadata": {
+    "collapsed": false
+   },
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "{'posF_Score': 0.7814992025518341, 'negPrec': 0.959349593495935, 'negRecall': 0.472, 'negF_Score': 0.6327077747989276, 'posRecall': 0.98, 'accuracy': 0.726, 'posPrec': 0.649867374005305}\n",
+      "{'posF_Score': 0.8362989323843416, 'negPrec': 0.9202127659574468, 'negRecall': 0.692, 'negF_Score': 0.7899543378995434, 'posRecall': 0.94, 'accuracy': 0.816, 'posPrec': 0.7532051282051282}\n",
+      "{'posF_Score': 0.825, 'negPrec': 0.9, 'negRecall': 0.684, 'negF_Score': 0.7772727272727273, 'posRecall': 0.924, 'accuracy': 0.804, 'posPrec': 0.7451612903225806}\n",
+      "{'posF_Score': 0.8239436619718309, 'negPrec': 0.9120879120879121, 'negRecall': 0.664, 'negF_Score': 0.7685185185185185, 'posRecall': 0.936, 'accuracy': 0.8, 'posPrec': 0.7358490566037735}\n",
+      "{'posF_Score': 0.935114503816794, 'negPrec': 0.9778761061946902, 'negRecall': 0.884, 'negF_Score': 0.9285714285714284, 'posRecall': 0.98, 'accuracy': 0.932, 'posPrec': 0.8941605839416058}\n",
+      "{'posF_Score': 0.9206349206349206, 'negPrec': 0.926829268292683, 'negRecall': 0.912, 'negF_Score': 0.9193548387096776, 'posRecall': 0.928, 'accuracy': 0.92, 'posPrec': 0.9133858267716536}\n"
+     ]
+    }
+   ],
+   "source": [
+    "for modelEvalMetrics in evaluations:\n",
+    "    print(modelEvalMetrics)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 74,
+   "metadata": {
+    "collapsed": false,
+    "scrolled": true
+   },
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "1764\n",
+      "Help on method apply_freq_filter in module nltk.collocations:\n",
+      "\n",
+      "apply_freq_filter(min_freq) method of nltk.collocations.BigramCollocationFinder instance\n",
+      "    Removes candidate ngrams which have frequency less than min_freq.\n",
+      "\n",
+      "1764\n",
+      "JACCARD: [('nice', 'hair'), ('/', '10'), (\"'\", 's'), ('there', 'are'), ('10', ')'), ('television', 'show'), ('we', 'don'), (')', '-'), (\"'\", 't'), ('t', 'know'), ('based', 'on'), ('they', 'are'), ('this', 'film'), ('film', 'is'), ('don', \"'\"), ('most', 'of'), (',', 'but'), ('it', \"'\"), (',', 'and'), ('on', 'a'), ('is', 'not'), ('of', 'course'), ('the', 'film'), ('.', 'it'), ('.', '.'), ('all', 'of'), (\"'\", 've'), ('doesn', \"'\"), ('like', 'a'), ('.', 'the'), ('in', 'a'), (',', 'there'), ('that', 'the'), ('it', 'is'), ('of', 'the'), ('for', 'the'), ('is', 'that'), (',', 'it'), ('the', 'movie'), (')', ','), ('.', 'there'), ('on', 'the'), ('by', 'the'), ('the', 'characters'), ('the', 'audience'), ('and', 'the'), (',', 'as'), ('from', 'the'), (',', 'we'), ('with', 'the'), ('-', 'the'), ('in', 'the')]\n"
+     ]
+    }
+   ],
+   "source": [
+    "#bigramFinder=BigramCollocationFinder.from_words(movRevWords)\n",
+    "#print(bigramFinder.N)\n",
+    "#help(bigramFinder.apply_freq_filter)\n",
+    "#print(bigramFinder.N)\n",
+    "#bigramFinder.apply_freq_filter(3)\n",
+    "#print(\"FREQ BASED:\",bigramFinder.nbest(bigram_measures.raw_freq,30))\n",
+    "#print(\"JACCARD:\",bigramFinder.nbest(bigram_measures.jaccard,30))\n",
+    "#print(\"JACCARD:\",bigramFinder.nbest(bigram_measures.jaccard,-1))\n",
+    "#bestNGrams=bigramFinder.nbest(bigram_measures.jaccard,-1)\n",
+    "#print(\"CHI-SQ:\",bigramFinder.nbest(bigram_measures.chi_sq,30))\n",
+    "#print(\"LIKELIHOOD:\",bigramFinder.nbest(bigram_measures.likelihood_ratio,30))\n",
+    "#biGfinder.apply_freq_filter()"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.5.1"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 0
+}