initial

Vadik Alperovich · Vadik Alperovich · commit 47d864748013 · 2020-11-19T00:21:00.000+03:00
diff --git a/README.md b/README.md
@@ -1 +1,73 @@
-# hashing-algorithms
+# hashing-algorithms
+
+## Лабораторная работа №1 Построение идеальной хеш-таблицы (без коллизий).
+Целью данной работы является сравнение следующих подходов:
+1) Квадратичный подход к построению идеальной хеш-таблицы; (см. Кормен, 3-е издание,
+11.5 Идеальное хеширование, или видео запись)
+2) Двух-уровневый подход к построению идеальной хеш-таблицы; (см. Кормен, 3-е издание,
+11.5 Идеальное хеширование, или видео запись)
+3) (опционально) Графовый подход к построению идеальной хеш-таблицы
+(см. https://habrahabr.ru/post/254431/, вот исходная статья, обязательно посмотрите
+http://cmph.sourceforge.net/papers/chm92.pdf).
+Что измеряется?
+1) Время построения хеш-таблицы;
+2) Время операции поиска элемента;
+3) Затрачиваемая память
+Замечание: В качестве хеш-функций используйте только функции из универсальных
+семейств, про них рассказывалось на семинарах. Список универсальных хеш-функций
+можно найти здесь https://en.wikipedia.org/wiki/Universal_hashing.
+Замечание: Для двух-уровневой хеш-таблицы нужно обязательно провести эксперименты с
+разлиными значениями параметров, разобраться как различные значения параметров влияют
+на производительность и найти оптимальный выбор параметров. Без этих экспериментов
+работа не будет зачтена. Про какие именно параметры идет речь смотрите в записи лекции.
+Входные данные:
+a) Случайные натуральные числа.
+б) Случайные вектора или строки.
+с) Очень бы хотелось увидеть как поведут себя таблицы на real life данных, например на
+словарях или словах какого нибудь литературного произведения.
+Ваш вывод должен содержать:
+1) Графики сравнения скорости построения и количества занимаемой памяти для подхода 1)
+при различных значениях параметров. Выбор оптимального, с Вашей точки зрения, набора
+параметров.
+2) График сравнения скорости построения хеш-таблиц для подходов 1) 2) 3), причем для
+подхода 2) нужно использовать оптимальный набор параметров.
+3) График сравнения скорости поиска для обоих подходов.
+4) Все графики нужно продублировать, если Вы используете разные входные данные:
+случайные строки и real life данные.
+Итого, должно быть как минимум 4 картинки с несколькими кривыми на каждой.
+
+## Лабораторная работа № 2. Сравнение различных подходов к хешированию.
+Целью данной работы является сравнение различных методов борьбы с коллизиями:
+1) Метод цепочек;
+2) Метод открытой адресации (см. Кормен, 3-е издание, 11.4 Открытая адреация);
+3) Метод кукушки (см. https://en.wikipedia.org/wiki/Cuckoo_hashing).
+4) Для интереса, предлагается также сделать сравнения со стандартными средствами языка
+c++: std::map, std::hash_map. Вдруг получится их обогнать.
+Замечание: В качестве хеш-функций используйте только функции из универсальных
+семейств, про них рассказывалось на семинарах. Список универсальных хеш-функций
+можно найти здесь https://en.wikipedia.org/wiki/Universal_hashing.
+Что измеряется?
+1) Время вставки;
+2) Время удаления;
+3) Время поиска.
+Более конкретно об измерении:
+Нужно выбрать какое-то стартовое значение N, скажем 100, выбрать шаг step, скажем пусть
+step = 100, и выбрать максимальное значение, скажем 100 000. После чего нужно для каждого
+N с шагом step от минимального значения до максимального построить таблицу размера N
+(из случайных элементов, или сделать выборку из заранее подготовленной базы) и
+произвести одну или несколько операций (если несколько, скажем 10, то нужно усреднить).
+Измеряем именно время одной операции. Некоторые допускают ошибку и делают N вставок
+с замером времени, но не понятно, что в итоге Вы измерили.
+Входные данные:
+a) Случайные натуральные числа.
+б) Случайные вектора или строки.
+с) Очень бы хотелось увидеть как поведут себя таблицы на real life данных, например на
+словарях или словах какого нибудь литературного произведения.
+Ваш вывод должен содержать:
+1) График зависимости скорости вставки от количества элементов в таблице;
+2) График зависимости скорости удаления от количества элементов в таблице;
+3) График зависимости скорости поиска от количества элементов в таблице;
+На каждом графике должно быть несколько кривых, по одной или больше для каждого
+подхода. Заметим также, что таблицы из подходов 1) и 2) имеют дополнительный параметр m
+– ёмкость таблицы. Хорошо бы построить на графиках кривые для разных значений m,
+например m = 2n, m = n, m = ½ n. Но это не обязательно.
diff --git a/laby_ara_new_2.pdf b/laby_ara_new_2.pdf
diff --git a/report.ipynb b/report.ipynb
@@ -0,0 +1,132 @@
+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## Лабораторная работа №1\n",
+    "\n",
+    "Седунов Илья,<br>\n",
+    "Альперович Вадим,<br>\n",
+    "17ПМИ"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### Целью данной работы является сравнение следующих подходов:\n",
+    "\n",
+    "1) **Квадратичный подход** к построению идеальной хеш-таблицы; (см. Кормен, 3-е издание,\n",
+    "11.5 Идеальное хеширование, или видео запись)\n",
+    "\n",
+    "2) **Двух-уровневый подход** к построению идеальной хеш-таблицы; (см. Кормен, 3-е издание,\n",
+    "11.5 Идеальное хеширование, или видео запись)\n",
+    "\n",
+    "3) (опционально) **Графовый подход** к построению идеальной хеш-таблицы\n",
+    "(см. https://habrahabr.ru/post/254431/, вот исходная статья, обязательно посмотрите\n",
+    "http://cmph.sourceforge.net/papers/chm92.pdf). "
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### Что измеряется?\n",
+    "\n",
+    "1) Время построения хеш-таблицы;\n",
+    "\n",
+    "2) Время операции поиска элемента;\n",
+    "\n",
+    "3) Затрачиваемая память"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "**Замечание:** В качестве хеш-функций используйте только функции из универсальных\n",
+    "семейств, про них рассказывалось на семинарах. Список универсальных хеш-функций\n",
+    "можно найти здесь https://en.wikipedia.org/wiki/Universal_hashing.\n",
+    "    \n",
+    "**Замечание:** Для двух-уровневой хеш-таблицы нужно обязательно провести эксперименты с\n",
+    "разлиными значениями параметров, разобраться как различные значения параметров влияют\n",
+    "на производительность и найти оптимальный выбор параметров. Без этих экспериментов\n",
+    "работа не будет зачтена. Про какие именно параметры идет речь смотрите в записи лекции"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### Входные данные:\n",
+    "\n",
+    "a) Случайные натуральные числа.\n",
+    "\n",
+    "б) Случайные вектора или строки.\n",
+    "\n",
+    "с) Очень бы хотелось увидеть как поведут себя таблицы на real life данных, например на\n",
+    "словарях или словах какого нибудь литературного произведения."
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### Ваш вывод должен содержать:\n",
+    "\n",
+    "1) Графики сравнения скорости построения и количества занимаемой памяти для подхода 1)\n",
+    "при различных значениях параметров. Выбор оптимального, с Вашей точки зрения, набора\n",
+    "параметров.\n",
+    "\n",
+    "2) График сравнения скорости построения хеш-таблиц для подходов 1) 2) 3), причем для\n",
+    "подхода 2) нужно использовать оптимальный набор параметров.\n",
+    "\n",
+    "3) График сравнения скорости поиска для обоих подходов.\n",
+    "\n",
+    "4) Все графики нужно продублировать, если Вы используете разные входные данные:\n",
+    "случайные строки и real life данные.\n",
+    "\n",
+    "Итого, должно быть как минимум 4 картинки с несколькими кривыми на каждой."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import numpy as np\n",
+    "import pandas as pd"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.7.7"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 4
+}