sissa-data-science
diff --git a/‎examples/notebook_BMTI.ipynb
+24-19 b/‎examples/notebook_BMTI.ipynb
+24-19
diff --git a/‎examples/notebook_beta_hairpin.ipynb
+64-40 b/‎examples/notebook_beta_hairpin.ipynb
+64-40
@@ -44,8 +44,8 @@
    ],
    "source": [
     "# Load a 6 dimensional dataset from the dataset folder\n",
-    "X = np.genfromtxt('datasets/6d_double_well.txt')\n",
-    "true_log_den = np.genfromtxt('datasets/6d_double_well_logdensities_and_grads.txt')[:, 0]\n",
+    "X = np.genfromtxt(\"datasets/6d_double_well.txt\")\n",
+    "true_log_den = np.genfromtxt(\"datasets/6d_double_well_logdensities_and_grads.txt\")[:, 0]\n",
     "\n",
     "# Subsample the dataset for a faster run\n",
     "every = 1\n",
@@ -96,13 +96,13 @@
    "source": [
     "d = DensityAdvanced(X, maxk=1000, verbose=True)\n",
     "\n",
-    "# copute the density using the kNN method  \n",
+    "# copute the density using the kNN method\n",
     "d.compute_density_kNN(k=10)\n",
     "log_den_kNN = d.log_den\n",
     "\n",
     "# Compute the density using the kstarNN method\n",
     "d.compute_density_kstarNN()\n",
-    "log_den_kstarNN = d.log_den \n",
+    "log_den_kstarNN = d.log_den\n",
     "\n",
     "# Compute the density using the BMTI method\n",
     "d.compute_density_BMTI()\n",
@@ -115,11 +115,11 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "# remove the mean to both the true and estimated density \n",
+    "# remove the mean to both the true and estimated density\n",
     "true_log_den = true_log_den - np.mean(true_log_den)\n",
     "log_den_kNN = log_den_kNN - np.mean(log_den_kNN)\n",
     "log_den_kstarNN = log_den_kstarNN - np.mean(log_den_kstarNN)\n",
-    "log_den_BMTI = log_den_BMTI - np.mean(log_den_BMTI)\n"
+    "log_den_BMTI = log_den_BMTI - np.mean(log_den_BMTI)"
    ]
   },
   {
@@ -139,13 +139,13 @@
    ],
    "source": [
     "# compute MSE errors\n",
-    "MSE_kNN = np.mean((log_den_kNN - true_log_den)**2)\n",
-    "MSE_kstarNN = np.mean((log_den_kstarNN - true_log_den)**2)\n",
-    "MSE_BMTI = np.mean((log_den_BMTI - true_log_den)**2)\n",
+    "MSE_kNN = np.mean((log_den_kNN - true_log_den) ** 2)\n",
+    "MSE_kstarNN = np.mean((log_den_kstarNN - true_log_den) ** 2)\n",
+    "MSE_BMTI = np.mean((log_den_BMTI - true_log_den) ** 2)\n",
     "\n",
-    "print('MSE kNN: ', MSE_kNN)\n",
-    "print('MSE kstarNN: ', MSE_kstarNN)\n",
-    "print('MSE BMTI: ', MSE_BMTI)\n"
+    "print(\"MSE kNN: \", MSE_kNN)\n",
+    "print(\"MSE kstarNN: \", MSE_kstarNN)\n",
+    "print(\"MSE BMTI: \", MSE_BMTI)"
    ]
   },
   {
@@ -167,14 +167,19 @@
    "source": [
     "# plot real density vs estimated density\n",
     "plt.figure(figsize=(5, 5))\n",
-    "plt.scatter(true_log_den, log_den_kNN, marker= '.', label='kNN')\n",
-    "plt.scatter(true_log_den, log_den_kstarNN,marker= '.', label='kstarNN')\n",
-    "plt.scatter(true_log_den, log_den_BMTI, marker= '.', label='BMTI',)\n",
-    "plt.plot(true_log_den, true_log_den, 'k--')\n",
-    "plt.xlabel('True log density')\n",
-    "plt.ylabel('Estimated log density')\n",
+    "plt.scatter(true_log_den, log_den_kNN, marker=\".\", label=\"kNN\")\n",
+    "plt.scatter(true_log_den, log_den_kstarNN, marker=\".\", label=\"kstarNN\")\n",
+    "plt.scatter(\n",
+    "    true_log_den,\n",
+    "    log_den_BMTI,\n",
+    "    marker=\".\",\n",
+    "    label=\"BMTI\",\n",
+    ")\n",
+    "plt.plot(true_log_den, true_log_den, \"k--\")\n",
+    "plt.xlabel(\"True log density\")\n",
+    "plt.ylabel(\"Estimated log density\")\n",
     "plt.legend()\n",
-    "plt.tight_layout()\n"
+    "plt.tight_layout()"
    ]
   },
   {
 
@@ -32,13 +32,15 @@
     "import numpy as np\n",
     "import matplotlib.pyplot as plt\n",
     "import seaborn as sns\n",
+    "\n",
     "sns.set_style(\"ticks\")\n",
     "sns.set_context(\"notebook\")\n",
     "\n",
     "from urllib.request import urlretrieve\n",
-    "data_url_dihedrals =\"https://figshare.com/ndownloader/files/36359700\"\n",
+    "\n",
+    "data_url_dihedrals = \"https://figshare.com/ndownloader/files/36359700\"\n",
     "path_dihedrals = \"./cln025traj_dihedrals_decimated_equilibrated.npy\"\n",
-    "data_url_distances =\"https://figshare.com/ndownloader/files/36359697\"\n",
+    "data_url_distances = \"https://figshare.com/ndownloader/files/36359697\"\n",
     "path_distances = \"./cln025traj_distances_decimated_equilibrated.npy\""
    ]
   },
@@ -79,7 +81,7 @@
     }
    ],
    "source": [
-    "#download dihedral representation data from Figshare\n",
+    "# download dihedral representation data from Figshare\n",
     "urlretrieve(data_url_dihedrals, path_dihedrals)"
    ]
   },
@@ -92,9 +94,9 @@
    "source": [
     "all_dihedrals = np.load(path_dihedrals)\n",
     "# dihedral names in order:\n",
-    "# phi1 phi2 phi3 phi4 phi5 phi6 phi7 phi8 phi9 \n",
-    "# psi1 psi2 psi3 psi4 psi5 psi6 psi7 psi8 psi9 \n",
-    "# chi1_1 chi1_2 chi1_3 chi1_5 chi1_6 chi1_8 chi1_9 chi1_10 \n",
+    "# phi1 phi2 phi3 phi4 phi5 phi6 phi7 phi8 phi9\n",
+    "# psi1 psi2 psi3 psi4 psi5 psi6 psi7 psi8 psi9\n",
+    "# chi1_1 chi1_2 chi1_3 chi1_5 chi1_6 chi1_8 chi1_9 chi1_10\n",
     "# chi2_1 chi2_2 chi2_3 chi2_5 chi2_9 chi2_10"
    ]
   },
@@ -113,10 +115,26 @@
     }
    ],
    "source": [
-    "# we then select a subset of 15 dihedrals identified as the most informative \n",
+    "# we then select a subset of 15 dihedrals identified as the most informative\n",
     "# using the information imbalance greedy optimisation of (Glielmo et al., PNAS Nexus, 2022)\n",
     "# the final dataset is described by only 15 features\n",
-    "coords_from_information_imbalance = [1, 4, 5, 7, 10, 12, 13, 14, 15, 16, 17, 18, 19, 24, 25]\n",
+    "coords_from_information_imbalance = [\n",
+    "    1,\n",
+    "    4,\n",
+    "    5,\n",
+    "    7,\n",
+    "    10,\n",
+    "    12,\n",
+    "    13,\n",
+    "    14,\n",
+    "    15,\n",
+    "    16,\n",
+    "    17,\n",
+    "    18,\n",
+    "    19,\n",
+    "    24,\n",
+    "    25,\n",
+    "]\n",
     "selected_dihedrals = all_dihedrals[:, coords_from_information_imbalance]\n",
     "\n",
     "print(selected_dihedrals.shape)"
@@ -151,9 +169,11 @@
    ],
    "source": [
     "# initialise a Data object\n",
-    "d_dihedrals = Data(selected_dihedrals+np.pi, verbose=False)\n",
+    "d_dihedrals = Data(selected_dihedrals + np.pi, verbose=False)\n",
     "# compute distances by setting the correct period\n",
-    "d_dihedrals.compute_distances(maxk=min(selected_dihedrals.shape[0]-1, 10000), period=2.*np.pi)\n",
+    "d_dihedrals.compute_distances(\n",
+    "    maxk=min(selected_dihedrals.shape[0] - 1, 10000), period=2.0 * np.pi\n",
+    ")\n",
     "# estimate the intrinsic dimension\n",
     "d_dihedrals.compute_id_2NN()"
    ]
@@ -169,7 +189,9 @@
    "source": [
     "# ID scaling analysig using two different methods\n",
     "ids_2nn, errs_2nn, scales_2nn = d_dihedrals.return_id_scaling_2NN()\n",
-    "ids_gride, errs_gride, scales_gride = d_dihedrals.return_id_scaling_gride(range_max=1024)"
+    "ids_gride, errs_gride, scales_gride = d_dihedrals.return_id_scaling_gride(\n",
+    "    range_max=1024\n",
+    ")"
    ]
   },
   {
@@ -192,18 +214,18 @@
     }
    ],
    "source": [
-    "col = 'darkorange'\n",
+    "col = \"darkorange\"\n",
     "plt.plot(scales_2nn, ids_2nn, alpha=0.85)\n",
-    "plt.errorbar(scales_2nn, ids_2nn, errs_2nn, fmt='None')\n",
-    "plt.scatter(scales_2nn, ids_2nn, edgecolors='k',s=50,label='2nn decimation')\n",
+    "plt.errorbar(scales_2nn, ids_2nn, errs_2nn, fmt=\"None\")\n",
+    "plt.scatter(scales_2nn, ids_2nn, edgecolors=\"k\", s=50, label=\"2nn decimation\")\n",
     "plt.plot(scales_gride, ids_gride, alpha=0.85, color=col)\n",
-    "plt.errorbar(scales_gride, ids_gride, errs_gride, fmt='None',color=col)\n",
-    "plt.scatter(scales_gride, ids_gride, edgecolors='k',color=col,s=50,label='2nn gride')\n",
-    "plt.xlabel(r'Scale',size=15)\n",
-    "plt.ylabel('Estimated ID',size=15)\n",
+    "plt.errorbar(scales_gride, ids_gride, errs_gride, fmt=\"None\", color=col)\n",
+    "plt.scatter(scales_gride, ids_gride, edgecolors=\"k\", color=col, s=50, label=\"2nn gride\")\n",
+    "plt.xlabel(r\"Scale\", size=15)\n",
+    "plt.ylabel(\"Estimated ID\", size=15)\n",
     "plt.xticks(size=15)\n",
     "plt.yticks(size=15)\n",
-    "plt.legend(frameon=False,fontsize=14)\n",
+    "plt.legend(frameon=False, fontsize=14)\n",
     "plt.tight_layout()"
    ]
   },
@@ -227,7 +249,7 @@
    ],
    "source": [
     "# estimate density via PAk\n",
-    "d_dihedrals.set_id(7.)\n",
+    "d_dihedrals.set_id(7.0)\n",
     "d_dihedrals.compute_density_PAk()"
    ]
   },
@@ -250,7 +272,7 @@
    ],
    "source": [
     "# cluster data via Advanced Density Peak\n",
-    "d_dihedrals.compute_clustering_ADP(Z=4.5,halo=False);\n",
+    "d_dihedrals.compute_clustering_ADP(Z=4.5, halo=False)\n",
     "n_clusters = len(d_dihedrals.cluster_centers)\n",
     "print(n_clusters)"
    ]
@@ -275,7 +297,7 @@
     }
    ],
    "source": [
-    "pl.get_dendrogram(d_dihedrals, cmap='Set2', logscale=False)"
+    "pl.get_dendrogram(d_dihedrals, cmap=\"Set2\", logscale=False)"
    ]
   },
   {
@@ -299,7 +321,7 @@
    ],
    "source": [
     "# Cluster populations\n",
-    "populations = [ len(el) for r_,el in enumerate(d_dihedrals.cluster_indices)]\n",
+    "populations = [len(el) for r_, el in enumerate(d_dihedrals.cluster_indices)]\n",
     "populations"
    ]
   },
@@ -420,8 +442,8 @@
     }
    ],
    "source": [
-    "d_distances = Data(heavy_atom_distances,verbose=False)\n",
-    "d_distances.compute_distances(maxk=min(heavy_atom_distances.shape[0]-1,10000))\n",
+    "d_distances = Data(heavy_atom_distances, verbose=False)\n",
+    "d_distances.compute_distances(maxk=min(heavy_atom_distances.shape[0] - 1, 10000))\n",
     "d_distances.compute_id_2NN()"
    ]
   },
@@ -434,7 +456,9 @@
    "source": [
     "# ID scaling analysig using two different methods\n",
     "ids_2nn, errs_2nn, scales_2nn = d_distances.return_id_scaling_2NN()\n",
-    "ids_gride, errs_gride, scales_gride = d_distances.return_id_scaling_gride(range_max=1024)"
+    "ids_gride, errs_gride, scales_gride = d_distances.return_id_scaling_gride(\n",
+    "    range_max=1024\n",
+    ")"
    ]
   },
   {
@@ -457,18 +481,18 @@
     }
    ],
    "source": [
-    "col = 'darkorange'\n",
+    "col = \"darkorange\"\n",
     "plt.plot(scales_2nn, ids_2nn, alpha=0.85)\n",
-    "plt.errorbar(scales_2nn, ids_2nn, errs_2nn, fmt='None')\n",
-    "plt.scatter(scales_2nn, ids_2nn, edgecolors='k',s=50,label='2nn decimation')\n",
+    "plt.errorbar(scales_2nn, ids_2nn, errs_2nn, fmt=\"None\")\n",
+    "plt.scatter(scales_2nn, ids_2nn, edgecolors=\"k\", s=50, label=\"2nn decimation\")\n",
     "plt.plot(scales_gride, ids_gride, alpha=0.85, color=col)\n",
-    "plt.errorbar(scales_gride, ids_gride, errs_gride, fmt='None',color=col)\n",
-    "plt.scatter(scales_gride, ids_gride, edgecolors='k',color=col,s=50,label='2nn gride')\n",
-    "plt.xlabel(r'Scale',size=15)\n",
-    "plt.ylabel('Estimated ID',size=15)\n",
+    "plt.errorbar(scales_gride, ids_gride, errs_gride, fmt=\"None\", color=col)\n",
+    "plt.scatter(scales_gride, ids_gride, edgecolors=\"k\", color=col, s=50, label=\"2nn gride\")\n",
+    "plt.xlabel(r\"Scale\", size=15)\n",
+    "plt.ylabel(\"Estimated ID\", size=15)\n",
     "plt.xticks(size=15)\n",
     "plt.yticks(size=15)\n",
-    "plt.legend(frameon=False,fontsize=14)\n",
+    "plt.legend(frameon=False, fontsize=14)\n",
     "plt.tight_layout()"
    ]
   },
@@ -489,10 +513,10 @@
    ],
    "source": [
     "# estimate density via PAk\n",
-    "d_distances.set_id(9.)\n",
+    "d_distances.set_id(9.0)\n",
     "d_distances.compute_density_PAk()\n",
     "# cluster data via Advanced Density Peak\n",
-    "d_distances.compute_clustering_ADP(Z=3.5,halo=False);\n",
+    "d_distances.compute_clustering_ADP(Z=3.5, halo=False)\n",
     "n_clusters = len(d_dihedrals.cluster_centers)\n",
     "print(n_clusters)"
    ]
@@ -519,7 +543,7 @@
     }
    ],
    "source": [
-    "pl.get_dendrogram(d_distances, cmap='Set2', logscale=False)"
+    "pl.get_dendrogram(d_distances, cmap=\"Set2\", logscale=False)"
    ]
   },
   {
@@ -541,7 +565,7 @@
    ],
    "source": [
     "# Cluster populations\n",
-    "populations = [ len(el) for r_,el in enumerate(d_distances.cluster_indices)]\n",
+    "populations = [len(el) for r_, el in enumerate(d_distances.cluster_indices)]\n",
     "populations"
    ]
   },
@@ -606,7 +630,7 @@
    ],
    "source": [
     "# number of elements in common before permutation\n",
-    "sum(d_distances.cluster_assignment == d_dihedrals.cluster_assignment)/d_dihedrals.N"
+    "sum(d_distances.cluster_assignment == d_dihedrals.cluster_assignment) / d_dihedrals.N"
    ]
   },
   {
@@ -645,7 +669,7 @@
    ],
    "source": [
     "# number of elements in common after permutation\n",
-    "sum(distances_cluster_assignments_2 == d_dihedrals.cluster_assignment)/d_dihedrals.N"
+    "sum(distances_cluster_assignments_2 == d_dihedrals.cluster_assignment) / d_dihedrals.N"
    ]
   },
   {