From 5ada8a95b5575f2d8274b182347ded4ed5dbede5 Mon Sep 17 00:00:00 2001
From: Chandan Singh <chandan_singh@berkeley.edu>
Date: Fri, 12 Feb 2021 09:51:42 -0800
Subject: [PATCH] update docs

---
 docs/index.html                               |  36 +-
 .../bayesian_rule_list.html                   | 333 +++----------
 docs/rule_set/fplasso.html                    | 399 ++++++++++++++++
 docs/rule_set/fpskope.html                    | 307 ++++++++++++
 docs/rule_set/index.html                      |  10 +
 docs/rule_set/rule_fit.html                   | 226 +++------
 docs/rule_set/rule_set.html                   |  28 +-
 docs/rule_set/skope_rules.html                | 290 ++++--------
 docs/util/convert.html                        |  74 ++-
 docs/util/discretization/index.html           |   8 +-
 docs/util/discretization/mdlp.html            | 385 ++++++++++++++-
 docs/util/extract.html                        | 442 ++++++++++++++++++
 docs/util/index.html                          |   5 +
 docs/util/prune.html                          |  46 +-
 docs/util/rule.html                           |  98 ++--
 docs/util/score.html                          |   6 +-
 readme.md                                     |  20 +-
 17 files changed, 1968 insertions(+), 745 deletions(-)
 create mode 100644 docs/rule_set/fplasso.html
 create mode 100644 docs/rule_set/fpskope.html
 create mode 100644 docs/util/extract.html
diff --git a/docs/index.html b/docs/index.html
index 37cf0238..2d995473 100644
--- a/docs/index.html
+++ b/docs/index.html
@@ -27,15 +27,17 @@ <h1 align="center"> Interpretable machine-learning models (imodels) 🔍</h1>
 <p align="center"> Python package for concise, transparent, and accurate predictive modeling. All sklearn-compatible and easily customizable.
 </p>
 <p align="center">
-<a href="https://github.com/csinva/imodels">Github</a> •
+<a href="https://csinva.github.io/imodels/">docs</a> •
 <a href="#imodels-overview">imodels overview</a> •
-<a href="#demo-notebooks">Demo notebooks</a>
+<a href="#demo-notebooks">demo notebooks</a>
 </p>
 <p align="center">
-<img src="https://img.shields.io/badge/License-MIT-orange.svg">
+<img src="https://img.shields.io/badge/license-mit-blue.svg">
+<img src="https://img.shields.io/badge/python-3.6--3.8-blue">
 <a href="https://github.com/csinva/imodels/actions"><img src="https://github.com/csinva/imodels/workflows/tests/badge.svg"></a>
-<img src="https://img.shields.io/pypi/v/imodels?color=blue">
-<img src="https://img.shields.io/badge/python-3.6%20%7C%203.7%20%7C%203.8-blue">
+<img src="https://img.shields.io/github/checks-status/csinva/imodels/master">
+<img src="https://img.shields.io/pypi/v/imodels?color=orange">
+<img src="https://static.pepy.tech/personalized-badge/imodels?period=total&units=none&left_color=grey&right_color=orange&left_text=downloads">
 </p>
 <h2 id="imodels-overview">imodels overview</h2>
 <p>Implementations of different popular interpretable models can be easily used and installed:</p>
@@ -46,6 +48,12 @@ <h2 id="imodels-overview">imodels overview</h2>
 model.fit(X_train, y_train)   # fit model
 preds = model.predict(X_test) # discrete predictions: shape is (n_test, 1)
 preds_proba = model.predict_proba(X_test) # predicted probabilities: shape is (n_test, n_classes)
+print(model) # print the rule-based model
+
+-----------------------------
+# if X1 &gt; 5: then 80.5% risk
+# else if X2 &gt; 5: then 40% risk
+# else: 10% risk
 </code></pre>
 <p>Install with <code>pip install imodels</code> (see <a href="https://github.com/csinva/imodels/blob/master/docs/troubleshooting.md">here</a> for help). Contains the following models:</p>
 <table>
@@ -134,10 +142,18 @@ <h2 id="imodels-overview">imodels overview</h2>
 </tbody>
 </table>
 <p>Different models and algorithms vary not only in their final form but also in different choices made during modeling. In particular, many models differ in the 3 steps given by the table below.</p>
-<ul>
-<li>ex. RuleFit and SkopeRules differ only in the way they prune rules: RuleFit uses a linear model whereas SkopeRules heuristically deduplicates rules sharing overlap.</li>
-<li>ex. Bayesian rule lists and greedy rule lists differ in how they select rules; bayesian rule lists perform a global optimization over possible rule lists while Greedy rule lists pick splits sequentially to maximize a given criterion.</li>
-</ul>
+<details>
+<summary>ex. RuleFit and SkopeRules</summary>
+RuleFit and SkopeRules differ only in the way they prune rules: RuleFit uses a linear model whereas SkopeRules heuristically deduplicates rules sharing overlap.
+</details>
+<details>
+<summary>ex. Bayesian rule lists and greedy rule lists</summary>
+Bayesian rule lists and greedy rule lists differ in how they select rules; bayesian rule lists perform a global optimization over possible rule lists while Greedy rule lists pick splits sequentially to maximize a given criterion.
+</details>
+<details>
+<summary>ex. FPSkope and SkopeRules</summary>
+FPSkope and SkopeRules differ only in the way they generate candidate rules: FPSkope uses FPgrowth whereas SkopeRules extracts rules from decision trees.
+</details>
 <p>See the docs for individual models for futher descriptions.</p>
 <table>
 <thead>
@@ -279,6 +295,8 @@ <h2 id="references">References</h2>
 from .rule_list.greedy_rule_list import GreedyRuleListClassifier
 from .rule_list.one_r import OneRClassifier
 from .rule_set.rule_fit import RuleFitRegressor, RuleFitClassifier
+from .rule_set.fplasso import FPLassoRegressor, FPLassoClassifier
+from .rule_set.fpskope import FPSkopeClassifier
 from .rule_set.skope_rules import SkopeRulesClassifier
 from .rule_set.boosted_rules import BoostedRulesClassifier
 # from .tree.iterative_random_forest.iterative_random_forest import IRFClassifier
diff --git a/docs/rule_list/bayesian_rule_list/bayesian_rule_list.html b/docs/rule_list/bayesian_rule_list/bayesian_rule_list.html
index 344b5b57..07aa3c38 100644
--- a/docs/rule_list/bayesian_rule_list/bayesian_rule_list.html
+++ b/docs/rule_list/bayesian_rule_list/bayesian_rule_list.html
@@ -34,8 +34,9 @@ <h1 class="title">Module <code>imodels.rule_list.bayesian_rule_list.bayesian_rul
 from sklearn.base import BaseEstimator
 
 from imodels.rule_list.bayesian_rule_list.brl_util import *
-from imodels.util.discretization.mdlp import MDLP_Discretizer
+from imodels.util.discretization.mdlp import MDLP_Discretizer, BRLDiscretizer
 from imodels.rule_list.rule_list import RuleList
+from imodels.util.extract import extract_fpgrowth
 
 
 class BayesianRuleListClassifier(BaseEstimator, RuleList):
@@ -112,34 +113,6 @@ <h1 class="title">Module <code>imodels.rule_list.bayesian_rule_list.bayesian_rul
                 feature_labels = [&#34;ft&#34; + str(i + 1) for i in range(len(X[0]))]
         self.feature_labels = feature_labels
 
-    def _discretize_mixed_data(self, X, y, undiscretized_features=[]):
-        if type(X) != list:
-            X = np.array(X).tolist()
-
-        # check which features are numeric (to be discretized)
-        self.discretized_features = []
-        for fi in range(len(X[0])):
-            # if not string, and not specified as undiscretized
-            if isinstance(X[0][fi], numbers.Number) \
-                    and (len(self.feature_labels) == 0 or \
-                         len(undiscretized_features) == 0 or \
-                         self.feature_labels[fi] not in undiscretized_features):
-                self.discretized_features.append(self.feature_labels[fi])
-
-        if len(self.discretized_features) &gt; 0:
-            if self.verbose:
-                print(
-                    &#34;Warning: non-categorical data found. Trying to discretize. (Please convert categorical values to &#34;
-                    &#34;strings, and/or specify the argument &#39;undiscretized_features&#39;, to avoid this.)&#34;)
-            X = self.discretize(X, y)
-
-        return X
-
-    def _setdata(self, X, y, feature_labels=[], undiscretized_features=[]):
-        self._setlabels(X, feature_labels)
-        X = self._discretize_mixed_data(X, y, undiscretized_features)
-        return X, y
-
     def fit(self, X, y, feature_labels: list=None, undiscretized_features=[], verbose=False):
         &#34;&#34;&#34;Fit rule lists to data
 
@@ -171,50 +144,25 @@ <h1 class="title">Module <code>imodels.rule_list.bayesian_rule_list.bayesian_rul
         if len(set(y)) != 2:
             raise Exception(&#34;Only binary classification is supported at this time!&#34;)
 
-        # deal with pandas data
-        if type(X) in [pd.DataFrame, pd.Series]:
-            if feature_labels is None:
-                feature_labels = X.columns
-            X = X.values
-        if type(y) in [pd.DataFrame, pd.Series]:
-            y = y.values
-
-        if feature_labels is None:
-            feature_labels = [f&#39;X{i}&#39; for i in range(X.shape[1])]
-            
-        X, y = self._setdata(X, y, feature_labels, undiscretized_features)
-        permsdic = defaultdict(default_permsdic)  # We will store here the MCMC results
-        data = list(X[:])
-
-        # Now find frequent itemsets
-
-        X_colname_removed = data.copy()
-        for i in range(len(data)):
-            X_colname_removed[i] = list(map(lambda s: s.split(&#39; : &#39;)[1], X_colname_removed[i]))
-
-        X_df_categorical = pd.DataFrame(X_colname_removed, columns=feature_labels)
-        X_df_onehot = pd.get_dummies(X_df_categorical)
-        onehot_features = X_df_onehot.columns
-
-        itemsets_df = fpgrowth(X_df_onehot, min_support=self.minsupport, max_len=self.maxcardinality)
-        itemsets_indices = [tuple(s[1]) for s in itemsets_df.values]
-        itemsets = [np.array(onehot_features)[list(inds)] for inds in itemsets_indices]
-        itemsets = list(map(tuple, itemsets))
-        if self.verbose:
-            print(len(itemsets), &#39;rules mined&#39;)
-
-
+        itemsets, self.discretizer = extract_fpgrowth(X, y, 
+                                                      feature_labels=feature_labels,
+                                                      minsupport=self.minsupport, 
+                                                      maxcardinality=self.maxcardinality,
+                                                      undiscretized_features=undiscretized_features,
+                                                      verbose=verbose)
+        
+        self.feature_labels = self.discretizer.feature_labels
+        X_df_onehot = self.discretizer.onehot_df
+        
         # Now form the data-vs.-lhs set
         # X[j] is the set of data points that contain itemset j (that is, satisfy rule j)
         for c in X_df_onehot.columns:
             X_df_onehot[c] = [c if x == 1 else &#39;&#39; for x in list(X_df_onehot[c])]
         X = [{}] * (len(itemsets) + 1)
-        X[0] = set(range(len(data)))  # the default rule satisfies all data
+        X[0] = set(range(len(X_df_onehot)))  # the default rule satisfies all data
         for (j, lhs) in enumerate(itemsets):
             X[j + 1] = set([i for (i, xi) in enumerate(X_df_onehot.values) if set(lhs).issubset(xi)])
 
-        
-        
         # now form lhs_len
         lhs_len = [0]
         for lhs in itemsets:
@@ -227,7 +175,8 @@ <h1 class="title">Module <code>imodels.rule_list.bayesian_rule_list.bayesian_rul
         Xtrain, Ytrain, nruleslen, lhs_len, self.itemsets = (
             X, np.vstack((1 - np.array(y), y)).T.astype(int), nruleslen, lhs_len, itemsets_all
         )
-
+        
+        permsdic = defaultdict(default_permsdic)  # We will store here the MCMC results
         # Do MCMC
         res, Rhat = run_bdl_multichain_serial(self.max_iter, self.thinning, self.alpha, self.listlengthprior,
                                               self.listwidthprior, Xtrain, Ytrain, nruleslen, lhs_len,
@@ -248,34 +197,6 @@ <h1 class="title">Module <code>imodels.rule_list.bayesian_rule_list.bayesian_rul
 
         return self
 
-    def discretize(self, X, y):
-        &#39;&#39;&#39;Discretize the features specified in self.discretized_features
-        &#39;&#39;&#39;
-        if self.verbose:
-            print(&#34;Discretizing &#34;, self.discretized_features, &#34;...&#34;)
-        D = pd.DataFrame(np.hstack((X, np.array(y).reshape((len(y), 1)))), columns=list(self.feature_labels) + [&#34;y&#34;])
-        self.discretizer = MDLP_Discretizer(dataset=D, class_label=&#34;y&#34;, features=self.discretized_features)
-
-        cat_data = pd.DataFrame(np.zeros_like(X))
-        for i in range(len(self.feature_labels)):
-            label = self.feature_labels[i]
-            if label in self.discretized_features:
-                column = []
-                for j in range(len(self.discretizer._data[label])):
-                    column += [label + &#34; : &#34; + self.discretizer._data[label][j]]
-                cat_data.iloc[:, i] = np.array(column)
-            else:
-                cat_data.iloc[:, i] = D[label]
-
-        return np.array(cat_data).tolist()
-
-    def _prepend_feature_labels(self, X):
-        Xl = np.copy(X).astype(str).tolist()
-        for i in range(len(Xl)):
-            for j in range(len(Xl[0])):
-                Xl[i][j] = self.feature_labels[j] + &#34; : &#34; + Xl[i][j]
-        return Xl
-
     def __str__(self, decimals=1):
         if self.d_star:
             detect = &#34;&#34;
@@ -329,17 +250,15 @@ <h1 class="title">Module <code>imodels.rule_list.bayesian_rule_list.bayesian_rul
             the model. The columns correspond to the classes in sorted
             order, as they appear in the attribute `classes_`.
         &#34;&#34;&#34;
-        # deal with pandas data
-        if type(X) in [pd.DataFrame, pd.Series]:
-            X = X.values
-
         if self.discretizer:
-            self.discretizer._data = pd.DataFrame(X, columns=self.feature_labels)
-            self.discretizer.apply_cutpoints()
-            D = self._prepend_feature_labels(np.array(self.discretizer._data))
+            D = self.discretizer.apply_discretization(X)
         else:
             D = X
 
+        # deal with pandas data
+        if type(D) in [pd.DataFrame, pd.Series]:
+            D = D.values
+
         N = len(D)
         X2 = self._to_itemset_indices(D[:])
         P = preds_d_t(X2, np.zeros((N, 1), dtype=int), self.d_star, self.theta)
@@ -484,34 +403,6 @@ <h2 id="parameters">Parameters</h2>
                 feature_labels = [&#34;ft&#34; + str(i + 1) for i in range(len(X[0]))]
         self.feature_labels = feature_labels
 
-    def _discretize_mixed_data(self, X, y, undiscretized_features=[]):
-        if type(X) != list:
-            X = np.array(X).tolist()
-
-        # check which features are numeric (to be discretized)
-        self.discretized_features = []
-        for fi in range(len(X[0])):
-            # if not string, and not specified as undiscretized
-            if isinstance(X[0][fi], numbers.Number) \
-                    and (len(self.feature_labels) == 0 or \
-                         len(undiscretized_features) == 0 or \
-                         self.feature_labels[fi] not in undiscretized_features):
-                self.discretized_features.append(self.feature_labels[fi])
-
-        if len(self.discretized_features) &gt; 0:
-            if self.verbose:
-                print(
-                    &#34;Warning: non-categorical data found. Trying to discretize. (Please convert categorical values to &#34;
-                    &#34;strings, and/or specify the argument &#39;undiscretized_features&#39;, to avoid this.)&#34;)
-            X = self.discretize(X, y)
-
-        return X
-
-    def _setdata(self, X, y, feature_labels=[], undiscretized_features=[]):
-        self._setlabels(X, feature_labels)
-        X = self._discretize_mixed_data(X, y, undiscretized_features)
-        return X, y
-
     def fit(self, X, y, feature_labels: list=None, undiscretized_features=[], verbose=False):
         &#34;&#34;&#34;Fit rule lists to data
 
@@ -543,50 +434,25 @@ <h2 id="parameters">Parameters</h2>
         if len(set(y)) != 2:
             raise Exception(&#34;Only binary classification is supported at this time!&#34;)
 
-        # deal with pandas data
-        if type(X) in [pd.DataFrame, pd.Series]:
-            if feature_labels is None:
-                feature_labels = X.columns
-            X = X.values
-        if type(y) in [pd.DataFrame, pd.Series]:
-            y = y.values
-
-        if feature_labels is None:
-            feature_labels = [f&#39;X{i}&#39; for i in range(X.shape[1])]
-            
-        X, y = self._setdata(X, y, feature_labels, undiscretized_features)
-        permsdic = defaultdict(default_permsdic)  # We will store here the MCMC results
-        data = list(X[:])
-
-        # Now find frequent itemsets
-
-        X_colname_removed = data.copy()
-        for i in range(len(data)):
-            X_colname_removed[i] = list(map(lambda s: s.split(&#39; : &#39;)[1], X_colname_removed[i]))
-
-        X_df_categorical = pd.DataFrame(X_colname_removed, columns=feature_labels)
-        X_df_onehot = pd.get_dummies(X_df_categorical)
-        onehot_features = X_df_onehot.columns
-
-        itemsets_df = fpgrowth(X_df_onehot, min_support=self.minsupport, max_len=self.maxcardinality)
-        itemsets_indices = [tuple(s[1]) for s in itemsets_df.values]
-        itemsets = [np.array(onehot_features)[list(inds)] for inds in itemsets_indices]
-        itemsets = list(map(tuple, itemsets))
-        if self.verbose:
-            print(len(itemsets), &#39;rules mined&#39;)
-
-
+        itemsets, self.discretizer = extract_fpgrowth(X, y, 
+                                                      feature_labels=feature_labels,
+                                                      minsupport=self.minsupport, 
+                                                      maxcardinality=self.maxcardinality,
+                                                      undiscretized_features=undiscretized_features,
+                                                      verbose=verbose)
+        
+        self.feature_labels = self.discretizer.feature_labels
+        X_df_onehot = self.discretizer.onehot_df
+        
         # Now form the data-vs.-lhs set
         # X[j] is the set of data points that contain itemset j (that is, satisfy rule j)
         for c in X_df_onehot.columns:
             X_df_onehot[c] = [c if x == 1 else &#39;&#39; for x in list(X_df_onehot[c])]
         X = [{}] * (len(itemsets) + 1)
-        X[0] = set(range(len(data)))  # the default rule satisfies all data
+        X[0] = set(range(len(X_df_onehot)))  # the default rule satisfies all data
         for (j, lhs) in enumerate(itemsets):
             X[j + 1] = set([i for (i, xi) in enumerate(X_df_onehot.values) if set(lhs).issubset(xi)])
 
-        
-        
         # now form lhs_len
         lhs_len = [0]
         for lhs in itemsets:
@@ -599,7 +465,8 @@ <h2 id="parameters">Parameters</h2>
         Xtrain, Ytrain, nruleslen, lhs_len, self.itemsets = (
             X, np.vstack((1 - np.array(y), y)).T.astype(int), nruleslen, lhs_len, itemsets_all
         )
-
+        
+        permsdic = defaultdict(default_permsdic)  # We will store here the MCMC results
         # Do MCMC
         res, Rhat = run_bdl_multichain_serial(self.max_iter, self.thinning, self.alpha, self.listlengthprior,
                                               self.listwidthprior, Xtrain, Ytrain, nruleslen, lhs_len,
@@ -620,34 +487,6 @@ <h2 id="parameters">Parameters</h2>
 
         return self
 
-    def discretize(self, X, y):
-        &#39;&#39;&#39;Discretize the features specified in self.discretized_features
-        &#39;&#39;&#39;
-        if self.verbose:
-            print(&#34;Discretizing &#34;, self.discretized_features, &#34;...&#34;)
-        D = pd.DataFrame(np.hstack((X, np.array(y).reshape((len(y), 1)))), columns=list(self.feature_labels) + [&#34;y&#34;])
-        self.discretizer = MDLP_Discretizer(dataset=D, class_label=&#34;y&#34;, features=self.discretized_features)
-
-        cat_data = pd.DataFrame(np.zeros_like(X))
-        for i in range(len(self.feature_labels)):
-            label = self.feature_labels[i]
-            if label in self.discretized_features:
-                column = []
-                for j in range(len(self.discretizer._data[label])):
-                    column += [label + &#34; : &#34; + self.discretizer._data[label][j]]
-                cat_data.iloc[:, i] = np.array(column)
-            else:
-                cat_data.iloc[:, i] = D[label]
-
-        return np.array(cat_data).tolist()
-
-    def _prepend_feature_labels(self, X):
-        Xl = np.copy(X).astype(str).tolist()
-        for i in range(len(Xl)):
-            for j in range(len(Xl[0])):
-                Xl[i][j] = self.feature_labels[j] + &#34; : &#34; + Xl[i][j]
-        return Xl
-
     def __str__(self, decimals=1):
         if self.d_star:
             detect = &#34;&#34;
@@ -701,17 +540,15 @@ <h2 id="parameters">Parameters</h2>
             the model. The columns correspond to the classes in sorted
             order, as they appear in the attribute `classes_`.
         &#34;&#34;&#34;
-        # deal with pandas data
-        if type(X) in [pd.DataFrame, pd.Series]:
-            X = X.values
-
         if self.discretizer:
-            self.discretizer._data = pd.DataFrame(X, columns=self.feature_labels)
-            self.discretizer.apply_cutpoints()
-            D = self._prepend_feature_labels(np.array(self.discretizer._data))
+            D = self.discretizer.apply_discretization(X)
         else:
             D = X
 
+        # deal with pandas data
+        if type(D) in [pd.DataFrame, pd.Series]:
+            D = D.values
+
         N = len(D)
         X2 = self._to_itemset_indices(D[:])
         P = preds_d_t(X2, np.zeros((N, 1), dtype=int), self.d_star, self.theta)
@@ -743,37 +580,6 @@ <h3>Ancestors</h3>
 </ul>
 <h3>Methods</h3>
 <dl>
-<dt id="imodels.rule_list.bayesian_rule_list.bayesian_rule_list.BayesianRuleListClassifier.discretize"><code class="name flex">
-<span>def <span class="ident">discretize</span></span>(<span>self, X, y)</span>
-</code></dt>
-<dd>
-<section class="desc"><p>Discretize the features specified in self.discretized_features</p></section>
-<details class="source">
-<summary>
-<span>Expand source code</span>
-</summary>
-<pre><code class="python">def discretize(self, X, y):
-    &#39;&#39;&#39;Discretize the features specified in self.discretized_features
-    &#39;&#39;&#39;
-    if self.verbose:
-        print(&#34;Discretizing &#34;, self.discretized_features, &#34;...&#34;)
-    D = pd.DataFrame(np.hstack((X, np.array(y).reshape((len(y), 1)))), columns=list(self.feature_labels) + [&#34;y&#34;])
-    self.discretizer = MDLP_Discretizer(dataset=D, class_label=&#34;y&#34;, features=self.discretized_features)
-
-    cat_data = pd.DataFrame(np.zeros_like(X))
-    for i in range(len(self.feature_labels)):
-        label = self.feature_labels[i]
-        if label in self.discretized_features:
-            column = []
-            for j in range(len(self.discretizer._data[label])):
-                column += [label + &#34; : &#34; + self.discretizer._data[label][j]]
-            cat_data.iloc[:, i] = np.array(column)
-        else:
-            cat_data.iloc[:, i] = D[label]
-
-    return np.array(cat_data).tolist()</code></pre>
-</details>
-</dd>
 <dt id="imodels.rule_list.bayesian_rule_list.bayesian_rule_list.BayesianRuleListClassifier.fit"><code class="name flex">
 <span>def <span class="ident">fit</span></span>(<span>self, X, y, feature_labels=None, undiscretized_features=[], verbose=False)</span>
 </code></dt>
@@ -831,50 +637,25 @@ <h2 id="returns">Returns</h2>
     if len(set(y)) != 2:
         raise Exception(&#34;Only binary classification is supported at this time!&#34;)
 
-    # deal with pandas data
-    if type(X) in [pd.DataFrame, pd.Series]:
-        if feature_labels is None:
-            feature_labels = X.columns
-        X = X.values
-    if type(y) in [pd.DataFrame, pd.Series]:
-        y = y.values
-
-    if feature_labels is None:
-        feature_labels = [f&#39;X{i}&#39; for i in range(X.shape[1])]
-        
-    X, y = self._setdata(X, y, feature_labels, undiscretized_features)
-    permsdic = defaultdict(default_permsdic)  # We will store here the MCMC results
-    data = list(X[:])
-
-    # Now find frequent itemsets
-
-    X_colname_removed = data.copy()
-    for i in range(len(data)):
-        X_colname_removed[i] = list(map(lambda s: s.split(&#39; : &#39;)[1], X_colname_removed[i]))
-
-    X_df_categorical = pd.DataFrame(X_colname_removed, columns=feature_labels)
-    X_df_onehot = pd.get_dummies(X_df_categorical)
-    onehot_features = X_df_onehot.columns
-
-    itemsets_df = fpgrowth(X_df_onehot, min_support=self.minsupport, max_len=self.maxcardinality)
-    itemsets_indices = [tuple(s[1]) for s in itemsets_df.values]
-    itemsets = [np.array(onehot_features)[list(inds)] for inds in itemsets_indices]
-    itemsets = list(map(tuple, itemsets))
-    if self.verbose:
-        print(len(itemsets), &#39;rules mined&#39;)
-
-
+    itemsets, self.discretizer = extract_fpgrowth(X, y, 
+                                                  feature_labels=feature_labels,
+                                                  minsupport=self.minsupport, 
+                                                  maxcardinality=self.maxcardinality,
+                                                  undiscretized_features=undiscretized_features,
+                                                  verbose=verbose)
+    
+    self.feature_labels = self.discretizer.feature_labels
+    X_df_onehot = self.discretizer.onehot_df
+    
     # Now form the data-vs.-lhs set
     # X[j] is the set of data points that contain itemset j (that is, satisfy rule j)
     for c in X_df_onehot.columns:
         X_df_onehot[c] = [c if x == 1 else &#39;&#39; for x in list(X_df_onehot[c])]
     X = [{}] * (len(itemsets) + 1)
-    X[0] = set(range(len(data)))  # the default rule satisfies all data
+    X[0] = set(range(len(X_df_onehot)))  # the default rule satisfies all data
     for (j, lhs) in enumerate(itemsets):
         X[j + 1] = set([i for (i, xi) in enumerate(X_df_onehot.values) if set(lhs).issubset(xi)])
 
-    
-    
     # now form lhs_len
     lhs_len = [0]
     for lhs in itemsets:
@@ -887,7 +668,8 @@ <h2 id="returns">Returns</h2>
     Xtrain, Ytrain, nruleslen, lhs_len, self.itemsets = (
         X, np.vstack((1 - np.array(y), y)).T.astype(int), nruleslen, lhs_len, itemsets_all
     )
-
+    
+    permsdic = defaultdict(default_permsdic)  # We will store here the MCMC results
     # Do MCMC
     res, Rhat = run_bdl_multichain_serial(self.max_iter, self.thinning, self.alpha, self.listlengthprior,
                                           self.listwidthprior, Xtrain, Ytrain, nruleslen, lhs_len,
@@ -983,17 +765,15 @@ <h2 id="returns">Returns</h2>
         the model. The columns correspond to the classes in sorted
         order, as they appear in the attribute `classes_`.
     &#34;&#34;&#34;
-    # deal with pandas data
-    if type(X) in [pd.DataFrame, pd.Series]:
-        X = X.values
-
     if self.discretizer:
-        self.discretizer._data = pd.DataFrame(X, columns=self.feature_labels)
-        self.discretizer.apply_cutpoints()
-        D = self._prepend_feature_labels(np.array(self.discretizer._data))
+        D = self.discretizer.apply_discretization(X)
     else:
         D = X
 
+    # deal with pandas data
+    if type(D) in [pd.DataFrame, pd.Series]:
+        D = D.values
+
     N = len(D)
     X2 = self._to_itemset_indices(D[:])
     P = preds_d_t(X2, np.zeros((N, 1), dtype=int), self.d_star, self.theta)
@@ -1044,7 +824,6 @@ <h1>Index</h1>
 <li>
 <h4><code><a title="imodels.rule_list.bayesian_rule_list.bayesian_rule_list.BayesianRuleListClassifier" href="#imodels.rule_list.bayesian_rule_list.bayesian_rule_list.BayesianRuleListClassifier">BayesianRuleListClassifier</a></code></h4>
 <ul class="">
-<li><code><a title="imodels.rule_list.bayesian_rule_list.bayesian_rule_list.BayesianRuleListClassifier.discretize" href="#imodels.rule_list.bayesian_rule_list.bayesian_rule_list.BayesianRuleListClassifier.discretize">discretize</a></code></li>
 <li><code><a title="imodels.rule_list.bayesian_rule_list.bayesian_rule_list.BayesianRuleListClassifier.fit" href="#imodels.rule_list.bayesian_rule_list.bayesian_rule_list.BayesianRuleListClassifier.fit">fit</a></code></li>
 <li><code><a title="imodels.rule_list.bayesian_rule_list.bayesian_rule_list.BayesianRuleListClassifier.predict" href="#imodels.rule_list.bayesian_rule_list.bayesian_rule_list.BayesianRuleListClassifier.predict">predict</a></code></li>
 <li><code><a title="imodels.rule_list.bayesian_rule_list.bayesian_rule_list.BayesianRuleListClassifier.predict_proba" href="#imodels.rule_list.bayesian_rule_list.bayesian_rule_list.BayesianRuleListClassifier.predict_proba">predict_proba</a></code></li>
diff --git a/docs/rule_set/fplasso.html b/docs/rule_set/fplasso.html
new file mode 100644
index 00000000..02ddb898
--- /dev/null
+++ b/docs/rule_set/fplasso.html
@@ -0,0 +1,399 @@
+<!doctype html>
+<html lang="en">
+<head>
+<meta charset="utf-8">
+<meta name="viewport" content="width=device-width, initial-scale=1, minimum-scale=1" />
+<meta name="generator" content="pdoc 0.7.2" />
+<title>imodels.rule_set.fplasso API documentation</title>
+<meta name="description" content="" />
+<link href='https://cdnjs.cloudflare.com/ajax/libs/normalize/8.0.0/normalize.min.css' rel='stylesheet'>
+<link href='https://cdnjs.cloudflare.com/ajax/libs/10up-sanitize.css/8.0.0/sanitize.min.css' rel='stylesheet'>
+<link href="https://cdnjs.cloudflare.com/ajax/libs/highlight.js/9.12.0/styles/github.min.css" rel="stylesheet">
+<style>.flex{display:flex !important}body{line-height:1.5em}#content{padding:20px}#sidebar{padding:30px;overflow:hidden}.http-server-breadcrumbs{font-size:130%;margin:0 0 15px 0}#footer{font-size:.75em;padding:5px 30px;border-top:1px solid #ddd;text-align:right}#footer p{margin:0 0 0 1em;display:inline-block}#footer p:last-child{margin-right:30px}h1,h2,h3,h4,h5{font-weight:300}h1{font-size:2.5em;line-height:1.1em}h2{font-size:1.75em;margin:1em 0 .50em 0}h3{font-size:1.4em;margin:25px 0 10px 0}h4{margin:0;font-size:105%}a{color:#058;text-decoration:none;transition:color .3s ease-in-out}a:hover{color:#e82}.title code{font-weight:bold}h2[id^="header-"]{margin-top:2em}.ident{color:#900}pre code{background:#f8f8f8;font-size:.8em;line-height:1.4em}code{background:#f2f2f1;padding:1px 4px;overflow-wrap:break-word}h1 code{background:transparent}pre{background:#f8f8f8;border:0;border-top:1px solid #ccc;border-bottom:1px solid #ccc;margin:1em 0;padding:1ex}#http-server-module-list{display:flex;flex-flow:column}#http-server-module-list div{display:flex}#http-server-module-list dt{min-width:10%}#http-server-module-list p{margin-top:0}.toc ul,#index{list-style-type:none;margin:0;padding:0}#index code{background:transparent}#index h3{border-bottom:1px solid #ddd}#index ul{padding:0}#index h4{font-weight:bold}#index h4 + ul{margin-bottom:.6em}@media (min-width:200ex){#index .two-column{column-count:2}}@media (min-width:300ex){#index .two-column{column-count:3}}dl{margin-bottom:2em}dl dl:last-child{margin-bottom:4em}dd{margin:0 0 1em 3em}#header-classes + dl > dd{margin-bottom:3em}dd dd{margin-left:2em}dd p{margin:10px 0}.name{background:#eee;font-weight:bold;font-size:.85em;padding:5px 10px;display:inline-block;min-width:40%}.name:hover{background:#e0e0e0}.name > span:first-child{white-space:nowrap}.name.class > span:nth-child(2){margin-left:.4em}.inherited{color:#999;border-left:5px solid #eee;padding-left:1em}.inheritance em{font-style:normal;font-weight:bold}.desc h2{font-weight:400;font-size:1.25em}.desc h3{font-size:1em}.desc dt code{background:inherit}.source summary,.git-link-div{color:#666;text-align:right;font-weight:400;font-size:.8em;text-transform:uppercase}.source summary > *{white-space:nowrap;cursor:pointer}.git-link{color:inherit;margin-left:1em}.source pre{max-height:500px;overflow:auto;margin:0}.source pre code{font-size:12px;overflow:visible}.hlist{list-style:none}.hlist li{display:inline}.hlist li:after{content:',\2002'}.hlist li:last-child:after{content:none}.hlist .hlist{display:inline;padding-left:1em}img{max-width:100%}.admonition{padding:.1em .5em;margin-bottom:1em}.admonition-title{font-weight:bold}.admonition.note,.admonition.info,.admonition.important{background:#aef}.admonition.todo,.admonition.versionadded,.admonition.tip,.admonition.hint{background:#dfd}.admonition.warning,.admonition.versionchanged,.admonition.deprecated{background:#fd4}.admonition.error,.admonition.danger,.admonition.caution{background:lightpink}</style>
+<style media="screen and (min-width: 700px)">@media screen and (min-width:700px){#sidebar{width:30%}#content{width:70%;max-width:100ch;padding:3em 4em;border-left:1px solid #ddd}pre code{font-size:1em}.item .name{font-size:1em}main{display:flex;flex-direction:row-reverse;justify-content:flex-end}.toc ul ul,#index ul{padding-left:1.5em}.toc > ul > li{margin-top:.5em}}</style>
+<style media="print">@media print{#sidebar h1{page-break-before:always}.source{display:none}}@media print{*{background:transparent !important;color:#000 !important;box-shadow:none !important;text-shadow:none !important}a[href]:after{content:" (" attr(href) ")";font-size:90%}a[href][title]:after{content:none}abbr[title]:after{content:" (" attr(title) ")"}.ir a:after,a[href^="javascript:"]:after,a[href^="#"]:after{content:""}pre,blockquote{border:1px solid #999;page-break-inside:avoid}thead{display:table-header-group}tr,img{page-break-inside:avoid}img{max-width:100% !important}@page{margin:0.5cm}p,h2,h3{orphans:3;widows:3}h1,h2,h3,h4,h5,h6{page-break-after:avoid}}</style>
+</head>
+<body>
+<main>
+<article id="content">
+<header>
+<h1 class="title">Module <code>imodels.rule_set.fplasso</code></h1>
+</header>
+<section id="section-intro">
+<details class="source">
+<summary>
+<span>Expand source code</span>
+</summary>
+<pre><code class="python">from typing import List
+
+from imodels.rule_set.rule_fit import RuleFit
+from imodels.util.extract import extract_fpgrowth
+from imodels.util.convert import itemsets_to_rules
+
+class FPLasso(RuleFit):
+
+    def __init__(self, 
+                 minsupport=0.1,
+                 maxcardinality=2,
+                 verbose=False,
+                 tree_size=4,
+                 sample_fract=&#39;default&#39;,
+                 max_rules=2000,
+                 memory_par=0.01,
+                 tree_generator=None,
+                 lin_trim_quantile=0.025,
+                 lin_standardise=True,
+                 exp_rand_tree_size=True,
+                 include_linear=True,
+                 alphas=None,
+                 cv=3,
+                 random_state=None):
+        super().__init__(tree_size,
+                         sample_fract,
+                         max_rules,
+                         memory_par,
+                         tree_generator,
+                         lin_trim_quantile,
+                         lin_standardise,
+                         exp_rand_tree_size,
+                         include_linear,
+                         alphas,
+                         cv,
+                         random_state)
+        self.minsupport = minsupport
+        self.maxcardinality = maxcardinality
+        self.verbose = verbose
+
+    def fit(self, X, y=None, feature_names=None, undiscretized_features=[]):
+        self.undiscretized_features = undiscretized_features
+        super().fit(X, y, feature_names=feature_names)
+        return self
+    
+    def _extract_rules(self, X, y) -&gt; List[str]:
+        itemsets = extract_fpgrowth(X, y,
+                                    feature_labels=self.feature_placeholders,
+                                    minsupport=self.minsupport,
+                                    maxcardinality=self.maxcardinality,
+                                    undiscretized_features=self.undiscretized_features,
+                                    verbose=self.verbose)[0]
+        return itemsets_to_rules(itemsets)
+
+class FPLassoRegressor(FPLasso):        
+    def _init_prediction_task(self):
+        self.prediction_task = &#39;regression&#39;
+        
+class FPLassoClassifier(FPLasso):
+    def _init_prediction_task(self):
+        self.prediction_task = &#39;classification&#39;</code></pre>
+</details>
+</section>
+<section>
+</section>
+<section>
+</section>
+<section>
+</section>
+<section>
+<h2 class="section-title" id="header-classes">Classes</h2>
+<dl>
+<dt id="imodels.rule_set.fplasso.FPLasso"><code class="flex name class">
+<span>class <span class="ident">FPLasso</span></span>
+<span>(</span><span>minsupport=0.1, maxcardinality=2, verbose=False, tree_size=4, sample_fract='default', max_rules=2000, memory_par=0.01, tree_generator=None, lin_trim_quantile=0.025, lin_standardise=True, exp_rand_tree_size=True, include_linear=True, alphas=None, cv=3, random_state=None)</span>
+</code></dt>
+<dd>
+<section class="desc"><p>Rulefit class. Rather than using this class directly, should use RuleFitRegressor or RuleFitClassifier</p>
+<h2 id="parameters">Parameters</h2>
+<dl>
+<dt><strong><code>tree_size</code></strong> :&ensp;
+<code>Number</code> of <code>terminal</code> <code>nodes</code> <code>in</code> <code>generated</code> <code>trees.</code> <code>If</code> <code>exp_rand_tree_size</code>=<code>True</code>,</dt>
+<dd>this will be the mean number of terminal nodes.</dd>
+<dt><strong><code>sample_fract</code></strong> :&ensp;
+<code>fraction</code> of <code>randomly</code> <code>chosen</code> <code>training</code> <code>observations</code> <code>used</code> <code>to</code> <code>produce</code> <code>each</code> <code>tree.</code></dt>
+<dd>FP 2004 (Sec. 2)</dd>
+<dt><strong><code>max_rules</code></strong> :&ensp;
+<code>total</code> <code>number</code> of <code>terms</code> <code>included</code> <code>in</code> <code>the</code> <code>final</code> <code>model</code> (<code>both</code> <code>linear</code> <code>and</code> <code>rules</code>)</dt>
+<dd>approximate total number of rules generated for fitting also is based on this
+Note that actual number of rules will usually be lower than this due to duplicates.</dd>
+<dt><strong><code>memory_par</code></strong> :&ensp;
+<code>scale</code> <code>multiplier</code> (<code>shrinkage</code> <code>factor</code>) <code>applied</code> <code>to</code> <code>each</code> <code>new</code> <code>tree</code> <code>when</code></dt>
+<dd>sequentially induced. FP 2004 (Sec. 2)</dd>
+<dt><strong><code>lin_standardise</code></strong> :&ensp;<code>If</code> <code>True</code>, <code>the</code> <code>linear</code> <code>terms</code> <code>will</code> <code>be</code> <code>standardised</code> <code>as</code> <code>per</code> <code>Friedman</code> <code>Sec</code> <code>3.2</code></dt>
+<dd>by multiplying the winsorised variable by 0.4/stdev.</dd>
+<dt><strong><code>lin_trim_quantile</code></strong> :&ensp;<code>If</code> <code>lin_standardise</code> <code>is</code> <code>True</code>, <code>this</code> <code>quantile</code> <code>will</code> <code>be</code> <code>used</code> <code>to</code> <code>trim</code> <code>linear</code></dt>
+<dd>terms before standardisation.</dd>
+<dt><strong><code>exp_rand_tree_size</code></strong> :&ensp;<code>If</code> <code>True</code>, <code>each</code> <code>boosted</code> <code>tree</code> <code>will</code> <code>have</code> <code>a</code> <code>different</code> <code>maximum</code> <code>number</code> of</dt>
+<dd>terminal nodes based on an exponential distribution about tree_size.
+(Friedman Sec 3.3)</dd>
+<dt><strong><code>include_linear</code></strong> :&ensp;<code>Include</code> <code>linear</code> <code>terms</code> <code>as</code> <code>opposed</code> <code>to</code> <code>only</code> <code>rules</code></dt>
+<dd>&nbsp;</dd>
+<dt>random_state:
+Integer to initialise random objects and provide repeatability.</dt>
+<dt><strong><code>tree_generator</code></strong> :&ensp;<code>Optional</code>: <code>this</code> <code>object</code> <code>will</code> <code>be</code> <code>used</code> <code>as</code> <code>provided</code> <code>to</code> <code>generate</code> <code>the</code> <code>rules.</code></dt>
+<dd>This will override almost all the other properties above.
+Must be GradientBoostingRegressor or GradientBoostingClassifier, optional (default=None)</dd>
+</dl>
+<h2 id="attributes">Attributes</h2>
+<dl>
+<dt><strong><code>rule_ensemble</code></strong> :&ensp;<code>RuleEnsemble</code></dt>
+<dd>The rule ensemble</dd>
+<dt><strong><code>feature_names</code></strong> :&ensp;<code>list</code> of <code>strings</code>, optional (default=<code>None</code>)</dt>
+<dd>The names of the features (columns)</dd>
+</dl></section>
+<details class="source">
+<summary>
+<span>Expand source code</span>
+</summary>
+<pre><code class="python">class FPLasso(RuleFit):
+
+    def __init__(self, 
+                 minsupport=0.1,
+                 maxcardinality=2,
+                 verbose=False,
+                 tree_size=4,
+                 sample_fract=&#39;default&#39;,
+                 max_rules=2000,
+                 memory_par=0.01,
+                 tree_generator=None,
+                 lin_trim_quantile=0.025,
+                 lin_standardise=True,
+                 exp_rand_tree_size=True,
+                 include_linear=True,
+                 alphas=None,
+                 cv=3,
+                 random_state=None):
+        super().__init__(tree_size,
+                         sample_fract,
+                         max_rules,
+                         memory_par,
+                         tree_generator,
+                         lin_trim_quantile,
+                         lin_standardise,
+                         exp_rand_tree_size,
+                         include_linear,
+                         alphas,
+                         cv,
+                         random_state)
+        self.minsupport = minsupport
+        self.maxcardinality = maxcardinality
+        self.verbose = verbose
+
+    def fit(self, X, y=None, feature_names=None, undiscretized_features=[]):
+        self.undiscretized_features = undiscretized_features
+        super().fit(X, y, feature_names=feature_names)
+        return self
+    
+    def _extract_rules(self, X, y) -&gt; List[str]:
+        itemsets = extract_fpgrowth(X, y,
+                                    feature_labels=self.feature_placeholders,
+                                    minsupport=self.minsupport,
+                                    maxcardinality=self.maxcardinality,
+                                    undiscretized_features=self.undiscretized_features,
+                                    verbose=self.verbose)[0]
+        return itemsets_to_rules(itemsets)</code></pre>
+</details>
+<h3>Ancestors</h3>
+<ul class="hlist">
+<li><a title="imodels.rule_set.rule_fit.RuleFit" href="rule_fit.html#imodels.rule_set.rule_fit.RuleFit">RuleFit</a></li>
+<li>sklearn.base.BaseEstimator</li>
+<li>sklearn.base.TransformerMixin</li>
+<li><a title="imodels.rule_set.rule_set.RuleSet" href="rule_set.html#imodels.rule_set.rule_set.RuleSet">RuleSet</a></li>
+</ul>
+<h3>Subclasses</h3>
+<ul class="hlist">
+<li><a title="imodels.rule_set.fplasso.FPLassoRegressor" href="#imodels.rule_set.fplasso.FPLassoRegressor">FPLassoRegressor</a></li>
+<li><a title="imodels.rule_set.fplasso.FPLassoClassifier" href="#imodels.rule_set.fplasso.FPLassoClassifier">FPLassoClassifier</a></li>
+</ul>
+<h3>Inherited members</h3>
+<ul class="hlist">
+<li><code><b><a title="imodels.rule_set.rule_fit.RuleFit" href="rule_fit.html#imodels.rule_set.rule_fit.RuleFit">RuleFit</a></b></code>:
+<ul class="hlist">
+<li><code><a title="imodels.rule_set.rule_fit.RuleFit.fit" href="rule_fit.html#imodels.rule_set.rule_fit.RuleFit.fit">fit</a></code></li>
+<li><code><a title="imodels.rule_set.rule_fit.RuleFit.get_rules" href="rule_fit.html#imodels.rule_set.rule_fit.RuleFit.get_rules">get_rules</a></code></li>
+<li><code><a title="imodels.rule_set.rule_fit.RuleFit.predict" href="rule_fit.html#imodels.rule_set.rule_fit.RuleFit.predict">predict</a></code></li>
+<li><code><a title="imodels.rule_set.rule_fit.RuleFit.predict_continuous_output" href="rule_fit.html#imodels.rule_set.rule_fit.RuleFit.predict_continuous_output">predict_continuous_output</a></code></li>
+<li><code><a title="imodels.rule_set.rule_fit.RuleFit.transform" href="rule_fit.html#imodels.rule_set.rule_fit.RuleFit.transform">transform</a></code></li>
+</ul>
+</li>
+</ul>
+</dd>
+<dt id="imodels.rule_set.fplasso.FPLassoClassifier"><code class="flex name class">
+<span>class <span class="ident">FPLassoClassifier</span></span>
+<span>(</span><span>minsupport=0.1, maxcardinality=2, verbose=False, tree_size=4, sample_fract='default', max_rules=2000, memory_par=0.01, tree_generator=None, lin_trim_quantile=0.025, lin_standardise=True, exp_rand_tree_size=True, include_linear=True, alphas=None, cv=3, random_state=None)</span>
+</code></dt>
+<dd>
+<section class="desc"><p>Rulefit class. Rather than using this class directly, should use RuleFitRegressor or RuleFitClassifier</p>
+<h2 id="parameters">Parameters</h2>
+<dl>
+<dt><strong><code>tree_size</code></strong> :&ensp;
+<code>Number</code> of <code>terminal</code> <code>nodes</code> <code>in</code> <code>generated</code> <code>trees.</code> <code>If</code> <code>exp_rand_tree_size</code>=<code>True</code>,</dt>
+<dd>this will be the mean number of terminal nodes.</dd>
+<dt><strong><code>sample_fract</code></strong> :&ensp;
+<code>fraction</code> of <code>randomly</code> <code>chosen</code> <code>training</code> <code>observations</code> <code>used</code> <code>to</code> <code>produce</code> <code>each</code> <code>tree.</code></dt>
+<dd>FP 2004 (Sec. 2)</dd>
+<dt><strong><code>max_rules</code></strong> :&ensp;
+<code>total</code> <code>number</code> of <code>terms</code> <code>included</code> <code>in</code> <code>the</code> <code>final</code> <code>model</code> (<code>both</code> <code>linear</code> <code>and</code> <code>rules</code>)</dt>
+<dd>approximate total number of rules generated for fitting also is based on this
+Note that actual number of rules will usually be lower than this due to duplicates.</dd>
+<dt><strong><code>memory_par</code></strong> :&ensp;
+<code>scale</code> <code>multiplier</code> (<code>shrinkage</code> <code>factor</code>) <code>applied</code> <code>to</code> <code>each</code> <code>new</code> <code>tree</code> <code>when</code></dt>
+<dd>sequentially induced. FP 2004 (Sec. 2)</dd>
+<dt><strong><code>lin_standardise</code></strong> :&ensp;<code>If</code> <code>True</code>, <code>the</code> <code>linear</code> <code>terms</code> <code>will</code> <code>be</code> <code>standardised</code> <code>as</code> <code>per</code> <code>Friedman</code> <code>Sec</code> <code>3.2</code></dt>
+<dd>by multiplying the winsorised variable by 0.4/stdev.</dd>
+<dt><strong><code>lin_trim_quantile</code></strong> :&ensp;<code>If</code> <code>lin_standardise</code> <code>is</code> <code>True</code>, <code>this</code> <code>quantile</code> <code>will</code> <code>be</code> <code>used</code> <code>to</code> <code>trim</code> <code>linear</code></dt>
+<dd>terms before standardisation.</dd>
+<dt><strong><code>exp_rand_tree_size</code></strong> :&ensp;<code>If</code> <code>True</code>, <code>each</code> <code>boosted</code> <code>tree</code> <code>will</code> <code>have</code> <code>a</code> <code>different</code> <code>maximum</code> <code>number</code> of</dt>
+<dd>terminal nodes based on an exponential distribution about tree_size.
+(Friedman Sec 3.3)</dd>
+<dt><strong><code>include_linear</code></strong> :&ensp;<code>Include</code> <code>linear</code> <code>terms</code> <code>as</code> <code>opposed</code> <code>to</code> <code>only</code> <code>rules</code></dt>
+<dd>&nbsp;</dd>
+<dt>random_state:
+Integer to initialise random objects and provide repeatability.</dt>
+<dt><strong><code>tree_generator</code></strong> :&ensp;<code>Optional</code>: <code>this</code> <code>object</code> <code>will</code> <code>be</code> <code>used</code> <code>as</code> <code>provided</code> <code>to</code> <code>generate</code> <code>the</code> <code>rules.</code></dt>
+<dd>This will override almost all the other properties above.
+Must be GradientBoostingRegressor or GradientBoostingClassifier, optional (default=None)</dd>
+</dl>
+<h2 id="attributes">Attributes</h2>
+<dl>
+<dt><strong><code>rule_ensemble</code></strong> :&ensp;<code>RuleEnsemble</code></dt>
+<dd>The rule ensemble</dd>
+<dt><strong><code>feature_names</code></strong> :&ensp;<code>list</code> of <code>strings</code>, optional (default=<code>None</code>)</dt>
+<dd>The names of the features (columns)</dd>
+</dl></section>
+<details class="source">
+<summary>
+<span>Expand source code</span>
+</summary>
+<pre><code class="python">class FPLassoClassifier(FPLasso):
+    def _init_prediction_task(self):
+        self.prediction_task = &#39;classification&#39;</code></pre>
+</details>
+<h3>Ancestors</h3>
+<ul class="hlist">
+<li><a title="imodels.rule_set.fplasso.FPLasso" href="#imodels.rule_set.fplasso.FPLasso">FPLasso</a></li>
+<li><a title="imodels.rule_set.rule_fit.RuleFit" href="rule_fit.html#imodels.rule_set.rule_fit.RuleFit">RuleFit</a></li>
+<li>sklearn.base.BaseEstimator</li>
+<li>sklearn.base.TransformerMixin</li>
+<li><a title="imodels.rule_set.rule_set.RuleSet" href="rule_set.html#imodels.rule_set.rule_set.RuleSet">RuleSet</a></li>
+</ul>
+<h3>Inherited members</h3>
+<ul class="hlist">
+<li><code><b><a title="imodels.rule_set.fplasso.FPLasso" href="#imodels.rule_set.fplasso.FPLasso">FPLasso</a></b></code>:
+<ul class="hlist">
+<li><code><a title="imodels.rule_set.fplasso.FPLasso.fit" href="rule_fit.html#imodels.rule_set.rule_fit.RuleFit.fit">fit</a></code></li>
+<li><code><a title="imodels.rule_set.fplasso.FPLasso.get_rules" href="rule_fit.html#imodels.rule_set.rule_fit.RuleFit.get_rules">get_rules</a></code></li>
+<li><code><a title="imodels.rule_set.fplasso.FPLasso.predict" href="rule_fit.html#imodels.rule_set.rule_fit.RuleFit.predict">predict</a></code></li>
+<li><code><a title="imodels.rule_set.fplasso.FPLasso.predict_continuous_output" href="rule_fit.html#imodels.rule_set.rule_fit.RuleFit.predict_continuous_output">predict_continuous_output</a></code></li>
+<li><code><a title="imodels.rule_set.fplasso.FPLasso.transform" href="rule_fit.html#imodels.rule_set.rule_fit.RuleFit.transform">transform</a></code></li>
+</ul>
+</li>
+</ul>
+</dd>
+<dt id="imodels.rule_set.fplasso.FPLassoRegressor"><code class="flex name class">
+<span>class <span class="ident">FPLassoRegressor</span></span>
+<span>(</span><span>minsupport=0.1, maxcardinality=2, verbose=False, tree_size=4, sample_fract='default', max_rules=2000, memory_par=0.01, tree_generator=None, lin_trim_quantile=0.025, lin_standardise=True, exp_rand_tree_size=True, include_linear=True, alphas=None, cv=3, random_state=None)</span>
+</code></dt>
+<dd>
+<section class="desc"><p>Rulefit class. Rather than using this class directly, should use RuleFitRegressor or RuleFitClassifier</p>
+<h2 id="parameters">Parameters</h2>
+<dl>
+<dt><strong><code>tree_size</code></strong> :&ensp;
+<code>Number</code> of <code>terminal</code> <code>nodes</code> <code>in</code> <code>generated</code> <code>trees.</code> <code>If</code> <code>exp_rand_tree_size</code>=<code>True</code>,</dt>
+<dd>this will be the mean number of terminal nodes.</dd>
+<dt><strong><code>sample_fract</code></strong> :&ensp;
+<code>fraction</code> of <code>randomly</code> <code>chosen</code> <code>training</code> <code>observations</code> <code>used</code> <code>to</code> <code>produce</code> <code>each</code> <code>tree.</code></dt>
+<dd>FP 2004 (Sec. 2)</dd>
+<dt><strong><code>max_rules</code></strong> :&ensp;
+<code>total</code> <code>number</code> of <code>terms</code> <code>included</code> <code>in</code> <code>the</code> <code>final</code> <code>model</code> (<code>both</code> <code>linear</code> <code>and</code> <code>rules</code>)</dt>
+<dd>approximate total number of rules generated for fitting also is based on this
+Note that actual number of rules will usually be lower than this due to duplicates.</dd>
+<dt><strong><code>memory_par</code></strong> :&ensp;
+<code>scale</code> <code>multiplier</code> (<code>shrinkage</code> <code>factor</code>) <code>applied</code> <code>to</code> <code>each</code> <code>new</code> <code>tree</code> <code>when</code></dt>
+<dd>sequentially induced. FP 2004 (Sec. 2)</dd>
+<dt><strong><code>lin_standardise</code></strong> :&ensp;<code>If</code> <code>True</code>, <code>the</code> <code>linear</code> <code>terms</code> <code>will</code> <code>be</code> <code>standardised</code> <code>as</code> <code>per</code> <code>Friedman</code> <code>Sec</code> <code>3.2</code></dt>
+<dd>by multiplying the winsorised variable by 0.4/stdev.</dd>
+<dt><strong><code>lin_trim_quantile</code></strong> :&ensp;<code>If</code> <code>lin_standardise</code> <code>is</code> <code>True</code>, <code>this</code> <code>quantile</code> <code>will</code> <code>be</code> <code>used</code> <code>to</code> <code>trim</code> <code>linear</code></dt>
+<dd>terms before standardisation.</dd>
+<dt><strong><code>exp_rand_tree_size</code></strong> :&ensp;<code>If</code> <code>True</code>, <code>each</code> <code>boosted</code> <code>tree</code> <code>will</code> <code>have</code> <code>a</code> <code>different</code> <code>maximum</code> <code>number</code> of</dt>
+<dd>terminal nodes based on an exponential distribution about tree_size.
+(Friedman Sec 3.3)</dd>
+<dt><strong><code>include_linear</code></strong> :&ensp;<code>Include</code> <code>linear</code> <code>terms</code> <code>as</code> <code>opposed</code> <code>to</code> <code>only</code> <code>rules</code></dt>
+<dd>&nbsp;</dd>
+<dt>random_state:
+Integer to initialise random objects and provide repeatability.</dt>
+<dt><strong><code>tree_generator</code></strong> :&ensp;<code>Optional</code>: <code>this</code> <code>object</code> <code>will</code> <code>be</code> <code>used</code> <code>as</code> <code>provided</code> <code>to</code> <code>generate</code> <code>the</code> <code>rules.</code></dt>
+<dd>This will override almost all the other properties above.
+Must be GradientBoostingRegressor or GradientBoostingClassifier, optional (default=None)</dd>
+</dl>
+<h2 id="attributes">Attributes</h2>
+<dl>
+<dt><strong><code>rule_ensemble</code></strong> :&ensp;<code>RuleEnsemble</code></dt>
+<dd>The rule ensemble</dd>
+<dt><strong><code>feature_names</code></strong> :&ensp;<code>list</code> of <code>strings</code>, optional (default=<code>None</code>)</dt>
+<dd>The names of the features (columns)</dd>
+</dl></section>
+<details class="source">
+<summary>
+<span>Expand source code</span>
+</summary>
+<pre><code class="python">class FPLassoRegressor(FPLasso):        
+    def _init_prediction_task(self):
+        self.prediction_task = &#39;regression&#39;</code></pre>
+</details>
+<h3>Ancestors</h3>
+<ul class="hlist">
+<li><a title="imodels.rule_set.fplasso.FPLasso" href="#imodels.rule_set.fplasso.FPLasso">FPLasso</a></li>
+<li><a title="imodels.rule_set.rule_fit.RuleFit" href="rule_fit.html#imodels.rule_set.rule_fit.RuleFit">RuleFit</a></li>
+<li>sklearn.base.BaseEstimator</li>
+<li>sklearn.base.TransformerMixin</li>
+<li><a title="imodels.rule_set.rule_set.RuleSet" href="rule_set.html#imodels.rule_set.rule_set.RuleSet">RuleSet</a></li>
+</ul>
+<h3>Inherited members</h3>
+<ul class="hlist">
+<li><code><b><a title="imodels.rule_set.fplasso.FPLasso" href="#imodels.rule_set.fplasso.FPLasso">FPLasso</a></b></code>:
+<ul class="hlist">
+<li><code><a title="imodels.rule_set.fplasso.FPLasso.fit" href="rule_fit.html#imodels.rule_set.rule_fit.RuleFit.fit">fit</a></code></li>
+<li><code><a title="imodels.rule_set.fplasso.FPLasso.get_rules" href="rule_fit.html#imodels.rule_set.rule_fit.RuleFit.get_rules">get_rules</a></code></li>
+<li><code><a title="imodels.rule_set.fplasso.FPLasso.predict" href="rule_fit.html#imodels.rule_set.rule_fit.RuleFit.predict">predict</a></code></li>
+<li><code><a title="imodels.rule_set.fplasso.FPLasso.predict_continuous_output" href="rule_fit.html#imodels.rule_set.rule_fit.RuleFit.predict_continuous_output">predict_continuous_output</a></code></li>
+<li><code><a title="imodels.rule_set.fplasso.FPLasso.transform" href="rule_fit.html#imodels.rule_set.rule_fit.RuleFit.transform">transform</a></code></li>
+</ul>
+</li>
+</ul>
+</dd>
+</dl>
+</section>
+</article>
+<nav id="sidebar">
+<h1>Index</h1>
+<div class="toc">
+<ul></ul>
+</div>
+<ul id="index">
+<li><h3>Super-module</h3>
+<ul>
+<li><code><a title="imodels.rule_set" href="index.html">imodels.rule_set</a></code></li>
+</ul>
+</li>
+<li><h3><a href="#header-classes">Classes</a></h3>
+<ul>
+<li>
+<h4><code><a title="imodels.rule_set.fplasso.FPLasso" href="#imodels.rule_set.fplasso.FPLasso">FPLasso</a></code></h4>
+</li>
+<li>
+<h4><code><a title="imodels.rule_set.fplasso.FPLassoClassifier" href="#imodels.rule_set.fplasso.FPLassoClassifier">FPLassoClassifier</a></code></h4>
+</li>
+<li>
+<h4><code><a title="imodels.rule_set.fplasso.FPLassoRegressor" href="#imodels.rule_set.fplasso.FPLassoRegressor">FPLassoRegressor</a></code></h4>
+</li>
+</ul>
+</li>
+</ul>
+</nav>
+</main>
+<footer id="footer">
+<p>Generated by <a href="https://pdoc3.github.io/pdoc"><cite>pdoc</cite> 0.7.2</a>.</p>
+</footer>
+<script src="https://cdnjs.cloudflare.com/ajax/libs/highlight.js/9.12.0/highlight.min.js"></script>
+<script>hljs.initHighlightingOnLoad()</script>
+</body>
+</html>
\ No newline at end of file
diff --git a/docs/rule_set/fpskope.html b/docs/rule_set/fpskope.html
new file mode 100644
index 00000000..f7fdf972
--- /dev/null
+++ b/docs/rule_set/fpskope.html
@@ -0,0 +1,307 @@
+<!doctype html>
+<html lang="en">
+<head>
+<meta charset="utf-8">
+<meta name="viewport" content="width=device-width, initial-scale=1, minimum-scale=1" />
+<meta name="generator" content="pdoc 0.7.2" />
+<title>imodels.rule_set.fpskope API documentation</title>
+<meta name="description" content="" />
+<link href='https://cdnjs.cloudflare.com/ajax/libs/normalize/8.0.0/normalize.min.css' rel='stylesheet'>
+<link href='https://cdnjs.cloudflare.com/ajax/libs/10up-sanitize.css/8.0.0/sanitize.min.css' rel='stylesheet'>
+<link href="https://cdnjs.cloudflare.com/ajax/libs/highlight.js/9.12.0/styles/github.min.css" rel="stylesheet">
+<style>.flex{display:flex !important}body{line-height:1.5em}#content{padding:20px}#sidebar{padding:30px;overflow:hidden}.http-server-breadcrumbs{font-size:130%;margin:0 0 15px 0}#footer{font-size:.75em;padding:5px 30px;border-top:1px solid #ddd;text-align:right}#footer p{margin:0 0 0 1em;display:inline-block}#footer p:last-child{margin-right:30px}h1,h2,h3,h4,h5{font-weight:300}h1{font-size:2.5em;line-height:1.1em}h2{font-size:1.75em;margin:1em 0 .50em 0}h3{font-size:1.4em;margin:25px 0 10px 0}h4{margin:0;font-size:105%}a{color:#058;text-decoration:none;transition:color .3s ease-in-out}a:hover{color:#e82}.title code{font-weight:bold}h2[id^="header-"]{margin-top:2em}.ident{color:#900}pre code{background:#f8f8f8;font-size:.8em;line-height:1.4em}code{background:#f2f2f1;padding:1px 4px;overflow-wrap:break-word}h1 code{background:transparent}pre{background:#f8f8f8;border:0;border-top:1px solid #ccc;border-bottom:1px solid #ccc;margin:1em 0;padding:1ex}#http-server-module-list{display:flex;flex-flow:column}#http-server-module-list div{display:flex}#http-server-module-list dt{min-width:10%}#http-server-module-list p{margin-top:0}.toc ul,#index{list-style-type:none;margin:0;padding:0}#index code{background:transparent}#index h3{border-bottom:1px solid #ddd}#index ul{padding:0}#index h4{font-weight:bold}#index h4 + ul{margin-bottom:.6em}@media (min-width:200ex){#index .two-column{column-count:2}}@media (min-width:300ex){#index .two-column{column-count:3}}dl{margin-bottom:2em}dl dl:last-child{margin-bottom:4em}dd{margin:0 0 1em 3em}#header-classes + dl > dd{margin-bottom:3em}dd dd{margin-left:2em}dd p{margin:10px 0}.name{background:#eee;font-weight:bold;font-size:.85em;padding:5px 10px;display:inline-block;min-width:40%}.name:hover{background:#e0e0e0}.name > span:first-child{white-space:nowrap}.name.class > span:nth-child(2){margin-left:.4em}.inherited{color:#999;border-left:5px solid #eee;padding-left:1em}.inheritance em{font-style:normal;font-weight:bold}.desc h2{font-weight:400;font-size:1.25em}.desc h3{font-size:1em}.desc dt code{background:inherit}.source summary,.git-link-div{color:#666;text-align:right;font-weight:400;font-size:.8em;text-transform:uppercase}.source summary > *{white-space:nowrap;cursor:pointer}.git-link{color:inherit;margin-left:1em}.source pre{max-height:500px;overflow:auto;margin:0}.source pre code{font-size:12px;overflow:visible}.hlist{list-style:none}.hlist li{display:inline}.hlist li:after{content:',\2002'}.hlist li:last-child:after{content:none}.hlist .hlist{display:inline;padding-left:1em}img{max-width:100%}.admonition{padding:.1em .5em;margin-bottom:1em}.admonition-title{font-weight:bold}.admonition.note,.admonition.info,.admonition.important{background:#aef}.admonition.todo,.admonition.versionadded,.admonition.tip,.admonition.hint{background:#dfd}.admonition.warning,.admonition.versionchanged,.admonition.deprecated{background:#fd4}.admonition.error,.admonition.danger,.admonition.caution{background:lightpink}</style>
+<style media="screen and (min-width: 700px)">@media screen and (min-width:700px){#sidebar{width:30%}#content{width:70%;max-width:100ch;padding:3em 4em;border-left:1px solid #ddd}pre code{font-size:1em}.item .name{font-size:1em}main{display:flex;flex-direction:row-reverse;justify-content:flex-end}.toc ul ul,#index ul{padding-left:1.5em}.toc > ul > li{margin-top:.5em}}</style>
+<style media="print">@media print{#sidebar h1{page-break-before:always}.source{display:none}}@media print{*{background:transparent !important;color:#000 !important;box-shadow:none !important;text-shadow:none !important}a[href]:after{content:" (" attr(href) ")";font-size:90%}a[href][title]:after{content:none}abbr[title]:after{content:" (" attr(title) ")"}.ir a:after,a[href^="javascript:"]:after,a[href^="#"]:after{content:""}pre,blockquote{border:1px solid #999;page-break-inside:avoid}thead{display:table-header-group}tr,img{page-break-inside:avoid}img{max-width:100% !important}@page{margin:0.5cm}p,h2,h3{orphans:3;widows:3}h1,h2,h3,h4,h5,h6{page-break-after:avoid}}</style>
+</head>
+<body>
+<main>
+<article id="content">
+<header>
+<h1 class="title">Module <code>imodels.rule_set.fpskope</code></h1>
+</header>
+<section id="section-intro">
+<details class="source">
+<summary>
+<span>Expand source code</span>
+</summary>
+<pre><code class="python">from typing import List
+
+import numpy as np
+
+from imodels.rule_set.skope_rules import SkopeRulesClassifier
+from imodels.util.extract import extract_fpgrowth
+from imodels.util.convert import itemsets_to_rules
+
+class FPSkopeClassifier(SkopeRulesClassifier):
+
+    def __init__(self,
+                 minsupport=0.1,
+                 maxcardinality=2,
+                 verbose=False,
+                 precision_min=0.5,
+                 recall_min=0.01,
+                 n_estimators=10,
+                 max_samples=.8,
+                 max_samples_features=1.,
+                 bootstrap=False,
+                 bootstrap_features=False,
+                 max_depth=3,
+                 max_depth_duplication=None,
+                 max_features=1.,
+                 min_samples_split=2,
+                 n_jobs=1,
+                 random_state=None):
+        super().__init__(precision_min,
+                         recall_min,
+                         n_estimators,
+                         max_samples,
+                         max_samples_features,
+                         bootstrap,
+                         bootstrap_features,
+                         max_depth,
+                         max_depth_duplication,
+                         max_features,
+                         min_samples_split,
+                         n_jobs,
+                         random_state,
+                         verbose)
+        self.minsupport = minsupport
+        self.maxcardinality = maxcardinality
+        self.verbose = verbose
+
+    def fit(self, X, y=None, feature_names=None, undiscretized_features=[], sample_weight=None):
+        self.undiscretized_features = undiscretized_features
+        super().fit(X, y, feature_names=feature_names, sample_weight=sample_weight)
+        return self
+
+    def _extract_rules(self, X, y) -&gt; List[str]:
+        itemsets = extract_fpgrowth(X, y,
+                                    feature_labels=self.feature_placeholders,
+                                    minsupport=self.minsupport,
+                                    maxcardinality=self.maxcardinality,
+                                    undiscretized_features=self.undiscretized_features,
+                                    verbose=self.verbose)[0]
+        return [itemsets_to_rules(itemsets)], [np.arange(X.shape[0])], [np.arange(len(self.feature_names))]</code></pre>
+</details>
+</section>
+<section>
+</section>
+<section>
+</section>
+<section>
+</section>
+<section>
+<h2 class="section-title" id="header-classes">Classes</h2>
+<dl>
+<dt id="imodels.rule_set.fpskope.FPSkopeClassifier"><code class="flex name class">
+<span>class <span class="ident">FPSkopeClassifier</span></span>
+<span>(</span><span>minsupport=0.1, maxcardinality=2, verbose=False, precision_min=0.5, recall_min=0.01, n_estimators=10, max_samples=0.8, max_samples_features=1.0, bootstrap=False, bootstrap_features=False, max_depth=3, max_depth_duplication=None, max_features=1.0, min_samples_split=2, n_jobs=1, random_state=None)</span>
+</code></dt>
+<dd>
+<section class="desc"><p>An easy-interpretable classifier optimizing simple logical rules.</p>
+<h2 id="parameters">Parameters</h2>
+<dl>
+<dt><strong><code>feature_names</code></strong> :&ensp;<code>list</code> of <code>str</code>, optional</dt>
+<dd>The names of each feature to be used for returning rules in string
+format.</dd>
+<dt><strong><code>precision_min</code></strong> :&ensp;<code>float</code>, optional (default=<code>0.5</code>)</dt>
+<dd>The minimal precision of a rule to be selected.</dd>
+<dt><strong><code>recall_min</code></strong> :&ensp;<code>float</code>, optional (default=<code>0.01</code>)</dt>
+<dd>The minimal recall of a rule to be selected.</dd>
+<dt><strong><code>n_estimators</code></strong> :&ensp;<code>int</code>, optional (default=<code>10</code>)</dt>
+<dd>The number of base estimators (rules) to use for prediction. More are
+built before selection. All are available in the estimators_ attribute.</dd>
+<dt><strong><code>max_samples</code></strong> :&ensp;<code>int</code> or <code>float</code>, optional (default=<code>.8</code>)</dt>
+<dd>The number of samples to draw from X to train each decision tree, from
+which rules are generated and selected.
+- If int, then draw <code>max_samples</code> samples.
+- If float, then draw <code>max_samples * X.shape[0]</code> samples.
+If max_samples is larger than the number of samples provided,
+all samples will be used for all trees (no sampling).</dd>
+<dt><strong><code>max_samples_features</code></strong> :&ensp;<code>int</code> or <code>float</code>, optional (default=<code>1.0</code>)</dt>
+<dd>The number of features to draw from X to train each decision tree, from
+which rules are generated and selected.
+- If int, then draw <code>max_features</code> features.
+- If float, then draw <code>max_features * X.shape[1]</code> features.</dd>
+<dt><strong><code>bootstrap</code></strong> :&ensp;<code>boolean</code>, optional (default=<code>False</code>)</dt>
+<dd>Whether samples are drawn with replacement.</dd>
+<dt><strong><code>bootstrap_features</code></strong> :&ensp;<code>boolean</code>, optional (default=<code>False</code>)</dt>
+<dd>Whether features are drawn with replacement.</dd>
+<dt><strong><code>max_depth</code></strong> :&ensp;<code>integer</code> or <code>List</code> or <code>None</code>, optional (default=<code>3</code>)</dt>
+<dd>The maximum depth of the decision trees. If None, then nodes are
+expanded until all leaves are pure or until all leaves contain less
+than min_samples_split samples.
+If an iterable is passed, you will train n_estimators
+for each tree depth. It allows you to create and compare
+rules of different length.</dd>
+<dt><strong><code>max_depth_duplication</code></strong> :&ensp;<code>integer</code>, optional (default=<code>None</code>)</dt>
+<dd>The maximum depth of the decision tree for rule deduplication,
+if None then no deduplication occurs.</dd>
+<dt><strong><code>max_features</code></strong> :&ensp;<code>int</code>, <code>float</code>, <code>string</code> or <code>None</code>, optional (default=<code>"auto"</code>)</dt>
+<dd>
+<p>The number of features considered (by each decision tree) when looking
+for the best split:</p>
+<ul>
+<li>If int, then consider <code>max_features</code> features at each split.</li>
+<li>If float, then <code>max_features</code> is a percentage and
+<code>int(max_features * n_features)</code> features are considered at each
+split.</li>
+<li>If "auto", then <code>max_features=sqrt(n_features)</code>.</li>
+<li>If "sqrt", then <code>max_features=sqrt(n_features)</code> (same as "auto").</li>
+<li>If "log2", then <code>max_features=log2(n_features)</code>.</li>
+<li>If None, then <code>max_features=n_features</code>.</li>
+</ul>
+<p>Note: the search for a split does not stop until at least one
+valid partition of the node samples is found, even if it requires to
+effectively inspect more than <code>max_features</code> features.</p>
+</dd>
+<dt><strong><code>min_samples_split</code></strong> :&ensp;<code>int</code>, <code>float</code>, optional (default=<code>2</code>)</dt>
+<dd>The minimum number of samples required to split an internal node for
+each decision tree.
+- If int, then consider <code>min_samples_split</code> as the minimum number.
+- If float, then <code>min_samples_split</code> is a percentage and
+<code>ceil(min_samples_split * n_samples)</code> are the minimum
+number of samples for each split.</dd>
+<dt><strong><code>n_jobs</code></strong> :&ensp;<code>integer</code>, optional (default=<code>1</code>)</dt>
+<dd>The number of jobs to run in parallel for both <code>fit</code> and <code>predict</code>.
+If -1, then the number of jobs is set to the number of cores.</dd>
+<dt><strong><code>random_state</code></strong> :&ensp;<code>int</code>, <code>RandomState</code> <code>instance</code> or <code>None</code>, optional</dt>
+<dd>
+<ul>
+<li>If int, random_state is the seed used by the random number generator.</li>
+<li>If RandomState instance, random_state is the random number generator.</li>
+<li>If None, the random number generator is the RandomState instance used
+by <code>np.random</code>.</li>
+</ul>
+</dd>
+<dt><strong><code>verbose</code></strong> :&ensp;<code>int</code>, optional (default=<code>0</code>)</dt>
+<dd>Controls the verbosity of the tree building process.</dd>
+</dl>
+<h2 id="attributes">Attributes</h2>
+<p>rules_ : dict of tuples (rule, precision, recall, nb).
+The collection of <code>n_estimators</code> rules used in the <code>predict</code> method.
+The rules are generated by fitted sub-estimators (decision trees). Each
+rule satisfies recall_min and precision_min conditions. The selection
+is done according to OOB precisions.</p>
+<dl>
+<dt><strong><code>estimators_</code></strong> :&ensp;<code>list</code> of <code>DecisionTreeClassifier</code></dt>
+<dd>The collection of fitted sub-estimators used to generate candidate
+rules.</dd>
+<dt><strong><code>estimators_samples_</code></strong> :&ensp;<code>list</code> of <code>arrays</code></dt>
+<dd>The subset of drawn samples (i.e., the in-bag samples) for each base
+estimator.</dd>
+<dt><strong><code>estimators_features_</code></strong> :&ensp;<code>list</code> of <code>arrays</code></dt>
+<dd>The subset of drawn features for each base estimator.</dd>
+<dt><strong><code>max_samples_</code></strong> :&ensp;<code>integer</code></dt>
+<dd>The actual number of samples</dd>
+<dt><strong><code>n_features_</code></strong> :&ensp;<code>integer</code></dt>
+<dd>The number of features when <code>fit</code> is performed.</dd>
+<dt><strong><code>classes_</code></strong> :&ensp;<code>array</code>, <code>shape</code> (<code>n_classes</code>,)</dt>
+<dd>The classes labels.</dd>
+</dl></section>
+<details class="source">
+<summary>
+<span>Expand source code</span>
+</summary>
+<pre><code class="python">class FPSkopeClassifier(SkopeRulesClassifier):
+
+    def __init__(self,
+                 minsupport=0.1,
+                 maxcardinality=2,
+                 verbose=False,
+                 precision_min=0.5,
+                 recall_min=0.01,
+                 n_estimators=10,
+                 max_samples=.8,
+                 max_samples_features=1.,
+                 bootstrap=False,
+                 bootstrap_features=False,
+                 max_depth=3,
+                 max_depth_duplication=None,
+                 max_features=1.,
+                 min_samples_split=2,
+                 n_jobs=1,
+                 random_state=None):
+        super().__init__(precision_min,
+                         recall_min,
+                         n_estimators,
+                         max_samples,
+                         max_samples_features,
+                         bootstrap,
+                         bootstrap_features,
+                         max_depth,
+                         max_depth_duplication,
+                         max_features,
+                         min_samples_split,
+                         n_jobs,
+                         random_state,
+                         verbose)
+        self.minsupport = minsupport
+        self.maxcardinality = maxcardinality
+        self.verbose = verbose
+
+    def fit(self, X, y=None, feature_names=None, undiscretized_features=[], sample_weight=None):
+        self.undiscretized_features = undiscretized_features
+        super().fit(X, y, feature_names=feature_names, sample_weight=sample_weight)
+        return self
+
+    def _extract_rules(self, X, y) -&gt; List[str]:
+        itemsets = extract_fpgrowth(X, y,
+                                    feature_labels=self.feature_placeholders,
+                                    minsupport=self.minsupport,
+                                    maxcardinality=self.maxcardinality,
+                                    undiscretized_features=self.undiscretized_features,
+                                    verbose=self.verbose)[0]
+        return [itemsets_to_rules(itemsets)], [np.arange(X.shape[0])], [np.arange(len(self.feature_names))]</code></pre>
+</details>
+<h3>Ancestors</h3>
+<ul class="hlist">
+<li><a title="imodels.rule_set.skope_rules.SkopeRulesClassifier" href="skope_rules.html#imodels.rule_set.skope_rules.SkopeRulesClassifier">SkopeRulesClassifier</a></li>
+<li>sklearn.base.BaseEstimator</li>
+<li><a title="imodels.rule_set.rule_set.RuleSet" href="rule_set.html#imodels.rule_set.rule_set.RuleSet">RuleSet</a></li>
+</ul>
+<h3>Inherited members</h3>
+<ul class="hlist">
+<li><code><b><a title="imodels.rule_set.skope_rules.SkopeRulesClassifier" href="skope_rules.html#imodels.rule_set.skope_rules.SkopeRulesClassifier">SkopeRulesClassifier</a></b></code>:
+<ul class="hlist">
+<li><code><a title="imodels.rule_set.skope_rules.SkopeRulesClassifier.fit" href="skope_rules.html#imodels.rule_set.skope_rules.SkopeRulesClassifier.fit">fit</a></code></li>
+<li><code><a title="imodels.rule_set.skope_rules.SkopeRulesClassifier.predict" href="skope_rules.html#imodels.rule_set.skope_rules.SkopeRulesClassifier.predict">predict</a></code></li>
+<li><code><a title="imodels.rule_set.skope_rules.SkopeRulesClassifier.predict_proba" href="skope_rules.html#imodels.rule_set.skope_rules.SkopeRulesClassifier.predict_proba">predict_proba</a></code></li>
+<li><code><a title="imodels.rule_set.skope_rules.SkopeRulesClassifier.predict_top_rules" href="skope_rules.html#imodels.rule_set.skope_rules.SkopeRulesClassifier.predict_top_rules">predict_top_rules</a></code></li>
+<li><code><a title="imodels.rule_set.skope_rules.SkopeRulesClassifier.rules_vote" href="skope_rules.html#imodels.rule_set.skope_rules.SkopeRulesClassifier.rules_vote">rules_vote</a></code></li>
+<li><code><a title="imodels.rule_set.skope_rules.SkopeRulesClassifier.score_top_rules" href="skope_rules.html#imodels.rule_set.skope_rules.SkopeRulesClassifier.score_top_rules">score_top_rules</a></code></li>
+</ul>
+</li>
+</ul>
+</dd>
+</dl>
+</section>
+</article>
+<nav id="sidebar">
+<h1>Index</h1>
+<div class="toc">
+<ul></ul>
+</div>
+<ul id="index">
+<li><h3>Super-module</h3>
+<ul>
+<li><code><a title="imodels.rule_set" href="index.html">imodels.rule_set</a></code></li>
+</ul>
+</li>
+<li><h3><a href="#header-classes">Classes</a></h3>
+<ul>
+<li>
+<h4><code><a title="imodels.rule_set.fpskope.FPSkopeClassifier" href="#imodels.rule_set.fpskope.FPSkopeClassifier">FPSkopeClassifier</a></code></h4>
+</li>
+</ul>
+</li>
+</ul>
+</nav>
+</main>
+<footer id="footer">
+<p>Generated by <a href="https://pdoc3.github.io/pdoc"><cite>pdoc</cite> 0.7.2</a>.</p>
+</footer>
+<script src="https://cdnjs.cloudflare.com/ajax/libs/highlight.js/9.12.0/highlight.min.js"></script>
+<script>hljs.initHighlightingOnLoad()</script>
+</body>
+</html>
\ No newline at end of file
diff --git a/docs/rule_set/index.html b/docs/rule_set/index.html
index 42c5d936..a3df99af 100644
--- a/docs/rule_set/index.html
+++ b/docs/rule_set/index.html
@@ -36,6 +36,14 @@ <h2 class="section-title" id="header-submodules">Sub-modules</h2>
 <dd>
 <section class="desc"></section>
 </dd>
+<dt><code class="name"><a title="imodels.rule_set.fplasso" href="fplasso.html">imodels.rule_set.fplasso</a></code></dt>
+<dd>
+<section class="desc"></section>
+</dd>
+<dt><code class="name"><a title="imodels.rule_set.fpskope" href="fpskope.html">imodels.rule_set.fpskope</a></code></dt>
+<dd>
+<section class="desc"></section>
+</dd>
 <dt><code class="name"><a title="imodels.rule_set.rule_fit" href="rule_fit.html">imodels.rule_set.rule_fit</a></code></dt>
 <dd>
 <section class="desc"><p>Linear model of tree-based decision rules based on the rulefit algorithm from Friedman and Popescu …</p></section>
@@ -72,6 +80,8 @@ <h1>Index</h1>
 <li><h3><a href="#header-submodules">Sub-modules</a></h3>
 <ul>
 <li><code><a title="imodels.rule_set.boosted_rules" href="boosted_rules.html">imodels.rule_set.boosted_rules</a></code></li>
+<li><code><a title="imodels.rule_set.fplasso" href="fplasso.html">imodels.rule_set.fplasso</a></code></li>
+<li><code><a title="imodels.rule_set.fpskope" href="fpskope.html">imodels.rule_set.fpskope</a></code></li>
 <li><code><a title="imodels.rule_set.rule_fit" href="rule_fit.html">imodels.rule_set.rule_fit</a></code></li>
 <li><code><a title="imodels.rule_set.rule_set" href="rule_set.html">imodels.rule_set.rule_set</a></code></li>
 <li><code><a title="imodels.rule_set.skope_rules" href="skope_rules.html">imodels.rule_set.skope_rules</a></code></li>
diff --git a/docs/rule_set/rule_fit.html b/docs/rule_set/rule_fit.html
index 5f51388e..1a7c737c 100644
--- a/docs/rule_set/rule_fit.html
+++ b/docs/rule_set/rule_fit.html
@@ -40,6 +40,8 @@ <h1 class="title">Module <code>imodels.rule_set.rule_fit</code></h1>
 L1-regularized linear model, also called Lasso, which estimates the effects of each rule on the output target but at the
 same time estimating many of those effects to zero.
 &#34;&#34;&#34;
+from typing import List, Tuple
+
 import numpy as np
 import pandas as pd
 from sklearn.base import BaseEstimator
@@ -48,10 +50,11 @@ <h1 class="title">Module <code>imodels.rule_set.rule_fit</code></h1>
 from scipy.special import softmax
 
 from imodels.rule_set.rule_set import RuleSet
-from imodels.util.rule import enum_features
+from imodels.util.rule import get_feature_dict, replace_feature_name, Rule
 from imodels.util.transforms import Winsorizer, FriedScale
 from imodels.util.score import score_lasso
 from imodels.util.convert import tree_to_rules
+from imodels.util.extract import extract_rulefit
 
 class RuleFit(BaseEstimator, TransformerMixin, RuleSet):
     &#34;&#34;&#34;Rulefit class. Rather than using this class directly, should use RuleFitRegressor or RuleFitClassifier
@@ -139,15 +142,16 @@ <h1 class="title">Module <code>imodels.rule_set.rule_fit</code></h1>
         if type(y) in [pd.DataFrame, pd.Series]:
             y = y.values
 
-        self.n_obs = X.shape[0]
         self.n_features_ = X.shape[1]
-        self.feature_names_, self.feature_dict_ = enum_features(X, feature_names)
-
-        self.tree_generator = self._get_tree_ensemble(classify=False)
-        self._fit_tree_ensemble(X, y)
+        self.feature_dict_ = get_feature_dict(X.shape[1], feature_names)
+        self.feature_placeholders = list(self.feature_dict_.keys())
+        self.feature_names = list(self.feature_dict_.values())
 
-        extracted_rules = self._extract_rules()
+        extracted_rules = self._extract_rules(X, y)
         self.rules_without_feature_names_, self.coef, self.intercept = self._score_rules(X, y, extracted_rules)
+        self.rules_ = [
+            replace_feature_name(rule, self.feature_dict_) for rule in self.rules_without_feature_names_
+        ]
 
         return self
 
@@ -196,7 +200,7 @@ <h1 class="title">Module <code>imodels.rule_set.rule_fit</code></h1>
         X_transformed: matrix, shape=(n_samples, n_out)
             Transformed data set
         &#34;&#34;&#34;        
-        df = pd.DataFrame(X, columns=self.feature_names_)
+        df = pd.DataFrame(X, columns=self.feature_placeholders)
         X_transformed = np.zeros([X.shape[0], 0])
 
         for r in rules:
@@ -224,8 +228,7 @@ <h1 class="title">Module <code>imodels.rule_set.rule_fit</code></h1>
                the coefficients and &#39;support&#39; the support of the rule in the training
                data set (X)
         &#34;&#34;&#34;
-
-        n_features = len(self.coef) - len(self.rules_without_feature_names_)
+        n_features = len(self.coef) - len(self.rules_)
         rule_ensemble = list(self.rules_without_feature_names_)
         output_rules = []
         ## Add coefficients for linear effects
@@ -240,10 +243,10 @@ <h1 class="title">Module <code>imodels.rule_set.rule_fit</code></h1>
                 subregion = np.array(subregion)
                 importance = sum(abs(coef) * abs([x[i] for x in self.winsorizer.trim(subregion)] - self.mean[i])) / len(
                     subregion)
-            output_rules += [(self.feature_names_[i], &#39;linear&#39;, coef, 1, importance)]
+            output_rules += [(self.feature_names[i], &#39;linear&#39;, coef, 1, importance)]
 
         ## Add rules
-        for i in range(0, len(self.rules_without_feature_names_)):
+        for i in range(0, len(self.rules_)):
             rule = rule_ensemble[i]
             coef = self.coef[i + n_features]
 
@@ -253,7 +256,7 @@ <h1 class="title">Module <code>imodels.rule_set.rule_fit</code></h1>
                 rkx = self.transform(subregion, [rule])[:, -1]
                 importance = sum(abs(coef) * abs(rkx - rule.support)) / len(subregion)
 
-            output_rules += [(rule.__str__(), &#39;rule&#39;, coef, rule.support, importance)]
+            output_rules += [(self.rules_[i].rule, &#39;rule&#39;, coef, rule.support, importance)]
         rules = pd.DataFrame(output_rules, columns=[&#34;rule&#34;, &#34;type&#34;, &#34;coef&#34;, &#34;support&#34;, &#34;importance&#34;])
         if exclude_zero_coef:
             rules = rules.ix[rules.coef != 0]
@@ -264,70 +267,18 @@ <h1 class="title">Module <code>imodels.rule_set.rule_fit</code></h1>
         rules = rules[rules.coef != 0].sort_values(&#34;support&#34;, ascending=False)
         pd.set_option(&#39;display.max_colwidth&#39;, -1)
         return rules[[&#39;rule&#39;, &#39;coef&#39;]].round(3)
-
-    def _get_tree_ensemble(self, classify=False):
-
-        if self.tree_generator is None:
-            n_estimators_default = int(np.ceil(self.max_rules / self.tree_size))
-            self.sample_fract_ = min(0.5, (100 + 6 * np.sqrt(self.n_obs)) / self.n_obs)
-
-            tree_generator = GradientBoostingRegressor(n_estimators=n_estimators_default,
-                                                       max_leaf_nodes=self.tree_size,
-                                                       learning_rate=self.memory_par,
-                                                       subsample=self.sample_fract_,
-                                                       random_state=self.random_state,
-                                                       max_depth=100)
-
-        if type(tree_generator) not in [GradientBoostingRegressor, RandomForestRegressor]:
-            raise ValueError(&#34;RuleFit only works with RandomForest and BoostingRegressor&#34;)
-
-        return tree_generator
-
-    def _fit_tree_ensemble(self, X, y):
-        ## fit tree generator
-        if not self.exp_rand_tree_size:  # simply fit with constant tree size
-            self.tree_generator.fit(X, y)
-        else:  # randomise tree size as per Friedman 2005 Sec 3.3
-            np.random.seed(self.random_state)
-            tree_sizes = np.random.exponential(scale=self.tree_size - 2,
-                                               size=int(np.ceil(self.max_rules * 2 / self.tree_size)))
-            tree_sizes = np.asarray([2 + np.floor(tree_sizes[i_]) for i_ in np.arange(len(tree_sizes))], dtype=int)
-            i = int(len(tree_sizes) / 4)
-            while np.sum(tree_sizes[0:i]) &lt; self.max_rules:
-                i = i + 1
-            tree_sizes = tree_sizes[0:i]
-            self.tree_generator.set_params(warm_start=True)
-            curr_est_ = 0
-            for i_size in np.arange(len(tree_sizes)):
-                size = tree_sizes[i_size]
-                self.tree_generator.set_params(n_estimators=curr_est_ + 1)
-                self.tree_generator.set_params(max_leaf_nodes=size)
-                random_state_add = self.random_state if self.random_state else 0
-                self.tree_generator.set_params(
-                    random_state=i_size + random_state_add)  # warm_state=True seems to reset random_state, such that the trees are highly correlated, unless we manually change the random_sate here.
-                self.tree_generator.fit(np.copy(X, order=&#39;C&#39;), np.copy(y, order=&#39;C&#39;))
-                curr_est_ = curr_est_ + 1
-            self.tree_generator.set_params(warm_start=False)
-
-        if isinstance(self.tree_generator, RandomForestRegressor):
-            self.estimators_ = [[x] for x in self.tree_generator.estimators_]
-        else:
-            self.estimators_ = self.tree_generator.estimators_
     
-    def _extract_rules(self):
-        seen_antecedents = set()
-        extracted_rules = [] 
-        for estimator in self.estimators_:
-            for rule_value_pair in tree_to_rules(estimator[0], np.array(self.feature_names_), prediction_values=True):
-                if rule_value_pair[0] not in seen_antecedents:
-                    extracted_rules.append(rule_value_pair)
-                    seen_antecedents.add(rule_value_pair[0])
-        
-        extracted_rules = sorted(extracted_rules, key=lambda x: x[1])
-        extracted_rules = list(map(lambda x: x[0], extracted_rules))
-        return extracted_rules
-
-    def _score_rules(self, X, y, rules):
+    def _extract_rules(self, X, y) -&gt; List[Rule]:
+        return extract_rulefit(X, y, 
+                               feature_names=self.feature_placeholders,
+                               tree_size=self.tree_size,
+                               max_rules=self.max_rules,
+                               memory_par=self.memory_par,
+                               tree_generator=self.tree_generator,
+                               exp_rand_tree_size=self.exp_rand_tree_size,
+                               random_state=self.random_state)
+
+    def _score_rules(self, X, y, rules) -&gt; Tuple[List[Rule], List[float], float]:
         X_concat = np.zeros([X.shape[0], 0])
 
         # standardise linear variables if requested (for regression model only)
@@ -505,15 +456,16 @@ <h2 id="attributes">Attributes</h2>
         if type(y) in [pd.DataFrame, pd.Series]:
             y = y.values
 
-        self.n_obs = X.shape[0]
         self.n_features_ = X.shape[1]
-        self.feature_names_, self.feature_dict_ = enum_features(X, feature_names)
-
-        self.tree_generator = self._get_tree_ensemble(classify=False)
-        self._fit_tree_ensemble(X, y)
+        self.feature_dict_ = get_feature_dict(X.shape[1], feature_names)
+        self.feature_placeholders = list(self.feature_dict_.keys())
+        self.feature_names = list(self.feature_dict_.values())
 
-        extracted_rules = self._extract_rules()
+        extracted_rules = self._extract_rules(X, y)
         self.rules_without_feature_names_, self.coef, self.intercept = self._score_rules(X, y, extracted_rules)
+        self.rules_ = [
+            replace_feature_name(rule, self.feature_dict_) for rule in self.rules_without_feature_names_
+        ]
 
         return self
 
@@ -562,7 +514,7 @@ <h2 id="attributes">Attributes</h2>
         X_transformed: matrix, shape=(n_samples, n_out)
             Transformed data set
         &#34;&#34;&#34;        
-        df = pd.DataFrame(X, columns=self.feature_names_)
+        df = pd.DataFrame(X, columns=self.feature_placeholders)
         X_transformed = np.zeros([X.shape[0], 0])
 
         for r in rules:
@@ -590,8 +542,7 @@ <h2 id="attributes">Attributes</h2>
                the coefficients and &#39;support&#39; the support of the rule in the training
                data set (X)
         &#34;&#34;&#34;
-
-        n_features = len(self.coef) - len(self.rules_without_feature_names_)
+        n_features = len(self.coef) - len(self.rules_)
         rule_ensemble = list(self.rules_without_feature_names_)
         output_rules = []
         ## Add coefficients for linear effects
@@ -606,10 +557,10 @@ <h2 id="attributes">Attributes</h2>
                 subregion = np.array(subregion)
                 importance = sum(abs(coef) * abs([x[i] for x in self.winsorizer.trim(subregion)] - self.mean[i])) / len(
                     subregion)
-            output_rules += [(self.feature_names_[i], &#39;linear&#39;, coef, 1, importance)]
+            output_rules += [(self.feature_names[i], &#39;linear&#39;, coef, 1, importance)]
 
         ## Add rules
-        for i in range(0, len(self.rules_without_feature_names_)):
+        for i in range(0, len(self.rules_)):
             rule = rule_ensemble[i]
             coef = self.coef[i + n_features]
 
@@ -619,7 +570,7 @@ <h2 id="attributes">Attributes</h2>
                 rkx = self.transform(subregion, [rule])[:, -1]
                 importance = sum(abs(coef) * abs(rkx - rule.support)) / len(subregion)
 
-            output_rules += [(rule.__str__(), &#39;rule&#39;, coef, rule.support, importance)]
+            output_rules += [(self.rules_[i].rule, &#39;rule&#39;, coef, rule.support, importance)]
         rules = pd.DataFrame(output_rules, columns=[&#34;rule&#34;, &#34;type&#34;, &#34;coef&#34;, &#34;support&#34;, &#34;importance&#34;])
         if exclude_zero_coef:
             rules = rules.ix[rules.coef != 0]
@@ -630,70 +581,18 @@ <h2 id="attributes">Attributes</h2>
         rules = rules[rules.coef != 0].sort_values(&#34;support&#34;, ascending=False)
         pd.set_option(&#39;display.max_colwidth&#39;, -1)
         return rules[[&#39;rule&#39;, &#39;coef&#39;]].round(3)
-
-    def _get_tree_ensemble(self, classify=False):
-
-        if self.tree_generator is None:
-            n_estimators_default = int(np.ceil(self.max_rules / self.tree_size))
-            self.sample_fract_ = min(0.5, (100 + 6 * np.sqrt(self.n_obs)) / self.n_obs)
-
-            tree_generator = GradientBoostingRegressor(n_estimators=n_estimators_default,
-                                                       max_leaf_nodes=self.tree_size,
-                                                       learning_rate=self.memory_par,
-                                                       subsample=self.sample_fract_,
-                                                       random_state=self.random_state,
-                                                       max_depth=100)
-
-        if type(tree_generator) not in [GradientBoostingRegressor, RandomForestRegressor]:
-            raise ValueError(&#34;RuleFit only works with RandomForest and BoostingRegressor&#34;)
-
-        return tree_generator
-
-    def _fit_tree_ensemble(self, X, y):
-        ## fit tree generator
-        if not self.exp_rand_tree_size:  # simply fit with constant tree size
-            self.tree_generator.fit(X, y)
-        else:  # randomise tree size as per Friedman 2005 Sec 3.3
-            np.random.seed(self.random_state)
-            tree_sizes = np.random.exponential(scale=self.tree_size - 2,
-                                               size=int(np.ceil(self.max_rules * 2 / self.tree_size)))
-            tree_sizes = np.asarray([2 + np.floor(tree_sizes[i_]) for i_ in np.arange(len(tree_sizes))], dtype=int)
-            i = int(len(tree_sizes) / 4)
-            while np.sum(tree_sizes[0:i]) &lt; self.max_rules:
-                i = i + 1
-            tree_sizes = tree_sizes[0:i]
-            self.tree_generator.set_params(warm_start=True)
-            curr_est_ = 0
-            for i_size in np.arange(len(tree_sizes)):
-                size = tree_sizes[i_size]
-                self.tree_generator.set_params(n_estimators=curr_est_ + 1)
-                self.tree_generator.set_params(max_leaf_nodes=size)
-                random_state_add = self.random_state if self.random_state else 0
-                self.tree_generator.set_params(
-                    random_state=i_size + random_state_add)  # warm_state=True seems to reset random_state, such that the trees are highly correlated, unless we manually change the random_sate here.
-                self.tree_generator.fit(np.copy(X, order=&#39;C&#39;), np.copy(y, order=&#39;C&#39;))
-                curr_est_ = curr_est_ + 1
-            self.tree_generator.set_params(warm_start=False)
-
-        if isinstance(self.tree_generator, RandomForestRegressor):
-            self.estimators_ = [[x] for x in self.tree_generator.estimators_]
-        else:
-            self.estimators_ = self.tree_generator.estimators_
     
-    def _extract_rules(self):
-        seen_antecedents = set()
-        extracted_rules = [] 
-        for estimator in self.estimators_:
-            for rule_value_pair in tree_to_rules(estimator[0], np.array(self.feature_names_), prediction_values=True):
-                if rule_value_pair[0] not in seen_antecedents:
-                    extracted_rules.append(rule_value_pair)
-                    seen_antecedents.add(rule_value_pair[0])
-        
-        extracted_rules = sorted(extracted_rules, key=lambda x: x[1])
-        extracted_rules = list(map(lambda x: x[0], extracted_rules))
-        return extracted_rules
-
-    def _score_rules(self, X, y, rules):
+    def _extract_rules(self, X, y) -&gt; List[Rule]:
+        return extract_rulefit(X, y, 
+                               feature_names=self.feature_placeholders,
+                               tree_size=self.tree_size,
+                               max_rules=self.max_rules,
+                               memory_par=self.memory_par,
+                               tree_generator=self.tree_generator,
+                               exp_rand_tree_size=self.exp_rand_tree_size,
+                               random_state=self.random_state)
+
+    def _score_rules(self, X, y, rules) -&gt; Tuple[List[Rule], List[float], float]:
         X_concat = np.zeros([X.shape[0], 0])
 
         # standardise linear variables if requested (for regression model only)
@@ -730,6 +629,7 @@ <h3>Subclasses</h3>
 <ul class="hlist">
 <li><a title="imodels.rule_set.rule_fit.RuleFitRegressor" href="#imodels.rule_set.rule_fit.RuleFitRegressor">RuleFitRegressor</a></li>
 <li><a title="imodels.rule_set.rule_fit.RuleFitClassifier" href="#imodels.rule_set.rule_fit.RuleFitClassifier">RuleFitClassifier</a></li>
+<li><a title="imodels.rule_set.fplasso.FPLasso" href="fplasso.html#imodels.rule_set.fplasso.FPLasso">FPLasso</a></li>
 </ul>
 <h3>Methods</h3>
 <dl>
@@ -751,15 +651,16 @@ <h3>Methods</h3>
     if type(y) in [pd.DataFrame, pd.Series]:
         y = y.values
 
-    self.n_obs = X.shape[0]
     self.n_features_ = X.shape[1]
-    self.feature_names_, self.feature_dict_ = enum_features(X, feature_names)
-
-    self.tree_generator = self._get_tree_ensemble(classify=False)
-    self._fit_tree_ensemble(X, y)
+    self.feature_dict_ = get_feature_dict(X.shape[1], feature_names)
+    self.feature_placeholders = list(self.feature_dict_.keys())
+    self.feature_names = list(self.feature_dict_.values())
 
-    extracted_rules = self._extract_rules()
+    extracted_rules = self._extract_rules(X, y)
     self.rules_without_feature_names_, self.coef, self.intercept = self._score_rules(X, y, extracted_rules)
+    self.rules_ = [
+        replace_feature_name(rule, self.feature_dict_) for rule in self.rules_without_feature_names_
+    ]
 
     return self</code></pre>
 </details>
@@ -804,8 +705,7 @@ <h2 id="returns">Returns</h2>
            the coefficients and &#39;support&#39; the support of the rule in the training
            data set (X)
     &#34;&#34;&#34;
-
-    n_features = len(self.coef) - len(self.rules_without_feature_names_)
+    n_features = len(self.coef) - len(self.rules_)
     rule_ensemble = list(self.rules_without_feature_names_)
     output_rules = []
     ## Add coefficients for linear effects
@@ -820,10 +720,10 @@ <h2 id="returns">Returns</h2>
             subregion = np.array(subregion)
             importance = sum(abs(coef) * abs([x[i] for x in self.winsorizer.trim(subregion)] - self.mean[i])) / len(
                 subregion)
-        output_rules += [(self.feature_names_[i], &#39;linear&#39;, coef, 1, importance)]
+        output_rules += [(self.feature_names[i], &#39;linear&#39;, coef, 1, importance)]
 
     ## Add rules
-    for i in range(0, len(self.rules_without_feature_names_)):
+    for i in range(0, len(self.rules_)):
         rule = rule_ensemble[i]
         coef = self.coef[i + n_features]
 
@@ -833,7 +733,7 @@ <h2 id="returns">Returns</h2>
             rkx = self.transform(subregion, [rule])[:, -1]
             importance = sum(abs(coef) * abs(rkx - rule.support)) / len(subregion)
 
-        output_rules += [(rule.__str__(), &#39;rule&#39;, coef, rule.support, importance)]
+        output_rules += [(self.rules_[i].rule, &#39;rule&#39;, coef, rule.support, importance)]
     rules = pd.DataFrame(output_rules, columns=[&#34;rule&#34;, &#34;type&#34;, &#34;coef&#34;, &#34;support&#34;, &#34;importance&#34;])
     if exclude_zero_coef:
         rules = rules.ix[rules.coef != 0]
@@ -934,7 +834,7 @@ <h2 id="returns">Returns</h2>
     X_transformed: matrix, shape=(n_samples, n_out)
         Transformed data set
     &#34;&#34;&#34;        
-    df = pd.DataFrame(X, columns=self.feature_names_)
+    df = pd.DataFrame(X, columns=self.feature_placeholders)
     X_transformed = np.zeros([X.shape[0], 0])
 
     for r in rules:
diff --git a/docs/rule_set/rule_set.html b/docs/rule_set/rule_set.html
index 9b73f8bb..c06d8de4 100644
--- a/docs/rule_set/rule_set.html
+++ b/docs/rule_set/rule_set.html
@@ -33,13 +33,7 @@ <h1 class="title">Module <code>imodels.rule_set.rule_set</code></h1>
 
 class RuleSet:
 
-    def _get_tree_ensemble(self):
-        pass
-
-    def _fit_tree_ensemble(self, X, y):
-        pass
-
-    def _extract_rules(self):
+    def _extract_rules(self, X, y):
         pass
 
     def _score_rules(self, X, y, rules):
@@ -50,7 +44,7 @@ <h1 class="title">Module <code>imodels.rule_set.rule_set</code></h1>
 
     def eval_weighted_rule_sum(self, X) -&gt; np.ndarray:
 
-        check_is_fitted(self, [&#39;rules_without_feature_names_&#39;, &#39;n_features_&#39;, &#39;feature_names_&#39;])
+        check_is_fitted(self, [&#39;rules_without_feature_names_&#39;, &#39;n_features_&#39;, &#39;feature_placeholders&#39;])
         X = check_array(X)
 
         if X.shape[1] != self.n_features_:
@@ -58,7 +52,7 @@ <h1 class="title">Module <code>imodels.rule_set.rule_set</code></h1>
                              &#34; Please reshape your data.&#34;
                              % (X.shape[1], self.n_features_))
 
-        df = pd.DataFrame(X, columns=self.feature_names_)
+        df = pd.DataFrame(X, columns=self.feature_placeholders)
         selected_rules = self.rules_without_feature_names_
 
         scores = np.zeros(X.shape[0])
@@ -89,13 +83,7 @@ <h2 class="section-title" id="header-classes">Classes</h2>
 </summary>
 <pre><code class="python">class RuleSet:
 
-    def _get_tree_ensemble(self):
-        pass
-
-    def _fit_tree_ensemble(self, X, y):
-        pass
-
-    def _extract_rules(self):
+    def _extract_rules(self, X, y):
         pass
 
     def _score_rules(self, X, y, rules):
@@ -106,7 +94,7 @@ <h2 class="section-title" id="header-classes">Classes</h2>
 
     def eval_weighted_rule_sum(self, X) -&gt; np.ndarray:
 
-        check_is_fitted(self, [&#39;rules_without_feature_names_&#39;, &#39;n_features_&#39;, &#39;feature_names_&#39;])
+        check_is_fitted(self, [&#39;rules_without_feature_names_&#39;, &#39;n_features_&#39;, &#39;feature_placeholders&#39;])
         X = check_array(X)
 
         if X.shape[1] != self.n_features_:
@@ -114,7 +102,7 @@ <h2 class="section-title" id="header-classes">Classes</h2>
                              &#34; Please reshape your data.&#34;
                              % (X.shape[1], self.n_features_))
 
-        df = pd.DataFrame(X, columns=self.feature_names_)
+        df = pd.DataFrame(X, columns=self.feature_placeholders)
         selected_rules = self.rules_without_feature_names_
 
         scores = np.zeros(X.shape[0])
@@ -142,7 +130,7 @@ <h3>Methods</h3>
 </summary>
 <pre><code class="python">def eval_weighted_rule_sum(self, X) -&gt; np.ndarray:
 
-    check_is_fitted(self, [&#39;rules_without_feature_names_&#39;, &#39;n_features_&#39;, &#39;feature_names_&#39;])
+    check_is_fitted(self, [&#39;rules_without_feature_names_&#39;, &#39;n_features_&#39;, &#39;feature_placeholders&#39;])
     X = check_array(X)
 
     if X.shape[1] != self.n_features_:
@@ -150,7 +138,7 @@ <h3>Methods</h3>
                          &#34; Please reshape your data.&#34;
                          % (X.shape[1], self.n_features_))
 
-    df = pd.DataFrame(X, columns=self.feature_names_)
+    df = pd.DataFrame(X, columns=self.feature_placeholders)
     selected_rules = self.rules_without_feature_names_
 
     scores = np.zeros(X.shape[0])
diff --git a/docs/rule_set/skope_rules.html b/docs/rule_set/skope_rules.html
index 38a94d20..b690c69a 100644
--- a/docs/rule_set/skope_rules.html
+++ b/docs/rule_set/skope_rules.html
@@ -169,7 +169,8 @@ <h2 id="links-with-existing-literature">Links with existing literature</h2>
 
 from imodels.rule_set.rule_set import RuleSet
 from imodels.util.convert import tree_to_rules
-from imodels.util.rule import replace_feature_name, enum_features
+from imodels.util.rule import replace_feature_name, get_feature_dict, Rule
+from imodels.util.extract import extract_skope
 from imodels.util.score import score_oob
 from imodels.util.prune import prune_mins, deduplicate
 
@@ -326,7 +327,7 @@ <h2 id="links-with-existing-literature">Links with existing literature</h2>
         self.random_state = random_state
         self.verbose = verbose
 
-    def fit(self, X, y, feature_names=None, sample_weight=None) -&gt; &#39;SkopeRulesClassifier&#39;:
+    def fit(self, X, y, feature_names=None, sample_weight=None):
         &#34;&#34;&#34;Fit the model according to the given training data.
 
         Parameters
@@ -398,20 +399,18 @@ <h2 id="links-with-existing-literature">Links with existing literature</h2>
                 raise ValueError(&#34;max_samples must be in (0, 1], got %r&#34; % self.max_samples)
             max_samples = int(self.max_samples * X.shape[0])
         self.max_samples_ = max_samples
-        self._max_depths = self.max_depth if isinstance(self.max_depth, Iterable) else [self.max_depth]
 
-        self.feature_names_, self.feature_dict_ = enum_features(X, feature_names)
+        self.feature_dict_ = get_feature_dict(X.shape[1], feature_names)
+        self.feature_placeholders = list(self.feature_dict_.keys())
+        self.feature_names = list(self.feature_dict_.values())
 
-        self.tree_generators = self._get_tree_ensemble()
-        self._fit_tree_ensemble(X, y)
-
-        extracted_rules = self._extract_rules()
+        extracted_rules, self.estimators_samples_, self.estimators_features_ = self._extract_rules(X, y)
         scored_rules = self._score_rules(X, y, extracted_rules)
         self.rules_ = self._prune_rules(scored_rules)
 
         self.rules_without_feature_names_ = self.rules_
         self.rules_ = [
-            (replace_feature_name(rule, self.feature_dict_), perf) for rule, perf in self.rules_
+            replace_feature_name(rule, self.feature_dict_) for rule in self.rules_
         ]
         return self
 
@@ -431,13 +430,16 @@ <h2 id="links-with-existing-literature">Links with existing literature</h2>
             be considered as an outlier according to the selected rules.
         &#34;&#34;&#34;
 
-        return np.array((self.eval_weighted_rule_sum(X) &gt; 0), dtype=int)
+        return np.argmax(self.predict_proba(X), axis=1)
 
     def predict_proba(self, X) -&gt; np.ndarray:
         &#39;&#39;&#39;Predict probability of a particular sample being an outlier or not
 
         &#39;&#39;&#39;
-        y = self.rules_vote(X) / len(self.rules_without_feature_names_)
+        weight_sum = np.sum([w[0] for (r, w) in self.rules_without_feature_names_])
+        if weight_sum == 0:
+            return np.vstack((np.ones(X.shape[0]), np.zeros(X.shape[0]))).transpose()
+        y = self.eval_weighted_rule_sum(X) / weight_sum
         return np.vstack((1 - y, y)).transpose()
 
     def rules_vote(self, X) -&gt; np.ndarray:
@@ -460,8 +462,7 @@ <h2 id="links-with-existing-literature">Links with existing literature</h2>
 
         &#34;&#34;&#34;
         # Check if fit had been called
-        check_is_fitted(self, [&#39;rules_&#39;, &#39;estimators_&#39;, &#39;estimators_samples_&#39;,
-                               &#39;max_samples_&#39;])
+        check_is_fitted(self, [&#39;rules_&#39;, &#39;estimators_samples_&#39;, &#39;max_samples_&#39;])
 
         # Input validation
         X = check_array(X)
@@ -472,8 +473,8 @@ <h2 id="links-with-existing-literature">Links with existing literature</h2>
                              &#34; Please reshape your data.&#34;
                              % (X.shape[1], self.n_features_))
 
-        df = pandas.DataFrame(X, columns=self.feature_names_)
-        selected_rules = self.rules_
+        df = pandas.DataFrame(X, columns=self.feature_placeholders)
+        selected_rules = self.rules_without_feature_names_
 
         scores = np.zeros(X.shape[0])
         for (r, _) in selected_rules:
@@ -502,8 +503,7 @@ <h2 id="links-with-existing-literature">Links with existing literature</h2>
 
         &#34;&#34;&#34;
         # Check if fit had been called
-        check_is_fitted(self, [&#39;rules_&#39;, &#39;estimators_&#39;, &#39;estimators_samples_&#39;,
-                               &#39;max_samples_&#39;])
+        check_is_fitted(self, [&#39;rules_&#39;, &#39;estimators_samples_&#39;, &#39;max_samples_&#39;])
 
         # Input validation
         X = check_array(X)
@@ -514,14 +514,14 @@ <h2 id="links-with-existing-literature">Links with existing literature</h2>
                              &#34; Please reshape your data.&#34;
                              % (X.shape[1], self.n_features_))
 
-        df = pandas.DataFrame(X, columns=self.feature_names_)
+        df = pandas.DataFrame(X, columns=self.feature_placeholders)
         selected_rules = self.rules_without_feature_names_
 
         scores = np.zeros(X.shape[0])
         for (k, r) in enumerate(list((selected_rules))):
-            scores[list(df.query(r[0]).index)] = np.maximum(
+            scores[list(df.query(r.rule).index)] = np.maximum(
                 len(selected_rules) - k,
-                scores[list(df.query(r[0]).index)])
+                scores[list(df.query(r.rule).index)])
 
         return scores
 
@@ -550,71 +550,27 @@ <h2 id="links-with-existing-literature">Links with existing literature</h2>
         return np.array((self.score_top_rules(X) &gt; len(self.rules_) - n_rules),
                         dtype=int)
 
-    def _get_tree_ensemble(self) -&gt; Union[List[BaggingClassifier], List[BaggingRegressor]]:
-
-        for ensemble_class, tree_class in [
-            (BaggingClassifier, DecisionTreeClassifier), (BaggingRegressor, DecisionTreeRegressor)
-        ]:
-
-            ensembles = []
-
-            for max_depth in self._max_depths:
-                bagging_clf = ensemble_class(
-                    base_estimator=tree_class(
-                        max_depth=max_depth,
-                        max_features=self.max_features,
-                        min_samples_split=self.min_samples_split
-                    ),
-                    n_estimators=self.n_estimators,
-                    max_samples=self.max_samples_,
-                    max_features=self.max_samples_features,
-                    bootstrap=self.bootstrap,
-                    bootstrap_features=self.bootstrap_features,
-                    # oob_score=... XXX may be added
-                    # if selection on tree perf needed.
-                    # warm_start=... XXX may be added to increase computation perf.
-                    n_jobs=self.n_jobs,
-                    random_state=self.random_state,
-                    verbose=self.verbose
-                )
-                ensembles.append(bagging_clf)
-
-        return ensembles
-
-    def _fit_tree_ensemble(self, X, y) -&gt; None:
-        y_reg = y
-        if self.sample_weight is not None:
-            sample_weight = check_array(self.sample_weight, ensure_2d=False)
-            weights = sample_weight - sample_weight.min()
-            contamination = float(sum(y)) / len(y)
-            y_reg = (
-                    pow(weights, 0.5) * 0.5 / contamination * (y &gt; 0) -
-                    pow((weights).mean(), 0.5) * (y == 0)
-            )
-            y_reg = 1. / (1 + np.exp(-y_reg))  # sigmoid
-
-        for e in self.tree_generators[:len(self.tree_generators) // 2]:
-            e.fit(X, y)
-
-        for e in self.tree_generators[len(self.tree_generators) // 2:]:
-            e.fit(X, y_reg)
-
-    def _extract_rules(self):
-        self.estimators_, self.estimators_samples_, self.estimators_features_ = [], [], []
-        for ensemble in self.tree_generators:
-            self.estimators_ += ensemble.estimators_
-            self.estimators_samples_ += ensemble.estimators_samples_
-            self.estimators_features_ += ensemble.estimators_features_
-
-        extracted_rules = []
-        for estimator, features in zip(self.estimators_, self.estimators_features_):
-            extracted_rules.append(tree_to_rules(estimator, np.array(self.feature_names_)[features]))
-        return extracted_rules
-
-    def _score_rules(self, X, y, rules):
-        return score_oob(X, y, rules, self.estimators_samples_, self.estimators_features_, self.feature_names_)
-
-    def _prune_rules(self, rules):
+    def _extract_rules(self, X, y) -&gt; Tuple[List[str], List[np.array], List[np.array]]:
+        return extract_skope(X, y,
+                             feature_names=self.feature_placeholders,
+                             sample_weight=self.sample_weight,
+                             n_estimators=self.n_estimators,
+                             max_samples=self.max_samples_,
+                             max_samples_features=self.max_samples_features,
+                             bootstrap=self.bootstrap,
+                             bootstrap_features=self.bootstrap_features,
+                             max_depths=self.max_depth,
+                             max_depth_duplication=self.max_depth_duplication,
+                             max_features=self.max_features,
+                             min_samples_split=self.min_samples_split,
+                             n_jobs=self.n_jobs,
+                             random_state=self.random_state,
+                             verbose=self.verbose)
+
+    def _score_rules(self, X, y, rules) -&gt; List[Rule]:
+        return score_oob(X, y, rules, self.estimators_samples_, self.estimators_features_, self.feature_placeholders)
+
+    def _prune_rules(self, rules) -&gt; List[Rule]:
         return deduplicate(
             prune_mins(rules, self.precision_min, self.recall_min),
             self.max_depth_duplication
@@ -889,7 +845,7 @@ <h2 id="attributes">Attributes</h2>
         self.random_state = random_state
         self.verbose = verbose
 
-    def fit(self, X, y, feature_names=None, sample_weight=None) -&gt; &#39;SkopeRulesClassifier&#39;:
+    def fit(self, X, y, feature_names=None, sample_weight=None):
         &#34;&#34;&#34;Fit the model according to the given training data.
 
         Parameters
@@ -961,20 +917,18 @@ <h2 id="attributes">Attributes</h2>
                 raise ValueError(&#34;max_samples must be in (0, 1], got %r&#34; % self.max_samples)
             max_samples = int(self.max_samples * X.shape[0])
         self.max_samples_ = max_samples
-        self._max_depths = self.max_depth if isinstance(self.max_depth, Iterable) else [self.max_depth]
-
-        self.feature_names_, self.feature_dict_ = enum_features(X, feature_names)
 
-        self.tree_generators = self._get_tree_ensemble()
-        self._fit_tree_ensemble(X, y)
+        self.feature_dict_ = get_feature_dict(X.shape[1], feature_names)
+        self.feature_placeholders = list(self.feature_dict_.keys())
+        self.feature_names = list(self.feature_dict_.values())
 
-        extracted_rules = self._extract_rules()
+        extracted_rules, self.estimators_samples_, self.estimators_features_ = self._extract_rules(X, y)
         scored_rules = self._score_rules(X, y, extracted_rules)
         self.rules_ = self._prune_rules(scored_rules)
 
         self.rules_without_feature_names_ = self.rules_
         self.rules_ = [
-            (replace_feature_name(rule, self.feature_dict_), perf) for rule, perf in self.rules_
+            replace_feature_name(rule, self.feature_dict_) for rule in self.rules_
         ]
         return self
 
@@ -994,13 +948,16 @@ <h2 id="attributes">Attributes</h2>
             be considered as an outlier according to the selected rules.
         &#34;&#34;&#34;
 
-        return np.array((self.eval_weighted_rule_sum(X) &gt; 0), dtype=int)
+        return np.argmax(self.predict_proba(X), axis=1)
 
     def predict_proba(self, X) -&gt; np.ndarray:
         &#39;&#39;&#39;Predict probability of a particular sample being an outlier or not
 
         &#39;&#39;&#39;
-        y = self.rules_vote(X) / len(self.rules_without_feature_names_)
+        weight_sum = np.sum([w[0] for (r, w) in self.rules_without_feature_names_])
+        if weight_sum == 0:
+            return np.vstack((np.ones(X.shape[0]), np.zeros(X.shape[0]))).transpose()
+        y = self.eval_weighted_rule_sum(X) / weight_sum
         return np.vstack((1 - y, y)).transpose()
 
     def rules_vote(self, X) -&gt; np.ndarray:
@@ -1023,8 +980,7 @@ <h2 id="attributes">Attributes</h2>
 
         &#34;&#34;&#34;
         # Check if fit had been called
-        check_is_fitted(self, [&#39;rules_&#39;, &#39;estimators_&#39;, &#39;estimators_samples_&#39;,
-                               &#39;max_samples_&#39;])
+        check_is_fitted(self, [&#39;rules_&#39;, &#39;estimators_samples_&#39;, &#39;max_samples_&#39;])
 
         # Input validation
         X = check_array(X)
@@ -1035,8 +991,8 @@ <h2 id="attributes">Attributes</h2>
                              &#34; Please reshape your data.&#34;
                              % (X.shape[1], self.n_features_))
 
-        df = pandas.DataFrame(X, columns=self.feature_names_)
-        selected_rules = self.rules_
+        df = pandas.DataFrame(X, columns=self.feature_placeholders)
+        selected_rules = self.rules_without_feature_names_
 
         scores = np.zeros(X.shape[0])
         for (r, _) in selected_rules:
@@ -1065,8 +1021,7 @@ <h2 id="attributes">Attributes</h2>
 
         &#34;&#34;&#34;
         # Check if fit had been called
-        check_is_fitted(self, [&#39;rules_&#39;, &#39;estimators_&#39;, &#39;estimators_samples_&#39;,
-                               &#39;max_samples_&#39;])
+        check_is_fitted(self, [&#39;rules_&#39;, &#39;estimators_samples_&#39;, &#39;max_samples_&#39;])
 
         # Input validation
         X = check_array(X)
@@ -1077,14 +1032,14 @@ <h2 id="attributes">Attributes</h2>
                              &#34; Please reshape your data.&#34;
                              % (X.shape[1], self.n_features_))
 
-        df = pandas.DataFrame(X, columns=self.feature_names_)
+        df = pandas.DataFrame(X, columns=self.feature_placeholders)
         selected_rules = self.rules_without_feature_names_
 
         scores = np.zeros(X.shape[0])
         for (k, r) in enumerate(list((selected_rules))):
-            scores[list(df.query(r[0]).index)] = np.maximum(
+            scores[list(df.query(r.rule).index)] = np.maximum(
                 len(selected_rules) - k,
-                scores[list(df.query(r[0]).index)])
+                scores[list(df.query(r.rule).index)])
 
         return scores
 
@@ -1113,71 +1068,27 @@ <h2 id="attributes">Attributes</h2>
         return np.array((self.score_top_rules(X) &gt; len(self.rules_) - n_rules),
                         dtype=int)
 
-    def _get_tree_ensemble(self) -&gt; Union[List[BaggingClassifier], List[BaggingRegressor]]:
-
-        for ensemble_class, tree_class in [
-            (BaggingClassifier, DecisionTreeClassifier), (BaggingRegressor, DecisionTreeRegressor)
-        ]:
-
-            ensembles = []
-
-            for max_depth in self._max_depths:
-                bagging_clf = ensemble_class(
-                    base_estimator=tree_class(
-                        max_depth=max_depth,
-                        max_features=self.max_features,
-                        min_samples_split=self.min_samples_split
-                    ),
-                    n_estimators=self.n_estimators,
-                    max_samples=self.max_samples_,
-                    max_features=self.max_samples_features,
-                    bootstrap=self.bootstrap,
-                    bootstrap_features=self.bootstrap_features,
-                    # oob_score=... XXX may be added
-                    # if selection on tree perf needed.
-                    # warm_start=... XXX may be added to increase computation perf.
-                    n_jobs=self.n_jobs,
-                    random_state=self.random_state,
-                    verbose=self.verbose
-                )
-                ensembles.append(bagging_clf)
-
-        return ensembles
-
-    def _fit_tree_ensemble(self, X, y) -&gt; None:
-        y_reg = y
-        if self.sample_weight is not None:
-            sample_weight = check_array(self.sample_weight, ensure_2d=False)
-            weights = sample_weight - sample_weight.min()
-            contamination = float(sum(y)) / len(y)
-            y_reg = (
-                    pow(weights, 0.5) * 0.5 / contamination * (y &gt; 0) -
-                    pow((weights).mean(), 0.5) * (y == 0)
-            )
-            y_reg = 1. / (1 + np.exp(-y_reg))  # sigmoid
-
-        for e in self.tree_generators[:len(self.tree_generators) // 2]:
-            e.fit(X, y)
-
-        for e in self.tree_generators[len(self.tree_generators) // 2:]:
-            e.fit(X, y_reg)
-
-    def _extract_rules(self):
-        self.estimators_, self.estimators_samples_, self.estimators_features_ = [], [], []
-        for ensemble in self.tree_generators:
-            self.estimators_ += ensemble.estimators_
-            self.estimators_samples_ += ensemble.estimators_samples_
-            self.estimators_features_ += ensemble.estimators_features_
-
-        extracted_rules = []
-        for estimator, features in zip(self.estimators_, self.estimators_features_):
-            extracted_rules.append(tree_to_rules(estimator, np.array(self.feature_names_)[features]))
-        return extracted_rules
-
-    def _score_rules(self, X, y, rules):
-        return score_oob(X, y, rules, self.estimators_samples_, self.estimators_features_, self.feature_names_)
-
-    def _prune_rules(self, rules):
+    def _extract_rules(self, X, y) -&gt; Tuple[List[str], List[np.array], List[np.array]]:
+        return extract_skope(X, y,
+                             feature_names=self.feature_placeholders,
+                             sample_weight=self.sample_weight,
+                             n_estimators=self.n_estimators,
+                             max_samples=self.max_samples_,
+                             max_samples_features=self.max_samples_features,
+                             bootstrap=self.bootstrap,
+                             bootstrap_features=self.bootstrap_features,
+                             max_depths=self.max_depth,
+                             max_depth_duplication=self.max_depth_duplication,
+                             max_features=self.max_features,
+                             min_samples_split=self.min_samples_split,
+                             n_jobs=self.n_jobs,
+                             random_state=self.random_state,
+                             verbose=self.verbose)
+
+    def _score_rules(self, X, y, rules) -&gt; List[Rule]:
+        return score_oob(X, y, rules, self.estimators_samples_, self.estimators_features_, self.feature_placeholders)
+
+    def _prune_rules(self, rules) -&gt; List[Rule]:
         return deduplicate(
             prune_mins(rules, self.precision_min, self.recall_min),
             self.max_depth_duplication
@@ -1188,6 +1099,10 @@ <h3>Ancestors</h3>
 <li>sklearn.base.BaseEstimator</li>
 <li><a title="imodels.rule_set.rule_set.RuleSet" href="rule_set.html#imodels.rule_set.rule_set.RuleSet">RuleSet</a></li>
 </ul>
+<h3>Subclasses</h3>
+<ul class="hlist">
+<li><a title="imodels.rule_set.fpskope.FPSkopeClassifier" href="fpskope.html#imodels.rule_set.fpskope.FPSkopeClassifier">FPSkopeClassifier</a></li>
+</ul>
 <h3>Methods</h3>
 <dl>
 <dt id="imodels.rule_set.skope_rules.SkopeRulesClassifier.fit"><code class="name flex">
@@ -1218,7 +1133,7 @@ <h2 id="returns">Returns</h2>
 <summary>
 <span>Expand source code</span>
 </summary>
-<pre><code class="python">def fit(self, X, y, feature_names=None, sample_weight=None) -&gt; &#39;SkopeRulesClassifier&#39;:
+<pre><code class="python">def fit(self, X, y, feature_names=None, sample_weight=None):
     &#34;&#34;&#34;Fit the model according to the given training data.
 
     Parameters
@@ -1290,20 +1205,18 @@ <h2 id="returns">Returns</h2>
             raise ValueError(&#34;max_samples must be in (0, 1], got %r&#34; % self.max_samples)
         max_samples = int(self.max_samples * X.shape[0])
     self.max_samples_ = max_samples
-    self._max_depths = self.max_depth if isinstance(self.max_depth, Iterable) else [self.max_depth]
-
-    self.feature_names_, self.feature_dict_ = enum_features(X, feature_names)
 
-    self.tree_generators = self._get_tree_ensemble()
-    self._fit_tree_ensemble(X, y)
+    self.feature_dict_ = get_feature_dict(X.shape[1], feature_names)
+    self.feature_placeholders = list(self.feature_dict_.keys())
+    self.feature_names = list(self.feature_dict_.values())
 
-    extracted_rules = self._extract_rules()
+    extracted_rules, self.estimators_samples_, self.estimators_features_ = self._extract_rules(X, y)
     scored_rules = self._score_rules(X, y, extracted_rules)
     self.rules_ = self._prune_rules(scored_rules)
 
     self.rules_without_feature_names_ = self.rules_
     self.rules_ = [
-        (replace_feature_name(rule, self.feature_dict_), perf) for rule, perf in self.rules_
+        replace_feature_name(rule, self.feature_dict_) for rule in self.rules_
     ]
     return self</code></pre>
 </details>
@@ -1345,7 +1258,7 @@ <h2 id="returns">Returns</h2>
         be considered as an outlier according to the selected rules.
     &#34;&#34;&#34;
 
-    return np.array((self.eval_weighted_rule_sum(X) &gt; 0), dtype=int)</code></pre>
+    return np.argmax(self.predict_proba(X), axis=1)</code></pre>
 </details>
 </dd>
 <dt id="imodels.rule_set.skope_rules.SkopeRulesClassifier.predict_proba"><code class="name flex">
@@ -1361,7 +1274,10 @@ <h2 id="returns">Returns</h2>
     &#39;&#39;&#39;Predict probability of a particular sample being an outlier or not
 
     &#39;&#39;&#39;
-    y = self.rules_vote(X) / len(self.rules_without_feature_names_)
+    weight_sum = np.sum([w[0] for (r, w) in self.rules_without_feature_names_])
+    if weight_sum == 0:
+        return np.vstack((np.ones(X.shape[0]), np.zeros(X.shape[0]))).transpose()
+    y = self.eval_weighted_rule_sum(X) / weight_sum
     return np.vstack((1 - y, y)).transpose()</code></pre>
 </details>
 </dd>
@@ -1460,8 +1376,7 @@ <h2 id="returns">Returns</h2>
 
     &#34;&#34;&#34;
     # Check if fit had been called
-    check_is_fitted(self, [&#39;rules_&#39;, &#39;estimators_&#39;, &#39;estimators_samples_&#39;,
-                           &#39;max_samples_&#39;])
+    check_is_fitted(self, [&#39;rules_&#39;, &#39;estimators_samples_&#39;, &#39;max_samples_&#39;])
 
     # Input validation
     X = check_array(X)
@@ -1472,8 +1387,8 @@ <h2 id="returns">Returns</h2>
                          &#34; Please reshape your data.&#34;
                          % (X.shape[1], self.n_features_))
 
-    df = pandas.DataFrame(X, columns=self.feature_names_)
-    selected_rules = self.rules_
+    df = pandas.DataFrame(X, columns=self.feature_placeholders)
+    selected_rules = self.rules_without_feature_names_
 
     scores = np.zeros(X.shape[0])
     for (r, _) in selected_rules:
@@ -1527,8 +1442,7 @@ <h2 id="returns">Returns</h2>
 
     &#34;&#34;&#34;
     # Check if fit had been called
-    check_is_fitted(self, [&#39;rules_&#39;, &#39;estimators_&#39;, &#39;estimators_samples_&#39;,
-                           &#39;max_samples_&#39;])
+    check_is_fitted(self, [&#39;rules_&#39;, &#39;estimators_samples_&#39;, &#39;max_samples_&#39;])
 
     # Input validation
     X = check_array(X)
@@ -1539,14 +1453,14 @@ <h2 id="returns">Returns</h2>
                          &#34; Please reshape your data.&#34;
                          % (X.shape[1], self.n_features_))
 
-    df = pandas.DataFrame(X, columns=self.feature_names_)
+    df = pandas.DataFrame(X, columns=self.feature_placeholders)
     selected_rules = self.rules_without_feature_names_
 
     scores = np.zeros(X.shape[0])
     for (k, r) in enumerate(list((selected_rules))):
-        scores[list(df.query(r[0]).index)] = np.maximum(
+        scores[list(df.query(r.rule).index)] = np.maximum(
             len(selected_rules) - k,
-            scores[list(df.query(r[0]).index)])
+            scores[list(df.query(r.rule).index)])
 
     return scores</code></pre>
 </details>
diff --git a/docs/util/convert.html b/docs/util/convert.html
index 8975e293..394e8ff1 100644
--- a/docs/util/convert.html
+++ b/docs/util/convert.html
@@ -28,7 +28,7 @@ <h1 class="title">Module <code>imodels.util.convert</code></h1>
 from sklearn.tree import DecisionTreeClassifier, DecisionTreeRegressor
 from sklearn.tree import _tree
 from sklearn.tree import _tree
-from typing import Union, List
+from typing import Union, List, Tuple
 
 
 def tree_to_rules(tree: Union[DecisionTreeClassifier, DecisionTreeRegressor],
@@ -123,7 +123,32 @@ <h1 class="title">Module <code>imodels.util.convert</code></h1>
         # space=node_depth[i] * &#34;\t&#34;, node=i))
         else:
             s += f&#34;{feature_names[feature[i]]} &lt;= {threshold[i]}&#34;
-    return s + &#39;\n&#39;</code></pre>
+    return s + &#39;\n&#39;
+
+
+def itemsets_to_rules(itemsets: List[Tuple]) -&gt; List[str]:
+    itemsets_without_all = [itemset for itemset in itemsets if &#39;All&#39; not in &#39;&#39;.join(itemset)]
+    f = lambda itemset: &#39; and &#39;.join([single_discretized_feature_to_rule(item) for item in itemset])
+    return list(map(f, itemsets_without_all))
+
+
+def single_discretized_feature_to_rule(feat: str) -&gt; str:
+    
+    feat_split = feat.split(&#39;_to_&#39;)
+    upper_value = feat_split[-1]
+    lower_value = feat_split[-2].split(&#39;_&#39;)[-1]
+    
+    lower_to_upper_len = 1 + len(lower_value) + 4 + len(upper_value)
+    feature_name = feat[:-lower_to_upper_len]
+    
+    if lower_value == &#39;-inf&#39;:
+        rule = f&#39;{feature_name} &lt;= {upper_value}&#39;
+    elif upper_value == &#39;inf&#39;:
+        rule = f&#39;{feature_name} &gt; {lower_value}&#39;
+    else:
+        rule = f&#39;{feature_name} &gt; {lower_value} and {feature_name} &lt;= {upper_value}&#39;
+    
+    return rule</code></pre>
 </details>
 </section>
 <section>
@@ -133,6 +158,49 @@ <h1 class="title">Module <code>imodels.util.convert</code></h1>
 <section>
 <h2 class="section-title" id="header-functions">Functions</h2>
 <dl>
+<dt id="imodels.util.convert.itemsets_to_rules"><code class="name flex">
+<span>def <span class="ident">itemsets_to_rules</span></span>(<span>itemsets)</span>
+</code></dt>
+<dd>
+<section class="desc"></section>
+<details class="source">
+<summary>
+<span>Expand source code</span>
+</summary>
+<pre><code class="python">def itemsets_to_rules(itemsets: List[Tuple]) -&gt; List[str]:
+    itemsets_without_all = [itemset for itemset in itemsets if &#39;All&#39; not in &#39;&#39;.join(itemset)]
+    f = lambda itemset: &#39; and &#39;.join([single_discretized_feature_to_rule(item) for item in itemset])
+    return list(map(f, itemsets_without_all))</code></pre>
+</details>
+</dd>
+<dt id="imodels.util.convert.single_discretized_feature_to_rule"><code class="name flex">
+<span>def <span class="ident">single_discretized_feature_to_rule</span></span>(<span>feat)</span>
+</code></dt>
+<dd>
+<section class="desc"></section>
+<details class="source">
+<summary>
+<span>Expand source code</span>
+</summary>
+<pre><code class="python">def single_discretized_feature_to_rule(feat: str) -&gt; str:
+    
+    feat_split = feat.split(&#39;_to_&#39;)
+    upper_value = feat_split[-1]
+    lower_value = feat_split[-2].split(&#39;_&#39;)[-1]
+    
+    lower_to_upper_len = 1 + len(lower_value) + 4 + len(upper_value)
+    feature_name = feat[:-lower_to_upper_len]
+    
+    if lower_value == &#39;-inf&#39;:
+        rule = f&#39;{feature_name} &lt;= {upper_value}&#39;
+    elif upper_value == &#39;inf&#39;:
+        rule = f&#39;{feature_name} &gt; {lower_value}&#39;
+    else:
+        rule = f&#39;{feature_name} &gt; {lower_value} and {feature_name} &lt;= {upper_value}&#39;
+    
+    return rule</code></pre>
+</details>
+</dd>
 <dt id="imodels.util.convert.tree_to_code"><code class="name flex">
 <span>def <span class="ident">tree_to_code</span></span>(<span>clf, feature_names)</span>
 </code></dt>
@@ -270,6 +338,8 @@ <h1>Index</h1>
 </li>
 <li><h3><a href="#header-functions">Functions</a></h3>
 <ul class="">
+<li><code><a title="imodels.util.convert.itemsets_to_rules" href="#imodels.util.convert.itemsets_to_rules">itemsets_to_rules</a></code></li>
+<li><code><a title="imodels.util.convert.single_discretized_feature_to_rule" href="#imodels.util.convert.single_discretized_feature_to_rule">single_discretized_feature_to_rule</a></code></li>
 <li><code><a title="imodels.util.convert.tree_to_code" href="#imodels.util.convert.tree_to_code">tree_to_code</a></code></li>
 <li><code><a title="imodels.util.convert.tree_to_rules" href="#imodels.util.convert.tree_to_rules">tree_to_rules</a></code></li>
 </ul>
diff --git a/docs/util/discretization/index.html b/docs/util/discretization/index.html
index 0e3fe17b..0412e6f8 100644
--- a/docs/util/discretization/index.html
+++ b/docs/util/discretization/index.html
@@ -33,10 +33,10 @@ <h1 id="discretization-mdlp">Discretization MDLP</h1>
 python MDLPC.py &ndash;options=&hellip;</li>
 </ol>
 <p>script options:
-<em> in_path (required): Path to dataset in .csv format (must include header)
-</em> out_path (required): Path where the discretized dataset will be saved
-<em> features (optional): comma-separated list of attribute names to be discretized, e.g., features=attr1,attr2,attr3
-</em> class_label (required): label of class column in .csv dataset
+* in_path (required): Path to dataset in .csv format (must include header)
+* out_path (required): Path where the discretized dataset will be saved
+* features (optional): comma-separated list of attribute names to be discretized, e.g., features=attr1,attr2,attr3
+* class_label (required): label of class column in .csv dataset
 * return_bins (optional): Doesn't take on values. If specified (&ndash;return_bins), a text file will be saved in the same directory as out_path. This file will include the description of the bins computed by the algorighm.</p>
 <p><strong>Dependencies:</strong></p>
 <ol>
diff --git a/docs/util/discretization/mdlp.html b/docs/util/discretization/mdlp.html
index 655498a1..867bc803 100644
--- a/docs/util/discretization/mdlp.html
+++ b/docs/util/discretization/mdlp.html
@@ -29,6 +29,7 @@ <h1 class="title">Module <code>imodels.util.discretization.mdlp</code></h1>
 __author__ = &#39;Victor Ruiz, vmr11@pitt.edu&#39;
 
 from math import log
+import numbers
 
 import numpy as np
 import pandas as pd
@@ -283,7 +284,106 @@ <h1 class="title">Module <code>imodels.util.discretization.mdlp</code></h1>
                 #                 print(&gt;&gt;bins_file, &#39;Description of bins in file: %s&#39; % out_data_path)
                 for attr in self._features:
                     print(&#39;attr: %s\n\t%s&#39; % (attr, &#39;, &#39;.join([bin_label for bin_label in bin_label_collection[attr]])),
-                          file=bins_file)</code></pre>
+                          file=bins_file)
+
+class BRLDiscretizer:
+    
+    def __init__(self, X, y, feature_labels, verbose=False):
+        self.feature_labels = feature_labels
+        self.verbose = verbose
+ 
+    def discretize_mixed_data(self, X, y, undiscretized_features=[]):
+        if type(X) != list:
+            X = np.array(X).tolist()
+
+        # check which features are numeric (to be discretized)
+        self.discretized_features = []
+        for fi in range(len(X[0])):
+            # if not string, and not specified as undiscretized
+            if isinstance(X[0][fi], numbers.Number) \
+                    and (len(self.feature_labels) == 0 or \
+                         len(undiscretized_features) == 0 or \
+                         self.feature_labels[fi] not in undiscretized_features):
+                self.discretized_features.append(self.feature_labels[fi])
+
+        if len(self.discretized_features) &gt; 0:
+            if self.verbose:
+                print(
+                    &#34;Warning: non-categorical data found. Trying to discretize. (Please convert categorical values to &#34;
+                    &#34;strings, and/or specify the argument &#39;undiscretized_features&#39;, to avoid this.)&#34;)
+            X = self.discretize(X, y)
+        
+        self.discretized_X = X
+        return X
+    
+    def discretize(self, X, y):
+        &#39;&#39;&#39;Discretize the features specified in self.discretized_features
+        &#39;&#39;&#39;
+        if self.verbose:
+            print(&#34;Discretizing &#34;, self.discretized_features, &#34;...&#34;)
+        D = pd.DataFrame(np.hstack((X, np.array(y).reshape((len(y), 1)))), columns=list(self.feature_labels) + [&#34;y&#34;])
+        self.discretizer = MDLP_Discretizer(dataset=D, class_label=&#34;y&#34;, features=self.discretized_features)
+
+        cat_data = pd.DataFrame(np.zeros_like(X))
+        for i in range(len(self.feature_labels)):
+            label = self.feature_labels[i]
+            if label in self.discretized_features:
+                column = []
+                for j in range(len(self.discretizer._data[label])):
+                    column += [label + &#34; : &#34; + self.discretizer._data[label][j]]
+                cat_data.iloc[:, i] = np.array(column)
+            else:
+                cat_data.iloc[:, i] = D[label]
+
+        return np.array(cat_data).tolist()
+
+    def apply_discretization(self, X, return_onehot=False):
+        
+        if type(X) in [pd.DataFrame, pd.Series]:
+            X = X.values
+        
+        self.data = pd.DataFrame(X, columns=self.feature_labels)
+        self.apply_cutpoints()
+        D = np.array(self.data)
+
+        # prepend feature labels
+        Dl = np.copy(D).astype(str).tolist()
+        for i in range(len(Dl)):
+            for j in range(len(Dl[0])):
+                Dl[i][j] = self.feature_labels[j] + &#34; : &#34; + Dl[i][j]
+        
+        if not return_onehot:
+            return Dl
+        else:
+            return self.get_onehot_df(Dl)
+    
+    @property
+    def onehot_df(self):
+        return self.get_onehot_df(self.discretized_X)
+
+    def get_onehot_df(self, discretized_X):
+        &#39;&#39;&#39;Create readable one-hot encoded DataFrame from discretized features
+        &#39;&#39;&#39;
+        data = list(discretized_X[:])
+
+        X_colname_removed = data.copy()
+        for i in range(len(data)):
+            X_colname_removed[i] = list(map(lambda s: s.split(&#39; : &#39;)[1], X_colname_removed[i]))
+
+        X_df_categorical = pd.DataFrame(X_colname_removed, columns=self.feature_labels)
+        X_df_onehot = pd.get_dummies(X_df_categorical)
+        return X_df_onehot
+    
+    @property
+    def data(self):
+        return self.discretizer._data
+
+    @data.setter
+    def data(self, value):
+        self.discretizer._data = value
+    
+    def apply_cutpoints(self):
+        return self.discretizer.apply_cutpoints()</code></pre>
 </details>
 </section>
 <section>
@@ -295,6 +395,277 @@ <h1 class="title">Module <code>imodels.util.discretization.mdlp</code></h1>
 <section>
 <h2 class="section-title" id="header-classes">Classes</h2>
 <dl>
+<dt id="imodels.util.discretization.mdlp.BRLDiscretizer"><code class="flex name class">
+<span>class <span class="ident">BRLDiscretizer</span></span>
+<span>(</span><span>X, y, feature_labels, verbose=False)</span>
+</code></dt>
+<dd>
+<section class="desc"></section>
+<details class="source">
+<summary>
+<span>Expand source code</span>
+</summary>
+<pre><code class="python">class BRLDiscretizer:
+    
+    def __init__(self, X, y, feature_labels, verbose=False):
+        self.feature_labels = feature_labels
+        self.verbose = verbose
+ 
+    def discretize_mixed_data(self, X, y, undiscretized_features=[]):
+        if type(X) != list:
+            X = np.array(X).tolist()
+
+        # check which features are numeric (to be discretized)
+        self.discretized_features = []
+        for fi in range(len(X[0])):
+            # if not string, and not specified as undiscretized
+            if isinstance(X[0][fi], numbers.Number) \
+                    and (len(self.feature_labels) == 0 or \
+                         len(undiscretized_features) == 0 or \
+                         self.feature_labels[fi] not in undiscretized_features):
+                self.discretized_features.append(self.feature_labels[fi])
+
+        if len(self.discretized_features) &gt; 0:
+            if self.verbose:
+                print(
+                    &#34;Warning: non-categorical data found. Trying to discretize. (Please convert categorical values to &#34;
+                    &#34;strings, and/or specify the argument &#39;undiscretized_features&#39;, to avoid this.)&#34;)
+            X = self.discretize(X, y)
+        
+        self.discretized_X = X
+        return X
+    
+    def discretize(self, X, y):
+        &#39;&#39;&#39;Discretize the features specified in self.discretized_features
+        &#39;&#39;&#39;
+        if self.verbose:
+            print(&#34;Discretizing &#34;, self.discretized_features, &#34;...&#34;)
+        D = pd.DataFrame(np.hstack((X, np.array(y).reshape((len(y), 1)))), columns=list(self.feature_labels) + [&#34;y&#34;])
+        self.discretizer = MDLP_Discretizer(dataset=D, class_label=&#34;y&#34;, features=self.discretized_features)
+
+        cat_data = pd.DataFrame(np.zeros_like(X))
+        for i in range(len(self.feature_labels)):
+            label = self.feature_labels[i]
+            if label in self.discretized_features:
+                column = []
+                for j in range(len(self.discretizer._data[label])):
+                    column += [label + &#34; : &#34; + self.discretizer._data[label][j]]
+                cat_data.iloc[:, i] = np.array(column)
+            else:
+                cat_data.iloc[:, i] = D[label]
+
+        return np.array(cat_data).tolist()
+
+    def apply_discretization(self, X, return_onehot=False):
+        
+        if type(X) in [pd.DataFrame, pd.Series]:
+            X = X.values
+        
+        self.data = pd.DataFrame(X, columns=self.feature_labels)
+        self.apply_cutpoints()
+        D = np.array(self.data)
+
+        # prepend feature labels
+        Dl = np.copy(D).astype(str).tolist()
+        for i in range(len(Dl)):
+            for j in range(len(Dl[0])):
+                Dl[i][j] = self.feature_labels[j] + &#34; : &#34; + Dl[i][j]
+        
+        if not return_onehot:
+            return Dl
+        else:
+            return self.get_onehot_df(Dl)
+    
+    @property
+    def onehot_df(self):
+        return self.get_onehot_df(self.discretized_X)
+
+    def get_onehot_df(self, discretized_X):
+        &#39;&#39;&#39;Create readable one-hot encoded DataFrame from discretized features
+        &#39;&#39;&#39;
+        data = list(discretized_X[:])
+
+        X_colname_removed = data.copy()
+        for i in range(len(data)):
+            X_colname_removed[i] = list(map(lambda s: s.split(&#39; : &#39;)[1], X_colname_removed[i]))
+
+        X_df_categorical = pd.DataFrame(X_colname_removed, columns=self.feature_labels)
+        X_df_onehot = pd.get_dummies(X_df_categorical)
+        return X_df_onehot
+    
+    @property
+    def data(self):
+        return self.discretizer._data
+
+    @data.setter
+    def data(self, value):
+        self.discretizer._data = value
+    
+    def apply_cutpoints(self):
+        return self.discretizer.apply_cutpoints()</code></pre>
+</details>
+<h3>Instance variables</h3>
+<dl>
+<dt id="imodels.util.discretization.mdlp.BRLDiscretizer.data"><code class="name">var <span class="ident">data</span></code></dt>
+<dd>
+<section class="desc"></section>
+<details class="source">
+<summary>
+<span>Expand source code</span>
+</summary>
+<pre><code class="python">@property
+def data(self):
+    return self.discretizer._data</code></pre>
+</details>
+</dd>
+<dt id="imodels.util.discretization.mdlp.BRLDiscretizer.onehot_df"><code class="name">var <span class="ident">onehot_df</span></code></dt>
+<dd>
+<section class="desc"></section>
+<details class="source">
+<summary>
+<span>Expand source code</span>
+</summary>
+<pre><code class="python">@property
+def onehot_df(self):
+    return self.get_onehot_df(self.discretized_X)</code></pre>
+</details>
+</dd>
+</dl>
+<h3>Methods</h3>
+<dl>
+<dt id="imodels.util.discretization.mdlp.BRLDiscretizer.apply_cutpoints"><code class="name flex">
+<span>def <span class="ident">apply_cutpoints</span></span>(<span>self)</span>
+</code></dt>
+<dd>
+<section class="desc"></section>
+<details class="source">
+<summary>
+<span>Expand source code</span>
+</summary>
+<pre><code class="python">def apply_cutpoints(self):
+    return self.discretizer.apply_cutpoints()</code></pre>
+</details>
+</dd>
+<dt id="imodels.util.discretization.mdlp.BRLDiscretizer.apply_discretization"><code class="name flex">
+<span>def <span class="ident">apply_discretization</span></span>(<span>self, X, return_onehot=False)</span>
+</code></dt>
+<dd>
+<section class="desc"></section>
+<details class="source">
+<summary>
+<span>Expand source code</span>
+</summary>
+<pre><code class="python">def apply_discretization(self, X, return_onehot=False):
+    
+    if type(X) in [pd.DataFrame, pd.Series]:
+        X = X.values
+    
+    self.data = pd.DataFrame(X, columns=self.feature_labels)
+    self.apply_cutpoints()
+    D = np.array(self.data)
+
+    # prepend feature labels
+    Dl = np.copy(D).astype(str).tolist()
+    for i in range(len(Dl)):
+        for j in range(len(Dl[0])):
+            Dl[i][j] = self.feature_labels[j] + &#34; : &#34; + Dl[i][j]
+    
+    if not return_onehot:
+        return Dl
+    else:
+        return self.get_onehot_df(Dl)</code></pre>
+</details>
+</dd>
+<dt id="imodels.util.discretization.mdlp.BRLDiscretizer.discretize"><code class="name flex">
+<span>def <span class="ident">discretize</span></span>(<span>self, X, y)</span>
+</code></dt>
+<dd>
+<section class="desc"><p>Discretize the features specified in self.discretized_features</p></section>
+<details class="source">
+<summary>
+<span>Expand source code</span>
+</summary>
+<pre><code class="python">def discretize(self, X, y):
+    &#39;&#39;&#39;Discretize the features specified in self.discretized_features
+    &#39;&#39;&#39;
+    if self.verbose:
+        print(&#34;Discretizing &#34;, self.discretized_features, &#34;...&#34;)
+    D = pd.DataFrame(np.hstack((X, np.array(y).reshape((len(y), 1)))), columns=list(self.feature_labels) + [&#34;y&#34;])
+    self.discretizer = MDLP_Discretizer(dataset=D, class_label=&#34;y&#34;, features=self.discretized_features)
+
+    cat_data = pd.DataFrame(np.zeros_like(X))
+    for i in range(len(self.feature_labels)):
+        label = self.feature_labels[i]
+        if label in self.discretized_features:
+            column = []
+            for j in range(len(self.discretizer._data[label])):
+                column += [label + &#34; : &#34; + self.discretizer._data[label][j]]
+            cat_data.iloc[:, i] = np.array(column)
+        else:
+            cat_data.iloc[:, i] = D[label]
+
+    return np.array(cat_data).tolist()</code></pre>
+</details>
+</dd>
+<dt id="imodels.util.discretization.mdlp.BRLDiscretizer.discretize_mixed_data"><code class="name flex">
+<span>def <span class="ident">discretize_mixed_data</span></span>(<span>self, X, y, undiscretized_features=[])</span>
+</code></dt>
+<dd>
+<section class="desc"></section>
+<details class="source">
+<summary>
+<span>Expand source code</span>
+</summary>
+<pre><code class="python">def discretize_mixed_data(self, X, y, undiscretized_features=[]):
+    if type(X) != list:
+        X = np.array(X).tolist()
+
+    # check which features are numeric (to be discretized)
+    self.discretized_features = []
+    for fi in range(len(X[0])):
+        # if not string, and not specified as undiscretized
+        if isinstance(X[0][fi], numbers.Number) \
+                and (len(self.feature_labels) == 0 or \
+                     len(undiscretized_features) == 0 or \
+                     self.feature_labels[fi] not in undiscretized_features):
+            self.discretized_features.append(self.feature_labels[fi])
+
+    if len(self.discretized_features) &gt; 0:
+        if self.verbose:
+            print(
+                &#34;Warning: non-categorical data found. Trying to discretize. (Please convert categorical values to &#34;
+                &#34;strings, and/or specify the argument &#39;undiscretized_features&#39;, to avoid this.)&#34;)
+        X = self.discretize(X, y)
+    
+    self.discretized_X = X
+    return X</code></pre>
+</details>
+</dd>
+<dt id="imodels.util.discretization.mdlp.BRLDiscretizer.get_onehot_df"><code class="name flex">
+<span>def <span class="ident">get_onehot_df</span></span>(<span>self, discretized_X)</span>
+</code></dt>
+<dd>
+<section class="desc"><p>Create readable one-hot encoded DataFrame from discretized features</p></section>
+<details class="source">
+<summary>
+<span>Expand source code</span>
+</summary>
+<pre><code class="python">def get_onehot_df(self, discretized_X):
+    &#39;&#39;&#39;Create readable one-hot encoded DataFrame from discretized features
+    &#39;&#39;&#39;
+    data = list(discretized_X[:])
+
+    X_colname_removed = data.copy()
+    for i in range(len(data)):
+        X_colname_removed[i] = list(map(lambda s: s.split(&#39; : &#39;)[1], X_colname_removed[i]))
+
+    X_df_categorical = pd.DataFrame(X_colname_removed, columns=self.feature_labels)
+    X_df_onehot = pd.get_dummies(X_df_categorical)
+    return X_df_onehot</code></pre>
+</details>
+</dd>
+</dl>
+</dd>
 <dt id="imodels.util.discretization.mdlp.MDLP_Discretizer"><code class="flex name class">
 <span>class <span class="ident">MDLP_Discretizer</span></span>
 <span>(</span><span>dataset, class_label, out_path_data=None, out_path_bins=None, features=None)</span>
@@ -887,6 +1258,18 @@ <h1>Index</h1>
 <li><h3><a href="#header-classes">Classes</a></h3>
 <ul>
 <li>
+<h4><code><a title="imodels.util.discretization.mdlp.BRLDiscretizer" href="#imodels.util.discretization.mdlp.BRLDiscretizer">BRLDiscretizer</a></code></h4>
+<ul class="">
+<li><code><a title="imodels.util.discretization.mdlp.BRLDiscretizer.apply_cutpoints" href="#imodels.util.discretization.mdlp.BRLDiscretizer.apply_cutpoints">apply_cutpoints</a></code></li>
+<li><code><a title="imodels.util.discretization.mdlp.BRLDiscretizer.apply_discretization" href="#imodels.util.discretization.mdlp.BRLDiscretizer.apply_discretization">apply_discretization</a></code></li>
+<li><code><a title="imodels.util.discretization.mdlp.BRLDiscretizer.data" href="#imodels.util.discretization.mdlp.BRLDiscretizer.data">data</a></code></li>
+<li><code><a title="imodels.util.discretization.mdlp.BRLDiscretizer.discretize" href="#imodels.util.discretization.mdlp.BRLDiscretizer.discretize">discretize</a></code></li>
+<li><code><a title="imodels.util.discretization.mdlp.BRLDiscretizer.discretize_mixed_data" href="#imodels.util.discretization.mdlp.BRLDiscretizer.discretize_mixed_data">discretize_mixed_data</a></code></li>
+<li><code><a title="imodels.util.discretization.mdlp.BRLDiscretizer.get_onehot_df" href="#imodels.util.discretization.mdlp.BRLDiscretizer.get_onehot_df">get_onehot_df</a></code></li>
+<li><code><a title="imodels.util.discretization.mdlp.BRLDiscretizer.onehot_df" href="#imodels.util.discretization.mdlp.BRLDiscretizer.onehot_df">onehot_df</a></code></li>
+</ul>
+</li>
+<li>
 <h4><code><a title="imodels.util.discretization.mdlp.MDLP_Discretizer" href="#imodels.util.discretization.mdlp.MDLP_Discretizer">MDLP_Discretizer</a></code></h4>
 <ul class="">
 <li><code><a title="imodels.util.discretization.mdlp.MDLP_Discretizer.MDLPC_criterion" href="#imodels.util.discretization.mdlp.MDLP_Discretizer.MDLPC_criterion">MDLPC_criterion</a></code></li>
diff --git a/docs/util/extract.html b/docs/util/extract.html
new file mode 100644
index 00000000..0540843a
--- /dev/null
+++ b/docs/util/extract.html
@@ -0,0 +1,442 @@
+<!doctype html>
+<html lang="en">
+<head>
+<meta charset="utf-8">
+<meta name="viewport" content="width=device-width, initial-scale=1, minimum-scale=1" />
+<meta name="generator" content="pdoc 0.7.2" />
+<title>imodels.util.extract API documentation</title>
+<meta name="description" content="" />
+<link href='https://cdnjs.cloudflare.com/ajax/libs/normalize/8.0.0/normalize.min.css' rel='stylesheet'>
+<link href='https://cdnjs.cloudflare.com/ajax/libs/10up-sanitize.css/8.0.0/sanitize.min.css' rel='stylesheet'>
+<link href="https://cdnjs.cloudflare.com/ajax/libs/highlight.js/9.12.0/styles/github.min.css" rel="stylesheet">
+<style>.flex{display:flex !important}body{line-height:1.5em}#content{padding:20px}#sidebar{padding:30px;overflow:hidden}.http-server-breadcrumbs{font-size:130%;margin:0 0 15px 0}#footer{font-size:.75em;padding:5px 30px;border-top:1px solid #ddd;text-align:right}#footer p{margin:0 0 0 1em;display:inline-block}#footer p:last-child{margin-right:30px}h1,h2,h3,h4,h5{font-weight:300}h1{font-size:2.5em;line-height:1.1em}h2{font-size:1.75em;margin:1em 0 .50em 0}h3{font-size:1.4em;margin:25px 0 10px 0}h4{margin:0;font-size:105%}a{color:#058;text-decoration:none;transition:color .3s ease-in-out}a:hover{color:#e82}.title code{font-weight:bold}h2[id^="header-"]{margin-top:2em}.ident{color:#900}pre code{background:#f8f8f8;font-size:.8em;line-height:1.4em}code{background:#f2f2f1;padding:1px 4px;overflow-wrap:break-word}h1 code{background:transparent}pre{background:#f8f8f8;border:0;border-top:1px solid #ccc;border-bottom:1px solid #ccc;margin:1em 0;padding:1ex}#http-server-module-list{display:flex;flex-flow:column}#http-server-module-list div{display:flex}#http-server-module-list dt{min-width:10%}#http-server-module-list p{margin-top:0}.toc ul,#index{list-style-type:none;margin:0;padding:0}#index code{background:transparent}#index h3{border-bottom:1px solid #ddd}#index ul{padding:0}#index h4{font-weight:bold}#index h4 + ul{margin-bottom:.6em}@media (min-width:200ex){#index .two-column{column-count:2}}@media (min-width:300ex){#index .two-column{column-count:3}}dl{margin-bottom:2em}dl dl:last-child{margin-bottom:4em}dd{margin:0 0 1em 3em}#header-classes + dl > dd{margin-bottom:3em}dd dd{margin-left:2em}dd p{margin:10px 0}.name{background:#eee;font-weight:bold;font-size:.85em;padding:5px 10px;display:inline-block;min-width:40%}.name:hover{background:#e0e0e0}.name > span:first-child{white-space:nowrap}.name.class > span:nth-child(2){margin-left:.4em}.inherited{color:#999;border-left:5px solid #eee;padding-left:1em}.inheritance em{font-style:normal;font-weight:bold}.desc h2{font-weight:400;font-size:1.25em}.desc h3{font-size:1em}.desc dt code{background:inherit}.source summary,.git-link-div{color:#666;text-align:right;font-weight:400;font-size:.8em;text-transform:uppercase}.source summary > *{white-space:nowrap;cursor:pointer}.git-link{color:inherit;margin-left:1em}.source pre{max-height:500px;overflow:auto;margin:0}.source pre code{font-size:12px;overflow:visible}.hlist{list-style:none}.hlist li{display:inline}.hlist li:after{content:',\2002'}.hlist li:last-child:after{content:none}.hlist .hlist{display:inline;padding-left:1em}img{max-width:100%}.admonition{padding:.1em .5em;margin-bottom:1em}.admonition-title{font-weight:bold}.admonition.note,.admonition.info,.admonition.important{background:#aef}.admonition.todo,.admonition.versionadded,.admonition.tip,.admonition.hint{background:#dfd}.admonition.warning,.admonition.versionchanged,.admonition.deprecated{background:#fd4}.admonition.error,.admonition.danger,.admonition.caution{background:lightpink}</style>
+<style media="screen and (min-width: 700px)">@media screen and (min-width:700px){#sidebar{width:30%}#content{width:70%;max-width:100ch;padding:3em 4em;border-left:1px solid #ddd}pre code{font-size:1em}.item .name{font-size:1em}main{display:flex;flex-direction:row-reverse;justify-content:flex-end}.toc ul ul,#index ul{padding-left:1.5em}.toc > ul > li{margin-top:.5em}}</style>
+<style media="print">@media print{#sidebar h1{page-break-before:always}.source{display:none}}@media print{*{background:transparent !important;color:#000 !important;box-shadow:none !important;text-shadow:none !important}a[href]:after{content:" (" attr(href) ")";font-size:90%}a[href][title]:after{content:none}abbr[title]:after{content:" (" attr(title) ")"}.ir a:after,a[href^="javascript:"]:after,a[href^="#"]:after{content:""}pre,blockquote{border:1px solid #999;page-break-inside:avoid}thead{display:table-header-group}tr,img{page-break-inside:avoid}img{max-width:100% !important}@page{margin:0.5cm}p,h2,h3{orphans:3;widows:3}h1,h2,h3,h4,h5,h6{page-break-after:avoid}}</style>
+</head>
+<body>
+<main>
+<article id="content">
+<header>
+<h1 class="title">Module <code>imodels.util.extract</code></h1>
+</header>
+<section id="section-intro">
+<details class="source">
+<summary>
+<span>Expand source code</span>
+</summary>
+<pre><code class="python">from typing import Iterable, Tuple, List
+
+import numpy as np
+import pandas as pd
+from sklearn.ensemble import BaggingClassifier, BaggingRegressor, GradientBoostingRegressor, RandomForestRegressor
+from sklearn.tree import DecisionTreeClassifier, DecisionTreeRegressor
+from sklearn.utils.validation import check_X_y, check_array, check_is_fitted
+from mlxtend.frequent_patterns import fpgrowth
+
+from imodels.util.convert import tree_to_rules
+from imodels.util.discretization.mdlp import BRLDiscretizer
+
+
+def extract_fpgrowth(X, y,
+                     feature_labels=None,
+                     minsupport=0.1,
+                     maxcardinality=2,
+                     undiscretized_features=[],
+                     verbose=False) -&gt; Tuple[List[Tuple], BRLDiscretizer]:
+
+    # deal with pandas data
+    if type(X) in [pd.DataFrame, pd.Series]:
+        if feature_labels is None:
+            feature_labels = X.columns
+        X = X.values
+    if type(y) in [pd.DataFrame, pd.Series]:
+        y = y.values
+
+    if feature_labels is None:
+        feature_labels = [f&#39;feature_{i}&#39; for i in range(X.shape[1])]
+    
+    discretizer = BRLDiscretizer(X, y, feature_labels=feature_labels, verbose=verbose)
+    X = discretizer.discretize_mixed_data(X, y, undiscretized_features)
+    X_df_onehot = discretizer.onehot_df
+    
+    # Now find frequent itemsets
+    itemsets_df = fpgrowth(X_df_onehot, min_support=minsupport, max_len=maxcardinality)
+    itemsets_indices = [tuple(s[1]) for s in itemsets_df.values]
+    itemsets = [np.array(X_df_onehot.columns)[list(inds)] for inds in itemsets_indices]
+    itemsets = list(map(tuple, itemsets))
+    if verbose:
+        print(len(itemsets), &#39;rules mined&#39;)
+
+    return itemsets, discretizer
+
+
+def extract_rulefit(X, y, feature_names,
+                    tree_size=4,
+                    max_rules=2000,
+                    memory_par=0.01,
+                    tree_generator=None,
+                    exp_rand_tree_size=True,
+                    random_state=None) -&gt; List[str]:
+
+    if tree_generator is None:
+        n_estimators_default = int(np.ceil(max_rules / tree_size))
+        sample_fract_ = min(0.5, (100 + 6 * np.sqrt(X.shape[0])) / X.shape[0])
+
+        tree_generator = GradientBoostingRegressor(n_estimators=n_estimators_default,
+                                                    max_leaf_nodes=tree_size,
+                                                    learning_rate=memory_par,
+                                                    subsample=sample_fract_,
+                                                    random_state=random_state,
+                                                    max_depth=100)
+
+    if type(tree_generator) not in [GradientBoostingRegressor, RandomForestRegressor]:
+        raise ValueError(&#34;RuleFit only works with RandomForest and BoostingRegressor&#34;)
+
+    ## fit tree generator
+    if not exp_rand_tree_size:  # simply fit with constant tree size
+        tree_generator.fit(X, y)
+    else:  # randomise tree size as per Friedman 2005 Sec 3.3
+        np.random.seed(random_state)
+        tree_sizes = np.random.exponential(scale=tree_size - 2,
+                                            size=int(np.ceil(max_rules * 2 / tree_size)))
+        tree_sizes = np.asarray([2 + np.floor(tree_sizes[i_]) for i_ in np.arange(len(tree_sizes))], dtype=int)
+        i = int(len(tree_sizes) / 4)
+        while np.sum(tree_sizes[0:i]) &lt; max_rules:
+            i = i + 1
+        tree_sizes = tree_sizes[0:i]
+        tree_generator.set_params(warm_start=True)
+        curr_est_ = 0
+        for i_size in np.arange(len(tree_sizes)):
+            size = tree_sizes[i_size]
+            tree_generator.set_params(n_estimators=curr_est_ + 1)
+            tree_generator.set_params(max_leaf_nodes=size)
+            random_state_add = random_state if random_state else 0
+            tree_generator.set_params(
+                random_state=i_size + random_state_add)  # warm_state=True seems to reset random_state, such that the trees are highly correlated, unless we manually change the random_sate here.
+            tree_generator.fit(np.copy(X, order=&#39;C&#39;), np.copy(y, order=&#39;C&#39;))
+            curr_est_ = curr_est_ + 1
+        tree_generator.set_params(warm_start=False)
+
+    if isinstance(tree_generator, RandomForestRegressor):
+        estimators_ = [[x] for x in tree_generator.estimators_]
+    else:
+        estimators_ = tree_generator.estimators_
+
+    seen_antecedents = set()
+    extracted_rules = [] 
+    for estimator in estimators_:
+        for rule_value_pair in tree_to_rules(estimator[0], np.array(feature_names), prediction_values=True):
+            if rule_value_pair[0] not in seen_antecedents:
+                extracted_rules.append(rule_value_pair)
+                seen_antecedents.add(rule_value_pair[0])
+    
+    extracted_rules = sorted(extracted_rules, key=lambda x: x[1])
+    extracted_rules = list(map(lambda x: x[0], extracted_rules))
+    return extracted_rules
+
+
+def extract_skope(X, y, feature_names, 
+                  sample_weight=None,
+                  n_estimators=10,
+                  max_samples=.8,
+                  max_samples_features=1.,
+                  bootstrap=False,
+                  bootstrap_features=False,
+                  max_depths=[3], 
+                  max_depth_duplication=None,
+                  max_features=1.,
+                  min_samples_split=2,
+                  n_jobs=1,
+                  random_state=None,
+                  verbose=0) -&gt; Tuple[List[str], List[np.array], List[np.array]]:
+    
+    ensembles = []
+    if not isinstance(max_depths, Iterable):
+        max_depths = [max_depths]
+
+    for max_depth in max_depths:
+        bagging_clf = BaggingRegressor(
+            base_estimator= DecisionTreeRegressor(
+                max_depth=max_depth,
+                max_features=max_features,
+                min_samples_split=min_samples_split
+            ),
+            n_estimators=n_estimators,
+            max_samples=max_samples,
+            max_features=max_samples_features,
+            bootstrap=bootstrap,
+            bootstrap_features=bootstrap_features,
+            # oob_score=... XXX may be added
+            # if selection on tree perf needed.
+            # warm_start=... XXX may be added to increase computation perf.
+            n_jobs=n_jobs,
+            random_state=random_state,
+            verbose=verbose
+        )
+        ensembles.append(bagging_clf)
+
+    y_reg = y
+    if sample_weight is not None:
+        sample_weight = check_array(sample_weight, ensure_2d=False)
+        weights = sample_weight - sample_weight.min()
+        contamination = float(sum(y)) / len(y)
+        y_reg = (
+                pow(weights, 0.5) * 0.5 / contamination * (y &gt; 0) -
+                pow((weights).mean(), 0.5) * (y == 0)
+        )
+        y_reg = 1. / (1 + np.exp(-y_reg))  # sigmoid
+
+    for e in ensembles[:len(ensembles) // 2]:
+        e.fit(X, y)
+
+    for e in ensembles[len(ensembles) // 2:]:
+        e.fit(X, y_reg)
+
+    estimators_, estimators_samples_, estimators_features_ = [], [], []
+    for ensemble in ensembles:
+        estimators_ += ensemble.estimators_
+        estimators_samples_ += ensemble.estimators_samples_
+        estimators_features_ += ensemble.estimators_features_
+
+    extracted_rules = []
+    for estimator, features in zip(estimators_, estimators_features_):
+        extracted_rules.append(tree_to_rules(estimator, np.array(feature_names)[features]))
+    
+    return extracted_rules, estimators_samples_, estimators_features_</code></pre>
+</details>
+</section>
+<section>
+</section>
+<section>
+</section>
+<section>
+<h2 class="section-title" id="header-functions">Functions</h2>
+<dl>
+<dt id="imodels.util.extract.extract_fpgrowth"><code class="name flex">
+<span>def <span class="ident">extract_fpgrowth</span></span>(<span>X, y, feature_labels=None, minsupport=0.1, maxcardinality=2, undiscretized_features=[], verbose=False)</span>
+</code></dt>
+<dd>
+<section class="desc"></section>
+<details class="source">
+<summary>
+<span>Expand source code</span>
+</summary>
+<pre><code class="python">def extract_fpgrowth(X, y,
+                     feature_labels=None,
+                     minsupport=0.1,
+                     maxcardinality=2,
+                     undiscretized_features=[],
+                     verbose=False) -&gt; Tuple[List[Tuple], BRLDiscretizer]:
+
+    # deal with pandas data
+    if type(X) in [pd.DataFrame, pd.Series]:
+        if feature_labels is None:
+            feature_labels = X.columns
+        X = X.values
+    if type(y) in [pd.DataFrame, pd.Series]:
+        y = y.values
+
+    if feature_labels is None:
+        feature_labels = [f&#39;feature_{i}&#39; for i in range(X.shape[1])]
+    
+    discretizer = BRLDiscretizer(X, y, feature_labels=feature_labels, verbose=verbose)
+    X = discretizer.discretize_mixed_data(X, y, undiscretized_features)
+    X_df_onehot = discretizer.onehot_df
+    
+    # Now find frequent itemsets
+    itemsets_df = fpgrowth(X_df_onehot, min_support=minsupport, max_len=maxcardinality)
+    itemsets_indices = [tuple(s[1]) for s in itemsets_df.values]
+    itemsets = [np.array(X_df_onehot.columns)[list(inds)] for inds in itemsets_indices]
+    itemsets = list(map(tuple, itemsets))
+    if verbose:
+        print(len(itemsets), &#39;rules mined&#39;)
+
+    return itemsets, discretizer</code></pre>
+</details>
+</dd>
+<dt id="imodels.util.extract.extract_rulefit"><code class="name flex">
+<span>def <span class="ident">extract_rulefit</span></span>(<span>X, y, feature_names, tree_size=4, max_rules=2000, memory_par=0.01, tree_generator=None, exp_rand_tree_size=True, random_state=None)</span>
+</code></dt>
+<dd>
+<section class="desc"></section>
+<details class="source">
+<summary>
+<span>Expand source code</span>
+</summary>
+<pre><code class="python">def extract_rulefit(X, y, feature_names,
+                    tree_size=4,
+                    max_rules=2000,
+                    memory_par=0.01,
+                    tree_generator=None,
+                    exp_rand_tree_size=True,
+                    random_state=None) -&gt; List[str]:
+
+    if tree_generator is None:
+        n_estimators_default = int(np.ceil(max_rules / tree_size))
+        sample_fract_ = min(0.5, (100 + 6 * np.sqrt(X.shape[0])) / X.shape[0])
+
+        tree_generator = GradientBoostingRegressor(n_estimators=n_estimators_default,
+                                                    max_leaf_nodes=tree_size,
+                                                    learning_rate=memory_par,
+                                                    subsample=sample_fract_,
+                                                    random_state=random_state,
+                                                    max_depth=100)
+
+    if type(tree_generator) not in [GradientBoostingRegressor, RandomForestRegressor]:
+        raise ValueError(&#34;RuleFit only works with RandomForest and BoostingRegressor&#34;)
+
+    ## fit tree generator
+    if not exp_rand_tree_size:  # simply fit with constant tree size
+        tree_generator.fit(X, y)
+    else:  # randomise tree size as per Friedman 2005 Sec 3.3
+        np.random.seed(random_state)
+        tree_sizes = np.random.exponential(scale=tree_size - 2,
+                                            size=int(np.ceil(max_rules * 2 / tree_size)))
+        tree_sizes = np.asarray([2 + np.floor(tree_sizes[i_]) for i_ in np.arange(len(tree_sizes))], dtype=int)
+        i = int(len(tree_sizes) / 4)
+        while np.sum(tree_sizes[0:i]) &lt; max_rules:
+            i = i + 1
+        tree_sizes = tree_sizes[0:i]
+        tree_generator.set_params(warm_start=True)
+        curr_est_ = 0
+        for i_size in np.arange(len(tree_sizes)):
+            size = tree_sizes[i_size]
+            tree_generator.set_params(n_estimators=curr_est_ + 1)
+            tree_generator.set_params(max_leaf_nodes=size)
+            random_state_add = random_state if random_state else 0
+            tree_generator.set_params(
+                random_state=i_size + random_state_add)  # warm_state=True seems to reset random_state, such that the trees are highly correlated, unless we manually change the random_sate here.
+            tree_generator.fit(np.copy(X, order=&#39;C&#39;), np.copy(y, order=&#39;C&#39;))
+            curr_est_ = curr_est_ + 1
+        tree_generator.set_params(warm_start=False)
+
+    if isinstance(tree_generator, RandomForestRegressor):
+        estimators_ = [[x] for x in tree_generator.estimators_]
+    else:
+        estimators_ = tree_generator.estimators_
+
+    seen_antecedents = set()
+    extracted_rules = [] 
+    for estimator in estimators_:
+        for rule_value_pair in tree_to_rules(estimator[0], np.array(feature_names), prediction_values=True):
+            if rule_value_pair[0] not in seen_antecedents:
+                extracted_rules.append(rule_value_pair)
+                seen_antecedents.add(rule_value_pair[0])
+    
+    extracted_rules = sorted(extracted_rules, key=lambda x: x[1])
+    extracted_rules = list(map(lambda x: x[0], extracted_rules))
+    return extracted_rules</code></pre>
+</details>
+</dd>
+<dt id="imodels.util.extract.extract_skope"><code class="name flex">
+<span>def <span class="ident">extract_skope</span></span>(<span>X, y, feature_names, sample_weight=None, n_estimators=10, max_samples=0.8, max_samples_features=1.0, bootstrap=False, bootstrap_features=False, max_depths=[3], max_depth_duplication=None, max_features=1.0, min_samples_split=2, n_jobs=1, random_state=None, verbose=0)</span>
+</code></dt>
+<dd>
+<section class="desc"></section>
+<details class="source">
+<summary>
+<span>Expand source code</span>
+</summary>
+<pre><code class="python">def extract_skope(X, y, feature_names, 
+                  sample_weight=None,
+                  n_estimators=10,
+                  max_samples=.8,
+                  max_samples_features=1.,
+                  bootstrap=False,
+                  bootstrap_features=False,
+                  max_depths=[3], 
+                  max_depth_duplication=None,
+                  max_features=1.,
+                  min_samples_split=2,
+                  n_jobs=1,
+                  random_state=None,
+                  verbose=0) -&gt; Tuple[List[str], List[np.array], List[np.array]]:
+    
+    ensembles = []
+    if not isinstance(max_depths, Iterable):
+        max_depths = [max_depths]
+
+    for max_depth in max_depths:
+        bagging_clf = BaggingRegressor(
+            base_estimator= DecisionTreeRegressor(
+                max_depth=max_depth,
+                max_features=max_features,
+                min_samples_split=min_samples_split
+            ),
+            n_estimators=n_estimators,
+            max_samples=max_samples,
+            max_features=max_samples_features,
+            bootstrap=bootstrap,
+            bootstrap_features=bootstrap_features,
+            # oob_score=... XXX may be added
+            # if selection on tree perf needed.
+            # warm_start=... XXX may be added to increase computation perf.
+            n_jobs=n_jobs,
+            random_state=random_state,
+            verbose=verbose
+        )
+        ensembles.append(bagging_clf)
+
+    y_reg = y
+    if sample_weight is not None:
+        sample_weight = check_array(sample_weight, ensure_2d=False)
+        weights = sample_weight - sample_weight.min()
+        contamination = float(sum(y)) / len(y)
+        y_reg = (
+                pow(weights, 0.5) * 0.5 / contamination * (y &gt; 0) -
+                pow((weights).mean(), 0.5) * (y == 0)
+        )
+        y_reg = 1. / (1 + np.exp(-y_reg))  # sigmoid
+
+    for e in ensembles[:len(ensembles) // 2]:
+        e.fit(X, y)
+
+    for e in ensembles[len(ensembles) // 2:]:
+        e.fit(X, y_reg)
+
+    estimators_, estimators_samples_, estimators_features_ = [], [], []
+    for ensemble in ensembles:
+        estimators_ += ensemble.estimators_
+        estimators_samples_ += ensemble.estimators_samples_
+        estimators_features_ += ensemble.estimators_features_
+
+    extracted_rules = []
+    for estimator, features in zip(estimators_, estimators_features_):
+        extracted_rules.append(tree_to_rules(estimator, np.array(feature_names)[features]))
+    
+    return extracted_rules, estimators_samples_, estimators_features_</code></pre>
+</details>
+</dd>
+</dl>
+</section>
+<section>
+</section>
+</article>
+<nav id="sidebar">
+<h1>Index</h1>
+<div class="toc">
+<ul></ul>
+</div>
+<ul id="index">
+<li><h3>Super-module</h3>
+<ul>
+<li><code><a title="imodels.util" href="index.html">imodels.util</a></code></li>
+</ul>
+</li>
+<li><h3><a href="#header-functions">Functions</a></h3>
+<ul class="">
+<li><code><a title="imodels.util.extract.extract_fpgrowth" href="#imodels.util.extract.extract_fpgrowth">extract_fpgrowth</a></code></li>
+<li><code><a title="imodels.util.extract.extract_rulefit" href="#imodels.util.extract.extract_rulefit">extract_rulefit</a></code></li>
+<li><code><a title="imodels.util.extract.extract_skope" href="#imodels.util.extract.extract_skope">extract_skope</a></code></li>
+</ul>
+</li>
+</ul>
+</nav>
+</main>
+<footer id="footer">
+<p>Generated by <a href="https://pdoc3.github.io/pdoc"><cite>pdoc</cite> 0.7.2</a>.</p>
+</footer>
+<script src="https://cdnjs.cloudflare.com/ajax/libs/highlight.js/9.12.0/highlight.min.js"></script>
+<script>hljs.initHighlightingOnLoad()</script>
+</body>
+</html>
\ No newline at end of file
diff --git a/docs/util/index.html b/docs/util/index.html
index 27deb1fe..5442d84a 100644
--- a/docs/util/index.html
+++ b/docs/util/index.html
@@ -45,6 +45,10 @@ <h2 class="section-title" id="header-submodules">Sub-modules</h2>
 <dd>
 <section class="desc"></section>
 </dd>
+<dt><code class="name"><a title="imodels.util.extract" href="extract.html">imodels.util.extract</a></code></dt>
+<dd>
+<section class="desc"></section>
+</dd>
 <dt><code class="name"><a title="imodels.util.metrics" href="metrics.html">imodels.util.metrics</a></code></dt>
 <dd>
 <section class="desc"></section>
@@ -95,6 +99,7 @@ <h1>Index</h1>
 <li><code><a title="imodels.util.convert" href="convert.html">imodels.util.convert</a></code></li>
 <li><code><a title="imodels.util.discretization" href="discretization/index.html">imodels.util.discretization</a></code></li>
 <li><code><a title="imodels.util.evaluate" href="evaluate/index.html">imodels.util.evaluate</a></code></li>
+<li><code><a title="imodels.util.extract" href="extract.html">imodels.util.extract</a></code></li>
 <li><code><a title="imodels.util.metrics" href="metrics.html">imodels.util.metrics</a></code></li>
 <li><code><a title="imodels.util.neural_nets" href="neural_nets.html">imodels.util.neural_nets</a></code></li>
 <li><code><a title="imodels.util.prune" href="prune.html">imodels.util.prune</a></code></li>
diff --git a/docs/util/prune.html b/docs/util/prune.html
index 5b6d486b..eeed3328 100644
--- a/docs/util/prune.html
+++ b/docs/util/prune.html
@@ -27,8 +27,10 @@ <h1 class="title">Module <code>imodels.util.prune</code></h1>
 <pre><code class="python">from typing import List
 from collections import Counter
 
+from imodels.util.rule import Rule
 
-def prune_mins(rules: List[str], precision_min: float, recall_min: float):
+
+def prune_mins(rules: List[Rule], precision_min: float, recall_min: float) -&gt; List[Rule]:
     # Factorize rules before semantic tree filtering
     rules_ = [tuple(rule) for rule in rules]
     rules_dict = {}
@@ -48,23 +50,22 @@ <h1 class="title">Module <code>imodels.util.prune</code></h1>
             else:
                 rules_dict[rule] = (score[0], score[1], 1)
 
-    rules_dict = sorted(rules_dict.items(), key=lambda x: (x[1][0], x[1][1]), reverse=True)
-
-    return rules_dict
+    rule_tuple_list = sorted(rules_dict.items(), key=lambda x: (x[1][0], x[1][1]), reverse=True)
+    return [Rule(rule, args=scores) for rule, scores in rule_tuple_list]
 
 
-def deduplicate(rules, max_depth_dup):
+def deduplicate(rules: List[Rule], max_depth_dup: int) -&gt; List[Rule]:
     if max_depth_dup is not None:
         rules = [max(rules_set, key=f1_score) for rules_set in find_similar_rulesets(rules, max_depth_dup)]
     return sorted(rules, key=lambda x: - f1_score(x))
 
 
-def f1_score(x) -&gt; float:
-    return 2 * x[1][0] * x[1][1] / \
-           (x[1][0] + x[1][1]) if (x[1][0] + x[1][1]) &gt; 0 else 0
+def f1_score(rule: Rule) -&gt; float:
+    return 2 * rule.args[0] * rule.args[1] / \
+           (rule.args[0] + rule.args[1]) if (rule.args[0] + rule.args[1]) &gt; 0 else 0
 
 
-def find_similar_rulesets(rules, max_depth_duplication=None):
+def find_similar_rulesets(rules: List[Rule], max_depth_duplication: int = None) -&gt; List[List[Rule]]:
     &#34;&#34;&#34;Create clusters of rules using a decision tree based
     on the terms of the rules
 
@@ -102,9 +103,9 @@ <h1 class="title">Module <code>imodels.util.prune</code></h1>
         # Proceed to split
         rules_splitted = [[], [], []]
         for rule in rules:
-            if (most_represented_term + &#39; &lt;=&#39;) in rule[0]:
+            if (most_represented_term + &#39; &lt;=&#39;) in rule.rule:
                 rules_splitted[0].append(rule)
-            elif (most_represented_term + &#39; &gt;&#39;) in rule[0]:
+            elif (most_represented_term + &#39; &gt;&#39;) in rule.rule:
                 rules_splitted[1].append(rule)
             else:
                 rules_splitted[2].append(rule)
@@ -147,14 +148,14 @@ <h2 class="section-title" id="header-functions">Functions</h2>
 <summary>
 <span>Expand source code</span>
 </summary>
-<pre><code class="python">def deduplicate(rules, max_depth_dup):
+<pre><code class="python">def deduplicate(rules: List[Rule], max_depth_dup: int) -&gt; List[Rule]:
     if max_depth_dup is not None:
         rules = [max(rules_set, key=f1_score) for rules_set in find_similar_rulesets(rules, max_depth_dup)]
     return sorted(rules, key=lambda x: - f1_score(x))</code></pre>
 </details>
 </dd>
 <dt id="imodels.util.prune.f1_score"><code class="name flex">
-<span>def <span class="ident">f1_score</span></span>(<span>x)</span>
+<span>def <span class="ident">f1_score</span></span>(<span>rule)</span>
 </code></dt>
 <dd>
 <section class="desc"></section>
@@ -162,9 +163,9 @@ <h2 class="section-title" id="header-functions">Functions</h2>
 <summary>
 <span>Expand source code</span>
 </summary>
-<pre><code class="python">def f1_score(x) -&gt; float:
-    return 2 * x[1][0] * x[1][1] / \
-           (x[1][0] + x[1][1]) if (x[1][0] + x[1][1]) &gt; 0 else 0</code></pre>
+<pre><code class="python">def f1_score(rule: Rule) -&gt; float:
+    return 2 * rule.args[0] * rule.args[1] / \
+           (rule.args[0] + rule.args[1]) if (rule.args[0] + rule.args[1]) &gt; 0 else 0</code></pre>
 </details>
 </dd>
 <dt id="imodels.util.prune.find_similar_rulesets"><code class="name flex">
@@ -187,7 +188,7 @@ <h2 id="returns">Returns</h2>
 <summary>
 <span>Expand source code</span>
 </summary>
-<pre><code class="python">def find_similar_rulesets(rules, max_depth_duplication=None):
+<pre><code class="python">def find_similar_rulesets(rules: List[Rule], max_depth_duplication: int = None) -&gt; List[List[Rule]]:
     &#34;&#34;&#34;Create clusters of rules using a decision tree based
     on the terms of the rules
 
@@ -225,9 +226,9 @@ <h2 id="returns">Returns</h2>
         # Proceed to split
         rules_splitted = [[], [], []]
         for rule in rules:
-            if (most_represented_term + &#39; &lt;=&#39;) in rule[0]:
+            if (most_represented_term + &#39; &lt;=&#39;) in rule.rule:
                 rules_splitted[0].append(rule)
-            elif (most_represented_term + &#39; &gt;&#39;) in rule[0]:
+            elif (most_represented_term + &#39; &gt;&#39;) in rule.rule:
                 rules_splitted[1].append(rule)
             else:
                 rules_splitted[2].append(rule)
@@ -263,7 +264,7 @@ <h2 id="returns">Returns</h2>
 <summary>
 <span>Expand source code</span>
 </summary>
-<pre><code class="python">def prune_mins(rules: List[str], precision_min: float, recall_min: float):
+<pre><code class="python">def prune_mins(rules: List[Rule], precision_min: float, recall_min: float) -&gt; List[Rule]:
     # Factorize rules before semantic tree filtering
     rules_ = [tuple(rule) for rule in rules]
     rules_dict = {}
@@ -283,9 +284,8 @@ <h2 id="returns">Returns</h2>
             else:
                 rules_dict[rule] = (score[0], score[1], 1)
 
-    rules_dict = sorted(rules_dict.items(), key=lambda x: (x[1][0], x[1][1]), reverse=True)
-
-    return rules_dict</code></pre>
+    rule_tuple_list = sorted(rules_dict.items(), key=lambda x: (x[1][0], x[1][1]), reverse=True)
+    return [Rule(rule, args=scores) for rule, scores in rule_tuple_list]</code></pre>
 </details>
 </dd>
 </dl>
diff --git a/docs/util/rule.html b/docs/util/rule.html
index a540759a..3aa7639c 100644
--- a/docs/util/rule.html
+++ b/docs/util/rule.html
@@ -25,31 +25,9 @@ <h1 class="title">Module <code>imodels.util.rule</code></h1>
 <span>Expand source code</span>
 </summary>
 <pre><code class="python">import re
-from typing import List, Tuple, Dict
-
-
-def replace_feature_name(rule, replace_dict):
-    def replace(match):
-        return replace_dict[match.group(0)]
-
-    rule = re.sub(&#39;|&#39;.join(r&#39;\b%s\b&#39; % re.escape(s) for s in replace_dict),
-                  replace, rule)
-    return rule
-
-def enum_features(X, feature_names: List[str]) -&gt; Tuple[List[str], Dict[str, str]]:
-    &#34;&#34;&#34; Removes problematic characters in features; if none provided, 
-    returns placeholder feature names
-    &#34;&#34;&#34;
-
-    enum_feature_names = [f&#39;feature_{i}&#39; for i in range(X.shape[1])]
-    if feature_names is None:
-        feature_names = enum_feature_names
-    else:
-        feature_clean_fn = lambda f: f.replace(&#39; &#39;, &#39;_&#39;).replace(&#39;/&#39;, &#39;_&#39;).replace(&#39;&lt;&#39;, &#39;_under_&#39;)
-        feature_names = list(map(feature_clean_fn, feature_names))
-    feature_dict = {k: v for k, v in zip(enum_feature_names, feature_names)}
-
-    return feature_names, feature_dict
+from collections import OrderedDict
+import copy
+from typing import Dict, Iterable
 
 
 class Rule:
@@ -83,7 +61,7 @@ <h1 class="title">Module <code>imodels.util.rule</code></h1>
         # FIXME : Easier method ?
         return hash(tuple(sorted(((i, j) for i, j in self.agg_dict.items()))))
 
-    def factorize(self):
+    def factorize(self) -&gt; None:
         for feature, symbol, value in self.terms:
             if (feature, symbol) not in self.agg_dict:
                 if symbol != &#39;==&#39;:
@@ -110,7 +88,29 @@ <h1 class="title">Module <code>imodels.util.rule</code></h1>
         return &#39; and &#39;.join([&#39; &#39;.join(
             [feature, symbol, str(self.agg_dict[(feature, symbol)])])
             for feature, symbol in sorted(self.agg_dict.keys())
-        ])</code></pre>
+        ])
+
+
+def replace_feature_name(rule: Rule, replace_dict: Dict[str, str]) -&gt; Rule:
+    def replace(match):
+        return replace_dict[match.group(0)]
+
+    rule_replaced = Rule(
+        re.sub(&#39;|&#39;.join(r&#39;\b%s\b&#39; % re.escape(s) for s in replace_dict), replace, rule.rule),
+        args=rule.args
+    )
+    return rule_replaced
+
+
+def get_feature_dict(num_features: int, feature_names: Iterable[str] = None) -&gt; Dict[str, str]:
+    feature_dict = OrderedDict()
+    if feature_names is not None:
+        for i in range(num_features):
+            feature_dict[f&#39;feature_{i}&#39;] = feature_names[i]
+    else:
+        for i in range(num_features):
+            feature_dict[f&#39;feature_{i}&#39;] = f&#39;feature_{i}&#39;
+    return feature_dict</code></pre>
 </details>
 </section>
 <section>
@@ -120,30 +120,24 @@ <h1 class="title">Module <code>imodels.util.rule</code></h1>
 <section>
 <h2 class="section-title" id="header-functions">Functions</h2>
 <dl>
-<dt id="imodels.util.rule.enum_features"><code class="name flex">
-<span>def <span class="ident">enum_features</span></span>(<span>X, feature_names)</span>
+<dt id="imodels.util.rule.get_feature_dict"><code class="name flex">
+<span>def <span class="ident">get_feature_dict</span></span>(<span>num_features, feature_names=None)</span>
 </code></dt>
 <dd>
-<section class="desc"><p>Removes problematic characters in features; if none provided,
-returns placeholder feature names</p></section>
+<section class="desc"></section>
 <details class="source">
 <summary>
 <span>Expand source code</span>
 </summary>
-<pre><code class="python">def enum_features(X, feature_names: List[str]) -&gt; Tuple[List[str], Dict[str, str]]:
-    &#34;&#34;&#34; Removes problematic characters in features; if none provided, 
-    returns placeholder feature names
-    &#34;&#34;&#34;
-
-    enum_feature_names = [f&#39;feature_{i}&#39; for i in range(X.shape[1])]
-    if feature_names is None:
-        feature_names = enum_feature_names
+<pre><code class="python">def get_feature_dict(num_features: int, feature_names: Iterable[str] = None) -&gt; Dict[str, str]:
+    feature_dict = OrderedDict()
+    if feature_names is not None:
+        for i in range(num_features):
+            feature_dict[f&#39;feature_{i}&#39;] = feature_names[i]
     else:
-        feature_clean_fn = lambda f: f.replace(&#39; &#39;, &#39;_&#39;).replace(&#39;/&#39;, &#39;_&#39;).replace(&#39;&lt;&#39;, &#39;_under_&#39;)
-        feature_names = list(map(feature_clean_fn, feature_names))
-    feature_dict = {k: v for k, v in zip(enum_feature_names, feature_names)}
-
-    return feature_names, feature_dict</code></pre>
+        for i in range(num_features):
+            feature_dict[f&#39;feature_{i}&#39;] = f&#39;feature_{i}&#39;
+    return feature_dict</code></pre>
 </details>
 </dd>
 <dt id="imodels.util.rule.replace_feature_name"><code class="name flex">
@@ -155,13 +149,15 @@ <h2 class="section-title" id="header-functions">Functions</h2>
 <summary>
 <span>Expand source code</span>
 </summary>
-<pre><code class="python">def replace_feature_name(rule, replace_dict):
+<pre><code class="python">def replace_feature_name(rule: Rule, replace_dict: Dict[str, str]) -&gt; Rule:
     def replace(match):
         return replace_dict[match.group(0)]
 
-    rule = re.sub(&#39;|&#39;.join(r&#39;\b%s\b&#39; % re.escape(s) for s in replace_dict),
-                  replace, rule)
-    return rule</code></pre>
+    rule_replaced = Rule(
+        re.sub(&#39;|&#39;.join(r&#39;\b%s\b&#39; % re.escape(s) for s in replace_dict), replace, rule.rule),
+        args=rule.args
+    )
+    return rule_replaced</code></pre>
 </details>
 </dd>
 </dl>
@@ -219,7 +215,7 @@ <h2 id="parameters">Parameters</h2>
         # FIXME : Easier method ?
         return hash(tuple(sorted(((i, j) for i, j in self.agg_dict.items()))))
 
-    def factorize(self):
+    def factorize(self) -&gt; None:
         for feature, symbol, value in self.terms:
             if (feature, symbol) not in self.agg_dict:
                 if symbol != &#39;==&#39;:
@@ -259,7 +255,7 @@ <h3>Methods</h3>
 <summary>
 <span>Expand source code</span>
 </summary>
-<pre><code class="python">def factorize(self):
+<pre><code class="python">def factorize(self) -&gt; None:
     for feature, symbol, value in self.terms:
         if (feature, symbol) not in self.agg_dict:
             if symbol != &#39;==&#39;:
@@ -297,7 +293,7 @@ <h1>Index</h1>
 </li>
 <li><h3><a href="#header-functions">Functions</a></h3>
 <ul class="">
-<li><code><a title="imodels.util.rule.enum_features" href="#imodels.util.rule.enum_features">enum_features</a></code></li>
+<li><code><a title="imodels.util.rule.get_feature_dict" href="#imodels.util.rule.get_feature_dict">get_feature_dict</a></code></li>
 <li><code><a title="imodels.util.rule.replace_feature_name" href="#imodels.util.rule.replace_feature_name">replace_feature_name</a></code></li>
 </ul>
 </li>
diff --git a/docs/util/score.html b/docs/util/score.html
index 346560a4..65a550f5 100644
--- a/docs/util/score.html
+++ b/docs/util/score.html
@@ -79,7 +79,7 @@ <h1 class="title">Module <code>imodels.util.score</code></h1>
     return scored_rules
 
 
-def _eval_rule_perf(rule, X, y) -&gt; Tuple[float, float]:
+def _eval_rule_perf(rule: str, X, y) -&gt; Tuple[float, float]:
     detected_index = list(X.query(rule).index)
     if len(detected_index) &lt;= 1:
         return (0, 0)
@@ -93,7 +93,7 @@ <h1 class="title">Module <code>imodels.util.score</code></h1>
 
 def score_lasso(X, y, rules: List[str], alphas=None, cv=3,
                 prediction_task=&#39;regression&#39;,
-                max_rules=2000, random_state=None) -&gt; Tuple[List[Rule], Lasso]:
+                max_rules=2000, random_state=None) -&gt; Tuple[List[Rule], List[float], float]:
     if alphas is None:
         if prediction_task == &#39;regression&#39;:
             alphas = _alpha_grid(X, y)
@@ -167,7 +167,7 @@ <h2 class="section-title" id="header-functions">Functions</h2>
 </summary>
 <pre><code class="python">def score_lasso(X, y, rules: List[str], alphas=None, cv=3,
                 prediction_task=&#39;regression&#39;,
-                max_rules=2000, random_state=None) -&gt; Tuple[List[Rule], Lasso]:
+                max_rules=2000, random_state=None) -&gt; Tuple[List[Rule], List[float], float]:
     if alphas is None:
         if prediction_task == &#39;regression&#39;:
             alphas = _alpha_grid(X, y)
diff --git a/readme.md b/readme.md
index 2b3e37bf..6bf39f0d 100644
--- a/readme.md
+++ b/readme.md
@@ -8,17 +8,17 @@
   <a href="#imodels-overview">imodels overview</a> •
   <a href="#demo-notebooks">demo notebooks</a>
 </p>
-
 <p align="center">
   <img src="https://img.shields.io/badge/license-mit-blue.svg">
   <img src="https://img.shields.io/badge/python-3.6--3.8-blue">
   <a href="https://github.com/csinva/imodels/actions"><img src="https://github.com/csinva/imodels/workflows/tests/badge.svg"></a>
   <img src="https://img.shields.io/github/checks-status/csinva/imodels/master">
   <img src="https://img.shields.io/pypi/v/imodels?color=orange">
-  <img src="https://static.pepy.tech/personalized-badge/imodels?period=total&units=none&left_color=gray&right_color=orange&left_text=downloads">
+  <img src="https://static.pepy.tech/personalized-badge/imodels?period=total&units=none&left_color=grey&right_color=orange&left_text=downloads">
 </p>  
 
 
+
 ## imodels overview
 
 Implementations of different popular interpretable models can be easily used and installed:
@@ -68,8 +68,20 @@ The final form of the above models takes one of the following forms, which aim t
 
 Different models and algorithms vary not only in their final form but also in different choices made during modeling. In particular, many models differ in the 3 steps given by the table below.
 
-- ex. RuleFit and SkopeRules differ only in the way they prune rules: RuleFit uses a linear model whereas SkopeRules heuristically deduplicates rules sharing overlap.
-- ex. Bayesian rule lists and greedy rule lists differ in how they select rules; bayesian rule lists perform a global optimization over possible rule lists while Greedy rule lists pick splits sequentially to maximize a given criterion.
+<details>
+<summary>ex. RuleFit and SkopeRules</summary>
+RuleFit and SkopeRules differ only in the way they prune rules: RuleFit uses a linear model whereas SkopeRules heuristically deduplicates rules sharing overlap.
+</details>
+
+<details>
+<summary>ex. Bayesian rule lists and greedy rule lists</summary>
+Bayesian rule lists and greedy rule lists differ in how they select rules; bayesian rule lists perform a global optimization over possible rule lists while Greedy rule lists pick splits sequentially to maximize a given criterion.
+</details>
+
+<details>
+<summary>ex. FPSkope and SkopeRules</summary>
+FPSkope and SkopeRules differ only in the way they generate candidate rules: FPSkope uses FPgrowth whereas SkopeRules extracts rules from decision trees.
+</details>
 
 See the docs for individual models for futher descriptions.