from lec_utils import *

df = pd.DataFrame({
    "seed": [1, 4, 2, 8, 3, 12],
    "conference": ["ACC", "Big Ten", "ACC", "SEC", "Big Ten", "American"],
    "win_percentage": [0.90, 0.75, 0.88, 0.65, 0.80, 0.9],
    "tournament_wins": [6, 3, 5, 1, 4, 1]
})
df

model = make_pipeline(
    SomeTransformer, # Doesn't exist yet!
    LinearRegression()
)

model.fit(X=df[['seed', 'conference', 'win_percentage']], y=df['tournament_wins'])

from sklearn.pipeline import Pipeline, make_pipeline

from sklearn.compose import ColumnTransformer, make_column_transformer
from sklearn.preprocessing import PolynomialFeatures, OneHotEncoder, FunctionTransformer

# Here, we one-hot encode the 'conference' column and drop the first category to avoid multicollinearity (which we'll talk about soon!)
SomeTransformer = make_column_transformer(
    (OneHotEncoder(drop='first'), ['conference']),
    (PolynomialFeatures(degree=3, include_bias=False), ['seed']),
    remainder='passthrough' # The remaining feature, 'win_percentage', is kept unchanged (the alternative is remainder='drop').
)
SomeTransformer

ColumnTransformer(remainder='passthrough',
                  transformers=[('onehotencoder', OneHotEncoder(drop='first'),
                                 ['conference']),
                                ('polynomialfeatures',
                                 PolynomialFeatures(degree=3,
                                                    include_bias=False),
                                 ['seed'])])

ColumnTransformer(remainder='passthrough',
                  transformers=[('onehotencoder', OneHotEncoder(drop='first'),
                                 ['conference']),
                                ('polynomialfeatures',
                                 PolynomialFeatures(degree=3,
                                                    include_bias=False),
                                 ['seed'])])

['conference']

OneHotEncoder(drop='first')

['seed']

PolynomialFeatures(degree=3, include_bias=False)

passthrough

from sklearn.linear_model import LinearRegression

model = make_pipeline(
    SomeTransformer,
    LinearRegression()
)

model.fit(X=df[['seed', 'conference', 'win_percentage']], y=df['tournament_wins'])

Pipeline(steps=[('columntransformer',
                 ColumnTransformer(remainder='passthrough',
                                   transformers=[('onehotencoder',
                                                  OneHotEncoder(drop='first'),
                                                  ['conference']),
                                                 ('polynomialfeatures',
                                                  PolynomialFeatures(degree=3,
                                                                     include_bias=False),
                                                  ['seed'])])),
                ('linearregression', LinearRegression())])

Pipeline(steps=[('columntransformer',
                 ColumnTransformer(remainder='passthrough',
                                   transformers=[('onehotencoder',
                                                  OneHotEncoder(drop='first'),
                                                  ['conference']),
                                                 ('polynomialfeatures',
                                                  PolynomialFeatures(degree=3,
                                                                     include_bias=False),
                                                  ['seed'])])),
                ('linearregression', LinearRegression())])

ColumnTransformer(remainder='passthrough',
                  transformers=[('onehotencoder', OneHotEncoder(drop='first'),
                                 ['conference']),
                                ('polynomialfeatures',
                                 PolynomialFeatures(degree=3,
                                                    include_bias=False),
                                 ['seed'])])

['conference']

OneHotEncoder(drop='first')

['seed']

PolynomialFeatures(degree=3, include_bias=False)

['win_percentage']

passthrough

LinearRegression()

model

Pipeline(steps=[('columntransformer',
                 ColumnTransformer(remainder='passthrough',
                                   transformers=[('onehotencoder',
                                                  OneHotEncoder(drop='first'),
                                                  ['conference']),
                                                 ('polynomialfeatures',
                                                  PolynomialFeatures(degree=3,
                                                                     include_bias=False),
                                                  ['seed'])])),
                ('linearregression', LinearRegression())])

Pipeline(steps=[('columntransformer',
                 ColumnTransformer(remainder='passthrough',
                                   transformers=[('onehotencoder',
                                                  OneHotEncoder(drop='first'),
                                                  ['conference']),
                                                 ('polynomialfeatures',
                                                  PolynomialFeatures(degree=3,
                                                                     include_bias=False),
                                                  ['seed'])])),
                ('linearregression', LinearRegression())])

ColumnTransformer(remainder='passthrough',
                  transformers=[('onehotencoder', OneHotEncoder(drop='first'),
                                 ['conference']),
                                ('polynomialfeatures',
                                 PolynomialFeatures(degree=3,
                                                    include_bias=False),
                                 ['seed'])])

['conference']

OneHotEncoder(drop='first')

['seed']

PolynomialFeatures(degree=3, include_bias=False)

['win_percentage']

passthrough

LinearRegression()

model.named_steps # Useful to see what each individual step is named; these names are chosen automatically by the helper functions.

{'columntransformer': ColumnTransformer(remainder='passthrough',
                   transformers=[('onehotencoder', OneHotEncoder(drop='first'),
                                  ['conference']),
                                 ('polynomialfeatures',
                                  PolynomialFeatures(degree=3,
                                                     include_bias=False),
                                  ['seed'])]),
 'linearregression': LinearRegression()}

model[-1]

LinearRegression()

LinearRegression()

print("Intercept:", model.named_steps['linearregression'].intercept_)
feature_names = model.named_steps['columntransformer'].get_feature_names_out()

# Print each feature with its corresponding coefficient.
for name, coef in zip(feature_names, model.named_steps['linearregression'].coef_):
    print(f"{name}: {coef}")

Intercept: 6.934953151584841
onehotencoder__conference_American: -0.17628833874649633
onehotencoder__conference_Big Ten: 0.022351765334817735
onehotencoder__conference_SEC: 0.8995467516086498
polynomialfeatures__seed: -0.8839029113326689
polynomialfeatures__seed^2: -0.05619241815616135
polynomialfeatures__seed^3: 0.007489714047328858
remainder__win_percentage: -0.0026083734926004684

michigan = pd.DataFrame({
    'seed': [5],
    'conference': ['Big Ten'],
    'win_percentage': [0.735],
})

predicted_wins = model.predict(michigan)
print("Predicted Tournament Wins:", predicted_wins[0])

Predicted Tournament Wins: 2.0672770077513265

Transformation Type	Purpose	Example	`sklearn` Syntax
One-Hot Encoding	Converts a categorical variable with $N$ unique values into $N-1$ binary features. Each indicator is 1 if the observation is in that category (with one dropped as the baseline).	Before: `conference = ["ACC", "SEC", "Big Ten"]` After: `conference_SEC = [0, 1, 0]`, `conference_Big Ten = [0, 0, 1]` We drop one column ("ACC") when one-hot encoding.	`OneHotEncoder(drop='first')`
Polynomial Features	Expands a numerical variable by adding higher-order terms to capture non-linear relationships.	Before: `seed = [1, 4, 2]` After: `seed = [1, 4, 2]`, `seed^2 = [1, 16, 4]`, `seed^3 = [1, 64, 8]`	`PolynomialFeatures(degree=3, include_bias=False)`
Standardization	Rescales features so that they have a mean of 0 and a standard deviation of 1, making them directly comparable.	Before: `seed = [1, 3, 2]` After: `seed_std ≈ [-1.225, 1.225, 0]`	`StandardScaler()`
Function Transformation	Applies a custom function to a feature, e.g., to bin continuous values into categories.	Before: `day_of_month = [5, 16, 22, 30]` After: `day_bin = ["early", "late", "late", "late"]` We would then one-hot encode this feature.	`FunctionTransformer(lambda X: np.where(X <= 15, "early", "late").reshape(-1, 1))`

Discussion Slides: Feature Engineering and Pipelines

Agenda 📆¶

Feature engineering¶

Pipelines¶

Constructing our Pipeline¶

Using our Pipeline¶

Why do we drop one column when one hot encoding?¶

Avoiding multicollinearity¶

	seed	conference	win_percentage	tournament_wins
0	1	ACC	0.90	6
1	4	Big Ten	0.75	3
2	2	ACC	0.88	5
3	8	SEC	0.65	1
4	3	Big Ten	0.80	4
5	12	American	0.90	1