统计学习方法第七章习题答案

习题7.1

题目：

比较感知机的对偶形式与线性可分支持向量机的对偶形式.

解答：

感知机：

原始形式

⁡

(

)

∑

[

−

(

⋅

)

]

\min _{w, b} L(w, b)=\sum_{i=1}^{N}\left[-y_{i}\left(w \cdot x_{i}+b\right)\right]_{+}

$min_{w, b} L (w, b) = \sum_{i = 1}^{N} [- y_{i} (w \cdot x_{i} + b)]_{+}$

对偶形式

⁡

(

)

min

⁡

(

)

∑

(

−

(

∑

⋅

∑

)

\min _{w, b} L(w, b)=\min _{\alpha_{i}} L\left(\alpha_{i}\right)=\sum_{i=1}^{N}\left(-y_{i}\left(\sum_{j=1}^{N} \alpha_{j} y_{j} x_{j} \cdot x_{i}+\sum_{j=1}^{N} \alpha_{j} y_{j}\right)\right)

$min_{w, b} L (w, b) = min_{α_{i}} L (α_{i}) = \sum_{i = 1}^{N} (- y_{i} (\sum_{j = 1}^{N} α_{j} y_{j} x_{j} \cdot x_{i} + \sum_{j = 1}^{N} α_{j} y_{j}))$

由对偶形式可以求到

w,b

$w, b$

∑

w=\sum_{i=1}^{N} \alpha_{i} y_{i} x_{i,} \\b=\sum_{i=1}^{N} \alpha_{i} y_{i}

$w = \sum_{i = 1}^{N} α_{i} y_{i} x_{i,} b = \sum_{i = 1}^{N} α_{i} y_{i}$

线性可分支持向量机：

原始形式：

⁡

∥

s.t.

(

⋅

)

−

⩾

⋯

\begin{array}{ll}\min _{w, b} & \frac{1}{2}\|w\|^{2} \\ \text { s.t. } & y_{i}\left(w \cdot x_{i}+b\right)-1 \geqslant 0, \quad i=1,2, \cdots, N\end{array}

$min_{w, b} s.t. \frac{1}{2} ∥ w ∥^{2} y_{i} (w \cdot x_{i} + b) - 1 ⩾ 0, i = 1, 2, \dots, N$

对偶形式：

⁡

∑

(

⋅

)

−

∑

s.t.

∑

⩾

⋯

\begin{array}{cl}\min _{\alpha} & \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)-\sum_{i=1}^{N} \alpha_{i} \\ \text { s.t. } & \sum_{i=1}^{N} \alpha_{i} y_{i}=0 \\ & \alpha_{i} \geqslant 0, \quad i=1,2, \cdots, N\end{array}

$min_{α} s.t. \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j}) - \sum_{i = 1}^{N} α_{i} \sum_{i = 1}^{N} α_{i} y_{i} = 0 α_{i} ⩾ 0, i = 1, 2, \dots, N$

由对偶形式可以求到

w,b

$w, b$

∗

∑

∗

w^{*}=\sum_{i=1}^{N} \alpha_{i}^{*} y_{i} x_{i}

$w^{*} = \sum_{i = 1}^{N} α_{i}^{*} y_{i} x_{i}$

∗

−

∑

∗

(

⋅

)

b^{*}=y_{j}-\sum_{i=1}^{N} \alpha_{i}^{*} y_{i}\left(x_{i} \cdot x_{j}\right)

$b^{*} = y_{j} - \sum_{i = 1}^{N} α_{i}^{*} y_{i} (x_{i} \cdot x_{j})$

习题7.2

题目：

已知正例点

(

)

(

)

(

)

x_1=(1,2)^{T}, x_2=(2,3)^{T}, x_3=(3,3)^{T}

$x_{1} = (1, 2)^{T}, x_{2} = (2, 3)^{T}, x_{3} = (3, 3)^{T}$

，负例点

(

)

(

)

x_4=(2,1)^{T}, x_5=(3,2)^{T}

$x_{4} = (2, 1)^{T}, x_{5} = (3, 2)^{T}$

，试求最大间隔分离超平面和分类决策函数，并在图上画出分离超平面、间隔边界及支持向量.

解答：

原始形式

⁡

∥

\min \frac{1}{2}\left\|w_{1}^{2}+w_{2}^{2}\right\|

$min \frac{1}{2} ∥ ∥ w_{1}^{2} + w_{2}^{2} ∥ ∥$

s.t.

≥

1…

(

)

\quad w_{1}+2 w_{2}+b \geq 1…(1)

$w_{1} + 2 w_{2} + b \geq 1 . . . (1)$

≥

1…

(

)

2 w_{1}+3 w_{2}+b \geq 1…(2)

$2 w_{1} + 3 w_{2} + b \geq 1 . . . (2)$

≥

1…

(

)

3 w_{1}+3 w_{2}+b \geq 1…(3)

$3 w_{1} + 3 w_{2} + b \geq 1 . . . (3)$

−

≥

1…

(

)

-2 w_{1}-w_{2}-b \geq 1…(4)

$- 2 w_{1} - w_{2} - b \geq 1 . . . (4)$

−

≥

1…

(

)

-3 w_{1}-2 w_{2}-b \geq 1…(5)

$- 3 w_{1} - 2 w_{2} - b \geq 1 . . . (5)$

化简一下有

)

(

)

−

≥

(1)+(4): -w_{1}+w_{2} \geq 2

$(1) + (4) : - w_{1} + w_{2} \geq 2$

)

(

)

−

≥

(1)+(5): -2w_{1} \geq 2

$(1) + (5) : - 2 w_{1} \geq 2$

)

(

)

≥

(2)+(4): 2w_{2}\geq 2

$(2) + (4) : 2 w_{2} \geq 2$

)

(

)

≥

(3)+(4): w_{1}+2w_{2} \geq 2

$(3) + (4) : w_{1} + 2 w_{2} \geq 2$

)

(

)

≥

(3)+(5): w_{2} \geq 2

$(3) + (5) : w_{2} \geq 2$

得到的5个方程，使用高中知识数学规划，画一下关于

w_{1},w_{2}

$w_{1}, w_{2}$

坐标系，发现

w_{1}^{2}+w_{2}^{2}

$w_{1}^{2} + w_{2}^{2}$

最小是在

−

w_{1}=-1, w_{2} = 2

$w_{1} = - 1, w_{2} = 2$

将这个值带入原来的（1）-（5）方程，可以得到

−

b = -2

$b = - 2$

（图就不画了(✺ω✺)）

习题7.3

题目：

线性支持向量机还可以定义为以下形式：

⁡

∥

∑

s.t.

(

⋅

)

⩾

−

⋯

⩾

⋯

\begin{array}{ll}\min _{w, b, \xi} & \frac{1}{2}\|w\|^{2}+C \sum_{i=1}^{N} \xi_{i}^{2} \\ \text { s.t. } & y_{i}\left(w \cdot x_{i}+b\right) \geqslant 1-\xi_{i}, \quad i=1,2, \cdots, N \\ & \xi_{i} \geqslant 0, \quad i=1,2, \cdots, N\end{array}

$min_{w, b, ξ} s.t. \frac{1}{2} ∥ w ∥^{2} + C \sum_{i = 1}^{N} ξ_{i}^{2} y_{i} (w \cdot x_{i} + b) ⩾ 1 - ξ_{i}, i = 1, 2, \dots, N ξ_{i} ⩾ 0, i = 1, 2, \dots, N$

试求其对偶形式.

解答：

与课本110页的推导类似

这个形式的拉格朗日函数为

(

)

≡

∥

∑

−

∑

(

⋅

)

−

)

−

∑

L(w, b, \xi, \alpha, \mu) \equiv \frac{1}{2}\|w\|^{2}+C \sum_{i=1}^{N} \xi_{i}^2-\sum_{i=1}^{N} \alpha_{i}\left(y_{i}\left(w \cdot x_{i}+b\right)-1+\xi_{i}\right)-\sum_{i=1}^{N} \mu_{i} \xi_{i}

$L (w, b, ξ, α, μ) \equiv \frac{1}{2} ∥ w ∥^{2} + C \sum_{i = 1}^{N} ξ_{i}^{2} - \sum_{i = 1}^{N} α_{i} (y_{i} (w \cdot x_{i} + b) - 1 + ξ_{i}) - \sum_{i = 1}^{N} μ_{i} ξ_{i}$

其中

⩾

\alpha_{i} \geqslant 0, \mu_{i} \geqslant 0

$α_{i} ⩾ 0, μ_{i} ⩾ 0$

首先求

(

)

L(w, b, \xi, \alpha, \mu)

$L (w, b, ξ, α, μ)$

对

w, b, \xi

$w, b, ξ$

的极小

(

)

−

∑

\nabla_{w} L(w, b, \xi, \alpha, \mu)=w-\sum_{i=1}^{N} \alpha_{i} y_{i} x_{i}=0

$\nabla_{w} L (w, b, ξ, α, μ) = w - \sum_{i = 1}^{N} α_{i} y_{i} x_{i} = 0$

(

)

−

∑

\nabla_{b} L(w, b, \xi, \alpha, \mu)=-\sum_{i=1}^{N} \alpha_{i} y_{i}=0

$\nabla_{b} L (w, b, ξ, α, μ) = - \sum_{i = 1}^{N} α_{i} y_{i} = 0$

(

)

−

\nabla_{\xi_{i}} L(w, b, \xi, \alpha, \mu)=2C\xi_{i}-\alpha_{i}-\mu_{i}=0

$\nabla_{ξ_{i}} L (w, b, ξ, α, μ) = 2 C ξ_{i} - α_{i} - μ_{i} = 0$

得到：

∑

w=\sum_{i=1}^{N} \alpha_{i} y_{i} x_{i}

$w = \sum_{i = 1}^{N} α_{i} y_{i} x_{i}$

\sum_{i=1}^{N} \alpha_{i} y_{i}=0

$\sum_{i = 1}^{N} α_{i} y_{i} = 0$

−

2C\xi_{i}-\alpha_{i}-\mu_{i}=0

$2 C ξ_{i} - α_{i} - μ_{i} = 0$

带入原式

⁡

(

)

−

∑

(

⋅

)

∑

−

∑

−

∑

(

⋅

)

∑

−

∑

(

)

−

∑

(

⋅

)

∑

−

∑

(

)

\min _{w, b, \xi} L(w, b, \xi, \alpha, \mu)\\=-\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)+\sum_{i=1}^{N} \alpha_{i}-C \sum_{i=1}^{N} \xi_{i}^2\\=-\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)+\sum_{i=1}^{N} \alpha_{i}-C \sum_{i=1}^{N} (\frac{\alpha_i+\mu_i}{2C})^2\\=-\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)+\sum_{i=1}^{N} \alpha_{i}-\frac{1}{4C}\sum_{i=1}^{N} (\alpha_i+\mu_i)^2

$min_{w, b, ξ} L (w, b, ξ, α, μ) = - \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j}) + \sum_{i = 1}^{N} α_{i} - C \sum_{i = 1}^{N} ξ_{i}^{2} = - \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j}) + \sum_{i = 1}^{N} α_{i} - C \sum_{i = 1}^{N} (\frac{α _{i} + μ _{i}}{2 C})^{2} = - \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j}) + \sum_{i = 1}^{N} α_{i} - \frac{1}{4 C} \sum_{i = 1}^{N} (α_{i} + μ_{i})^{2}$

再对

⁡

(

)

\min _{w, b, \xi} L(w, b, \xi, \alpha, \mu)

$min_{w, b, ξ} L (w, b, ξ, α, μ)$

求

\alpha

$α$

的极大，得对偶问题

−

∑

(

⋅

)

∑

−

∑

(

)

max_\alpha \quad -\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)+\sum_{i=1}^{N} \alpha_{i}-\frac{1}{4C}\sum_{i=1}^{N} (\alpha_i+\mu_i)^2

$m a x_{α} - \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j}) + \sum_{i = 1}^{N} α_{i} - \frac{1}{4 C} \sum_{i = 1}^{N} (α_{i} + μ_{i})^{2}$

∑

s.t\sum_{i=1}^{N} \alpha_{i} y_{i}=0

$s . t \sum_{i = 1}^{N} α_{i} y_{i} = 0$

2…

\alpha_{i}, \mu_{i} > 0\qquad i=1,2…N

$α_{i}, μ_{i} > 0 i = 1, 2 . . . N$

习题7.4

题目：

证明内积的正整数幂函数：

(

)

(

⋅

)

K(x, z)=(x \cdot z)^{p}

$K (x, z) = (x \cdot z)^{p}$

是正定核函数，这里

p

$p$

是正整数，

x,z\epsilon R_{n}

$x, z ϵ R_{n}$

解答：

要证明

(

)

K(x,z)

$K (x, z)$

为正定核，有两种想法，一种是证明根据公式（7.26），证明

(

)

K(x,z)

$K (x, z)$

满足

(

)

(

)

⋅

(

)

K(x,z)=\phi(x)\cdot \phi(z)

$K (x, z) = ϕ (x) \cdot ϕ (z)$

一种是根据定理7.5，证明对任意

2…

(

)

x_i\epsilon X, i=1,2…m, K(x,z)

$x_{i} ϵ X, i = 1, 2 . . . m, K (x, z)$

对应的

Gram

$G r a m$

矩阵

[

(

)

]

∗

K = [K(x_i, x_j)]_{m*m}

$K = [K (x_{i}, x_{j})]_{m * m}$

为半正定矩阵。

我用数学归纳法证明

(

)

(

)

⋅

(

)

K(x,z)=\phi(x)\cdot \phi(z)

$K (x, z) = ϕ (x) \cdot ϕ (z)$

（1）

p=1

$p = 1$

时

(

)

⋅

K(x,z)=x\cdot z

$K (x, z) = x \cdot z$

，取

(

)

\phi_1(x)=x

$ϕ_{1} (x) = x$

，满足条件

（2）假设

p=k

$p = k$

时，

(

)

K(x,z)

$K (x, z)$

为正定核，即有

(

)

(

)

⋅

(

)

K(x,z)=\phi_k(x)\cdot \phi_k(z)

$K (x, z) = ϕ_{k} (x) \cdot ϕ_{k} (z)$

（3）那么当

p=k+1

$p = k + 1$

时

(

)

(

⋅

)

(

⋅

)

(

)

⋅

(

)

(

⋅

)

K(x,z) \\= (x\cdot z)^{k}(x\cdot z)\\=\phi_k(x)\cdot \phi_k(z)(x\cdot z)

$K (x, z) = (x \cdot z)^{k} (x \cdot z) = ϕ_{k} (x) \cdot ϕ_{k} (z) (x \cdot z)$

现在假设

(

)

(

)

(

)

(

)

(

)

(

)

\phi_k(x)=(f_1(x),f_2(x)…,f_m(x))^T,x=(x_1,x_2…x_n),z=(z_1,z_2…z_n)^T

$ϕ_{k} (x) = (f_{1} (x), f_{2} (x) . . ., f_{m} (x))^{T}, x = (x_{1}, x_{2} . . . x_{n}), z = (z_{1}, z_{2} . . . z_{n})^{T}$

则有

(

)

(

)

(

)

(

)

(

)

(

)

(

)

(

)

(

)

(

)

(

)

(

)

(

)

(

)

(

)

(

)

(

)

K(x,z)\\=(f_1(x)f_1(z)+f_2(x)f_2(z)+…+f_m(x)f_m(z))(x_1z_1+x_2z_2+…+x_nz_n)\\=f_1(x)f_1(z)(x_1z_1+x_2z_2+…+x_nz_n)+f_2(x)f_2(z)(x_1z_1+x_2z_2+…+x_nz_n)+…+f_m(x)f_m(z)(x_1z_1+x_2z_2+…+x_nz_n)

$K (x, z) = (f_{1} (x) f_{1} (z) + f_{2} (x) f_{2} (z) + . . . + f_{m} (x) f_{m} (z)) (x_{1} z_{1} + x_{2} z_{2} + . . . + x_{n} z_{n}) = f_{1} (x) f_{1} (z) (x_{1} z_{1} + x_{2} z_{2} + . . . + x_{n} z_{n}) + f_{2} (x) f_{2} (z) (x_{1} z_{1} + x_{2} z_{2} + . . . + x_{n} z_{n}) + . . . + f_{m} (x) f_{m} (z) (x_{1} z_{1} + x_{2} z_{2} + . . . + x_{n} z_{n})$

那么我们就可以取

(

)

(

)

(

)

(

)

(

)

(

)

(

)

(

)

(

)

(

)

\phi_{k+1}(x)=(f_1(x)x_1, f_1(x)x_2…f_1(x)x_n,f_2(x)x_1,f_2(x)x_2,…,f_2(x)x_n,……f_m(x)x_1,f_m(x)x_2,…f_m(x)x_n)^T

$ϕ_{k + 1} (x) = (f_{1} (x) x_{1}, f_{1} (x) x_{2} . . . f_{1} (x) x_{n}, f_{2} (x) x_{1}, f_{2} (x) x_{2}, . . ., f_{2} (x) x_{n}, . . . . . . f_{m} (x) x_{1}, f_{m} (x) x_{2}, . . . f_{m} (x) x_{n})^{T}$

有

(

)

(

⋅

)

(

)

⋅

(

)

K(x,z) = (x\cdot z)^{k+1}=\phi_{k+1}(x)\cdot \phi_{k+1}(z)

$K (x, z) = (x \cdot z)^{k + 1} = ϕ_{k + 1} (x) \cdot ϕ_{k + 1} (z)$

得证

贴一个先前用半正定矩阵证明的方法，不过这个解法有点问题（关于用证明矩阵半正定的证明方法，有读者有好的想法可以在评论区一起讨论）

根据定理7.5，正定核函数的充要条件是对任意

2…

(

)

x_i\epsilon X, i=1,2…m, K(x,z)

$x_{i} ϵ X, i = 1, 2 . . . m, K (x, z)$

对应的

Gram

$G r a m$

矩阵

[

(

)

]

∗

K = [K(x_i, x_j)]_{m*m}

$K = [K (x_{i}, x_{j})]_{m * m}$

为半正定矩阵

对任意

c_1,c_2,…,c_m\epsilon R

$c_{1}, c_{2}, . . ., c_{m} ϵ R$

(

)

∑

(

⋅

)

∑

(

⋅

)

(

⋅

)

−

\sum^m_{i,j=1}c_{i}c_jK(x_{i},x_j)\\=\sum^m_{i,j=1}c_{i}c_j(x_i\cdot x_j)^p\\=\sum^m_{i=1}(c_ix_i\cdot c_jx_j)(x_{i}\cdot x_{j})^{p-1}

$\sum_{i, j = 1}^{m} c_{i} c_{j} K (x_{i}, x_{j}) = \sum_{i, j = 1}^{m} c_{i} c_{j} (x_{i} \cdot x_{j})^{p} = \sum_{i = 1}^{m} (c_{i} x_{i} \cdot c_{j} x_{j}) (x_{i} \cdot x_{j})^{p - 1}$

先来看前面一部分

⋅

)

(c_ix_i\cdot c_jx_j)

$(c_{i} x_{i} \cdot c_{j} x_{j})$

(

⋅

)

(

∑

)

⋅

(

∑

)

∣

∑

∣

≥

\sum^m_{i=1}(c_ix_i\cdot c_jx_j)\\=(\sum^m_{i=1}c_ix_i)\cdot (\sum^m_{j=1}c_jx_j)\\=||\sum^m_{i=1}c_ix_i||^2\geq 0

$\sum_{i = 1}^{m} (c_{i} x_{i} \cdot c_{j} x_{j}) = (\sum_{i = 1}^{m} c_{i} x_{i}) \cdot (\sum_{j = 1}^{m} c_{j} x_{j}) = ∣ ∣ \sum_{i = 1}^{m} c_{i} x_{i} ∣ ∣^{2} \geq 0$

再看后面一部分

⋅

)

−

≥

(x_{i}\cdot x_{j})^{p-1}\quad p\geq 0

$(x_{i} \cdot x_{j})^{p - 1} p \geq 0$

对于

(

⋅

)

(

∑

)

⋅

(

∑

)

∣

∑

∣

≥

\sum^m_{i=1}(x_{i}\cdot x_{j})\\=(\sum^m_{i=1}x_{i})\cdot (\sum^m_{i=1}x_{i})\\=||\sum^m_{i=1}x_{i}||^2\quad \geq 0

$\sum_{i = 1}^{m} (x_{i} \cdot x_{j}) = (\sum_{i = 1}^{m} x_{i}) \cdot (\sum_{i = 1}^{m} x_{i}) = ∣ ∣ \sum_{i = 1}^{m} x_{i} ∣ ∣^{2} \geq 0$

而对于

∑

≥

\sum_{i=1}^ma_ib_i\\s.t\sum^m_{i=1}a_i,\sum^m_{i=1}b_i\quad \geq0

$\sum_{i = 1}^{m} a_{i} b_{i} s . t \sum_{i = 1}^{m} a_{i}, \sum_{i = 1}^{m} b_{i} \geq 0$

一定有

≥

\sum_{i=1}^ma_ib_i\geq0

$\sum_{i = 1}^{m} a_{i} b_{i} \geq 0$

所以有

(

⋅

)

(

⋅

)

−

≥

\sum^m_{i=1}(c_ix_i\cdot c_jx_j)(x_{i}\cdot x_{j})^{p-1}\geq0

$\sum_{i = 1}^{m} (c_{i} x_{i} \cdot c_{j} x_{j}) (x_{i} \cdot x_{j})^{p - 1} \geq 0$

原文链接：https://blog.csdn.net/qq_41562704/article/details/106171103

习题7.1

习题7.2

习题7.3

习题7.4

你可能也喜欢