粗糙集的基础理论汇总

粗糙集

什么是粗糙集

1982年波兰学者Z. Pawlak 提出了粗糙集理论——它是一种刻画不完整性和不确定性的数学工具，能有效地分析不精确，不一致（inconsistent)、不完整（incomplete) 等各种不完备的信息，还可以对数据进行分析和推理，从中发现隐含的知识，揭示潜在的规律。已被广泛应用于知识发现、机器学习、决策支持、模式识别、专家系统及归纳推理等领域。

从数学的角度看，粗糙集是研究集合的；从编程的角度看，粗糙集的研究对象是矩阵,只不过是一些特殊的矩阵；从人工智能的角度来看，粗糙集研究的是决策表。

举一个例子

学生	食堂饭钱	超市花销	其他佐证	贫困
s1	高	高	无	否
s2	高	高	有	否
s3	高	低	无	存疑
s4	高	低	有	存疑
s5	低	高	无	存疑
s6	低	高	有	存疑
s7	低	低	无	是
s8	低	低	有	是

论域

（记作

U

）：病人，比如在这个表格中，就是从

s1

到

s8

属性

：分为

条件属性

和

决策属性

（记作

C

）。

其中，条件属性又有食堂属性、教超属性以及证明属性。

这些条件属性又被称为

论域上的知识

。

我们把这个记作

信息系统

S

以决策属性C分类的论域S，记作

U / C=

{ {

1

s_1

$s_{1}$

,

2

s_2

$s_{2}$

}, {

3

,

s

4

,

s

5

,

s

6

s_3, s_4, s_5, s_6

$s_{3}, s_{4}, s_{5}, s_{6}$

}, {

7

s_7

$s_{7}$

,

8

s_8

$s_{8}$

} } = {

1

,

X

2

,

X

3

X_1, X_2, X_3

$X_{1}, X_{2}, X_{3}$

}

1

X_1

$X_{1}$

= {

1

,

s

2

s_1, s_2

$s_{1}, s_{2}$

}

不妨把它称作

非贫困类

2

X_2

$X_{2}$

= {

3

,

s

4

,

s

5

,

s

6

s_3, s_4, s_5, s_6

$s_{3}, s_{4}, s_{5}, s_{6}$

}

不妨把它称作

存疑贫困类

3

X_3

$X_{3}$

= {

7

,

s

8

s_7, s_8

$s_{7}, s_{8}$

}

不妨把它称作

贫困类

随机给出一个集合X = {

s_1, s_2, s_7

$s_{1}, s_{2}, s_{7}$

} ，显然 X 是

C

的粗糙集，因为不能通过组合的方法从

1

，

X

2

，

X

3

X_1， X_2， X_3

$X_{1} ， X_{2} ， X_{3}$

得出

X

的。

上近似

对于上文随机给出的一个粗糙集 X={

s_1, s_2, s_7

$s_{1}, s_{2}, s_{7}$

}：

非贫困类

：

s

1

，

s

2

}

∩

X

=

{

s

1

,

s

2

}

→

X

1

∩

X

=

{

s

1

,

s

2

}

\{s1， s2\} ∩ X = \{s1, s2\} → X_1 ∩ X = \{s1, s2\}

${s 1 ， s 2} \cap X = {s 1, s 2} \to X_{1} \cap X = {s 1, s 2}$

存疑贫困类：

s

3

,

s

4

,

s

5

,

s

6

}

∩

X

=

∅

→

X

2

∩

X

=

Ø

\{s3, s4, s5, s6\} ∩ X = \empty→ X_2 ∩ X = Ø

${s 3, s 4, s 5, s 6} \cap X = \emptyset \to X_{2} \cap X = Ø$

贫困类：

s

7

,

s

8

}

∩

X

=

{

s

7

}

→

X

3

∩

X

=

{

s

7

}

\{s7, s8\} ∩ X = \{s7\} → X_3 ∩ X = \{s7\}

${s 7, s 8} \cap X = {s 7} \to X_{3} \cap X = {s 7}$

把

X_1

$X_{1}$

和

X_3

$X_{3}$

称作是 X 关于

C

的

上近似

。记作

‾

\overline{R}X

$\overline{R} X$

.

下近似

对于上文随机给出的一个粗糙集

X={s1, s2, s7}

：

非贫困类

：{s1, s2}

\subseteq

$\subseteq$

X →

X_1

$X_{1}$

\subseteq

$\subseteq$

X

存疑贫困类：

{s3, s4, s5, s6}

\nsubseteq

$⊈$

X →

X_2

$X_{2}$

\nsubseteq

$⊈$

X

贫困类：

{s7, s8}

\nsubseteq

$⊈$

X →

X_3

$X_{3}$

\nsubseteq

$⊈$

X

把

X_1

$X_{1}$

和

X_3

$X_{3}$

称作是

X

关于

C

的

下近似

。记作

‾

\underline{R}X

$\underline{R} X$

.

正域、负域、边界域

论域

U

被X的上近似以及下近似集划分为正域

(

)

POS_R(X)

$P O S_{R} (X)$

，负域

(

)

NEG_R(X)

$N E G_{R} (X)$

以及边界域

(

)

BND_R(X)

$B N D_{R} (X)$

三个互不相交的区域。

正域：

(

)

‾

POS_R(X) = \underline{R}X

$P O S_{R} (X) = \underline{R} X$

负域：

(

)

−

‾

NEG_R(X) = U – \overline{R}X

$N E G_{R} (X) = U - \overline{R} X$

边界域：

(

)

‾

−

‾

BND_R(X) = \overline{R}X – \underline{R}X

$B N D_{R} (X) = \overline{R} X - \underline{R} X$

不难看出

(

)

∩

(

)

∩

(

)

POS_R(X) \cap NEG_R(X) \cap BND_R(X) = U

$P O S_{R} (X) \cap N E G_{R} (X) \cap B N D_{R} (X) = U$

系统的定义

在一个决策的信息系统

S

里:

论域

就是数学里的集合，我们研究的对象构成的集合。

知识

论域中的任何一个子集都可以被称作是知识，这是一种对于论域进行分类的能力，一般是由特征属性进行分类。

不可分辨关系

在指定的知识下，不可以被区分开来的对象之间构成了不可分辨关系，也就是等价关系。举个例子，如果以是否为贫困生作为标准，那么贫困生中的各个年级的学生都构成了不可分辨关系。

精确集与粗糙集

在一个知识下，如果论域可以由若干子集组合而成，那么论域就构成了精确集，否则，则为粗糙集。

上近似与下近似

上近似就是包含指定的集合X的元素最小可定义集；下近似就是包含X的最大可定义集。

知识粒度：

属性重要度：

知识粒度

在一个决策信息系统

S

中，存在一种知识

B

\sub

$\subset$

C

，使得

/

B

=

{

x

1

,

x

2

,

x

3

,

…

,

x

m

}

U / B = \{x1, x2, x3, …, x_m\}

$U / B = {x 1, x 2, x 3, \dots, x_{m}}$

，一共区分出了

m

个等价类。则

B

的知识粒度

(

)

GP_u(B)

$G P_{u} (B)$

为:

(

)

∑

∣

GP_U(B) = \sum_{i=1}^m\frac{|X_i|^2}{|U|^2}

$G P_{U} (B) = i = 1 \sum m \frac{∣ X _{i} ∣ ^{2}}{∣ U ∣ ^{2}}$

在粗糙集中，等价类的知识粒度越细，划分的能力就越强，近似集就会越精确；否则，划分能力就弱，近似集越粗糙。

∣

≤

(

)

≤

\frac{1}{|U|} \leq GP_u(B) \leq 1

$\frac{1}{∣ U ∣} \leq G P_{u} (B) \leq 1$

当

{

…

{

∣

}

U/B = \{X_1, X_2, …, X_\{|U|\}\}

$U / B = {X_{1}, X_{2}, \dots, X_{{} ∣ U ∣}}$

时，

∣

|U|

$∣ U ∣$

是U元素的个数，这是知识粒度最小，为

∣

\frac{1}{|U|}

$\frac{1}{∣ U ∣}$

，划分能力最强；当U / B = {U} ，此时知识粒度最大，为1，划分能力最弱。


1	0	1	1	1	0	1
2	1	1	0	1	0	1
3	1	0	0	0	1	0
4	1	1	0	1	0	1
5	1	0	0	0	1	0
6	0	1	1	1	1	0
7	0	1	1	1	1	0
8	1	0	0	1	0	1
9	1	0	0	1	0	0

例，在上表中，

{

}

{

}

{

}

{

}

{

}

U/C = \{\{1\}, \{2, 4\}\, \{3, 5\}\{6,7\},\{8,9\}\}

$U / C = {{1}, {2, 4} {3, 5} {6, 7}, {8, 9}}$

则C的知识粒度为：

(

)

∑

∣

GP_U(C) = \sum_{i = 1}^5\frac{|X_i|^2}{|U|^2}

$G P_{U} (C) = \sum_{i = 1}^{5} \frac{∣ X _{i} ∣ ^{2}}{∣ U ∣ ^{2}}$

C

的知识粒度为：

(

)

∑

∣

GP_U(C) = \sum_{i = 1}^5\frac{|X_i|^2}{|U|^2}\\ =\frac{1^2+2^2+2^2+2^2+2^2}{9^2}\\ =\frac{17}{81}

$G P_{U} (C) = i = 1 \sum 5 \frac{∣ X _{i} ∣ ^{2}}{∣ U ∣ ^{2}} = \frac{1 ^{2} + 2 ^{2} + 2 ^{2} + 2 ^{2} + 2 ^{2}}{9 ^{2}} = \frac{1 7}{8 1}$

相对知识粒度

若

{

…

}

U/P = \{X_1, X_2, X_3, …, X_m\}

$U / P = {X_{1}, X_{2}, X_{3}, \dots, X_{m}}$

，

{

…

}

U/Q = \{Y_1, Y_2, Y_3, …,Y_m\}

$U / Q = {Y_{1}, Y_{2}, Y_{3}, \dots, Y_{m}}$

，则Q相对于P的相对知识粒度为：

(

∣

)

(

)

−

(

∪

)

GP_U(Q|P)=GP_U(P)-GP_U(P \cup Q)

$G P_{U} (Q ∣ P) = G P_{U} (P) - G P_{U} (P \cup Q)$

例如上表中的数据，条件属性集C以及决策属性图D，有：

{

}

{

}

{

}

{

}

{

}

U/C=\{\{1\},\{2,4\},\{3,5\},\{6,7\},\{8,9\}\}

$U / C = {{1}, {2, 4}, {3, 5}, {6, 7}, {8, 9}}$

∪

{

}

{

}

{

}

{

}

{

}

{

}

U/C\cup D=\{\{1\}\{2,4\}\{3,5\},\{6,7\}.\{8\},\{9\}\}

$U / C \cup D = {{1} {2, 4} {3, 5}, {6, 7} . {8}, {9}}$

则D关于C的知识粒度为：

(

∣

)

(

)

−

(

∪

)

−

GP_U(D|C)=GP_U(C)-GP_U(C \cup D)\\=\frac{17}{81}- \frac{15}{81}\\=\frac{2}{81}

$G P_{U} (D ∣ C) = G P_{U} (C) - G P_{U} (C \cup D) = \frac{1 7}{8 1} - \frac{1 5}{8 1} = \frac{2}{8 1}$

(

∣

)

GP_U(Q|P)

$G P_{U} (Q ∣ P)$

表示了Q相对于P的分类能力。

(

∣

)

GP_U(Q|P)

$G P_{U} (Q ∣ P)$

的值越大，表示Q相对于P对于论域U的分类能力就越强；反之，分类能力越弱。

属性重要度

内部属性重要定义如下

给定了一个决策信息系统S，U为论域，B

\subseteq

$\subseteq$

C，若

∈

\forall a \in B

$\forall a \in B$

则属性a关于条件属性集B相对于决策属性集D的内部属性重要度为：

(

∣

−

{

}

)

−

(

∣

)

Sig_{U}^{inner} = GP_U(D|B-\{a\})-GP_U(D|B)

$S i g_{U}^{i n n e r} = G P_{U} (D ∣ B - {a}) - G P_{U} (D ∣ B)$

能力就越强；反之，分类能力越弱。

属性重要度

内部属性重要定义如下

给定了一个决策信息系统S，U为论域，B

\subseteq

$\subseteq$

C，若

∈

\forall a \in B

$\forall a \in B$

则属性a关于条件属性集B相对于决策属性集D的内部属性重要度为：

(

∣

−

{

}

)

−

(

∣

)

Sig_{U}^{inner} = GP_U(D|B-\{a\})-GP_U(D|B)

$S i g_{U}^{i n n e r} = G P_{U} (D ∣ B - {a}) - G P_{U} (D ∣ B)$

原文链接：https://blog.csdn.net/Tang_Klay/article/details/110571383

粗糙集

什么是粗糙集

举一个例子

上近似

下近似

正域、负域、边界域

系统的定义

知识粒度

相对知识粒度

属性重要度

属性重要度

你可能也喜欢