算法阅读:OcVFDT
2012-11-01
论文原文:
下面是阅读论文的笔记:
Problem:
- 现有的
Data stream分类器,都是supervised分类器; supervised分类器,要求:train set中instance都有已知的class标签;满足这样条件的train set很难获得。
解决办法:
- 提出
OcVFDT算法,效果:train set中,一部分instance已知class标签,剩余instance的class标签未知;
几个基本知识补充说明:
one-class分类:class只有2类,instance的标签只有两种值,A和非A,A又被称为target class;
OcVFDT有如下几个特点:
- 只解决
One-class的分类问题; train set:一部分instance的class为A,剩余instance为unknown;这两类instance在data stream中服从均匀分布;(对于已经明确class为非A的instance,直接丢弃,不计入train set)- 算法目前只处理离散属性,对于连续属性,可以先进行离散化处理在使用此算法;
- 不能处理
concept drift; - 内存空间有限,只扫描一次数据;
- 能够处理海量数据;
- 基于算法:
VFDT和POSC4.5;
OcVFDT基于VFDT的改进,本质仍然是决策树,但与VFDT不同的是:
- 采用
POSC4.5中使用的信息增益OcIG(A),来衡量属性的分裂概率; - 生成一堆树,最后使用自己提出的参数
e(T)来选取最佳决策树;
疑问:OcVFDT是怎样被创造出来的?
难道是巧合,闭着眼睛瞎尝试,然后走了运,出了个算法?不是的,有依据,即使是一个证据不充分的灵感,那也是最初这样尝试的依据。
下面将深入分析OcVFDT算法的最初产生依据:(未完,待续)
原文地址:https://ningg.top/algorithm-ocvfdt/