NingG +

算法阅读:OcVFDT

论文原文:

OcVFDT: One-class Very Fast Decision Tree for One-class Classification of Data Streams. SensorKDD-2009

下面是阅读论文的笔记:

Problem:

解决办法:

几个基本知识补充说明:

OcVFDT有如下几个特点:

  1. 只解决One-class的分类问题;
  2. train set:一部分instanceclassA,剩余instanceunknown;这两类instancedata stream中服从均匀分布;(对于已经明确class非Ainstance,直接丢弃,不计入train set
  3. 算法目前只处理离散属性,对于连续属性,可以先进行离散化处理在使用此算法;
  4. 不能处理concept drift
  5. 内存空间有限,只扫描一次数据;
  6. 能够处理海量数据;
  7. 基于算法:VFDTPOSC4.5

OcVFDT基于VFDT的改进,本质仍然是决策树,但与VFDT不同的是:

  1. 采用POSC4.5中使用的信息增益OcIG(A),来衡量属性的分裂概率;
  2. 生成一堆树,最后使用自己提出的参数e(T)来选取最佳决策树;

疑问OcVFDT是怎样被创造出来的?

难道是巧合,闭着眼睛瞎尝试,然后走了运,出了个算法?不是的,有依据,即使是一个证据不充分的灵感,那也是最初这样尝试的依据。

下面将深入分析OcVFDT算法的最初产生依据:(未完,待续)

Top