摘要:基于随机划分的隔离森林算法并没有考虑子样本中含有离群点的概率大小,针对此问题提出基于极差的隔离森林算法,在随机子采样过程中应用极差筛选样本子集,使样本子集中存在较多离群点的概率较大。同时,在隔离树构建过程中通过子节点与其直接父节点的样本量比重控制树的生长形态,以避免生成性能较差的隔离树。在离群值检测数据库(ODDS)中的7个公开数据集以及KDD CUP 99数据集上与8种离群点检测算法比较结果显示,r-iForest算法的准确率高出其他算法2%~40%,且比iForest算法的时间消耗减少约15%。