数据挖掘流行学习工具weka的中文版入门教程,Weka的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),是一款免费的,非商业化(与之对应的是SPSS公司商业数据挖掘产品--Clementine )的,基于JAVA环境下开源的机器学习(machine learning)以及数据挖掘(data minining)软件。它和它的源代码可在其官方网站下载。有趣的是,该软件的缩写WEKA也是New Zealand独有的一种鸟名,而Weka的主要开发者同时恰好来自New Zealand的the University of Waikato。
WEKA中新的菜单驱动的GUI 继承了老的GUI 选择器(类weka.gui.GUIChooser)的功能。它的MDI(“多文档界面”)外观,让所有打开的窗口更加明了。
这个菜单包括六个部分。
1. Program
LogWindow 打开一个日志窗口,记录输出到stdout 或 stderr 的内容。在MS Windows 那样的环境中,WEKA 不是从一个终端启动,这个就比较有用。
Exit 关闭WEKA。
2. Applications 列出WEKA 中主要的应用程序。
Explorer 使用WEKA 探索数据的环境。(本文档的其它部分将详细介绍这个环境)
Experimenter 运行算法试验、管理算法方案之间的统计检验的环境。
KnowledgeFlow 这个环境本质上和Explorer 所支持的功能是一样的,但是它有一个可以拖放的界面。它有一个优势,就是支持增量学习(incremental learning)。
SimpleCLI 提供了一个简单的命令行界面,从而可以在没有自带命令行的操作系统中直接执行WEKA 命令。
3. Tools 其他有用的应用程序。
ArffViewer 一个MDI 应用程序,使用电子表格的形式来查看ARFF 文件。
SqlViewer 一个SQL 工作表,用来通过JDBC 查询数据库。
EnsembleLibrary 生成集成式选择(Ensemble Selection)[5] 所需设置的界面。
4. Visualization WEKA 中数据可视化的方法。
Plot 作出数据集的二维散点图。
ROC 显示预先保存的ROC 曲线。
TreeVisualizer 显示一个有向图,例如一个决策树。
GraphVisualizer 显示XML、BIF 或DOT 格式的图片,例如贝叶斯网络(Bayesian network)。
BoundaryVisualizer 允许在二维空间中对分类器的决策边界进行可视化。
5. Windows 所有已打开的窗口都列在这里。
Minimize 最小化所有当前的窗口。
Restore 还原所有最小化过的窗口。
6. Help WEKA 的在线资源可以从这里找到。
Weka homepage 打开一个浏览器窗口,显示WEKA 的主页。
Online documentation 链接到WekaDoc 维基文档[4]。
HOWTOs, code snippets, etc. 通用的WekaWiki [3],包括大量的例子,
以及开发和使用WEKA 的基本知识(HOWTO)。
Weka on Sourceforge WEKA 项目在Sourceforge.net 的主页。
SystemInfo 列出一些关于Java/WEKA 环境的信息,例如CLASSPATH。
About 不光彩的“About”窗口。
如果从终端启动WEKA,会有一些文字在终端窗口中出现。这些文字是可以忽略的,除非某些东西出错了——这时它可以帮助找到错误的原因。(LogWindow 也可以显示那些信息。)
1 启动WEKA..3
2 WEKA Explorer...5
2.1 标签页.5
2.2 状态栏.5
2.3 Log 按钮.5
2.4 WEKA 状态图标...5
3 预处理..6
3.1 载入数据.6
3.2 当前关系.6
3.3 处理属性.7
3.4 使用筛选器.7
4 分类10
4.1 选择分类器...10
4.2 测试选项...10
4.3 Class属性..11
4.4 训练分类器...11
4.5 分类器输出文本...11
4.6 结果列表...12
5 聚类13
5.1 选择聚类器(Clusterer).13
5.2 聚类模式...13
5.3 忽略属性...13
5.4 学习聚类...14
6 关联规则15
6.1 设定...15
6.2 学习关联规则...15
7 属性选择16
7.1 搜索与评估...16
7.2 选项...16
7.3 执行选择...16
8 可视化18
8.1 散点图矩阵...18
8.2 选择单独的二维散点图...18
8.3 选择实例...19
参考文献..