Weka可用于开发过程中各类重要数据的挖掘运算,该应用自身就是各种算法的集成,囊括了行业中所使用到的几乎所有的数据挖掘算法,比较适合在对后台的算法运行情况进行检测的时候使用,能够凭借该应用提供的数据即时处理能力,把混乱且复杂的数据清晰分类,按照既有项目计划的具体规则来界定。
1、可以处理一个数据库的查询结果
2、weka软件支持相同功能的命令行,或是一种基于组件的知识流接口
3、集成自己的算法甚至借鉴它的方法自己实现可视化工具都很简单
4、技术基于假设数据是以一种单个文件或关联的
5、使用Java的数据库链接能力可以访问SQL数据库
原理与实现
聚类分析中的类(cluster)和前面分类的类(class)是不同的,对cluster更加准确的翻译应该是簇。聚类的任务是把 所有的实例分配到若干的簇,使得同一个簇的实例聚集在一个簇中心的周围,它们之间距离的比较近;而不同簇实例之间的距离比较远。对于由数值型属性刻画的实 例来说,这个距离通常指欧氏距离。
模型应用
现在我们要用生成的模型对那些待预测的数据集进行预测了。注意待预测数据集和训练用数据集各个属性的设置必须是一致的。即使你没有待预测数据集的Class属性的值,你也要添加这个属性,可以将该属性在各实例上的值均设成缺失值。
在Test Opion中选择Supplied test set,并且Set成你要应用模型的数据集,这里是bank-new.arff文件。
现在,右键点击Result list中刚产生的那一项,选择Re-evaluate model on current test set。右边显示结果的区域中会增加一些内容,告诉你该模型应用在这个数据集上表现将如何。如果你的Class属性都是些缺失值,那这些内容是无意义 的,我们关注的是模型在新数据集上的预测值。
现在点击右键菜单中的Visualize classifier errors,将弹出一个新窗口显示一些有关预测误差的散点图。点击这个新窗口中的Save按钮,保存一个Arff文件。打开这个文件可以看到在倒 数第二个位置多了一个属性(predictedpep),这个属性上的值就是模型对每个实例的预测值。
建模结果
OK,选上Cross-validation并在Folds框填上10。点Start按钮开始让算法生成决策树模型。很快,用文 本表示的一棵决策树,以及对这个决策树的误差分析等等结果出现在右边的Classifier output中。同时左下的Results list出现了一个项目显示刚才的时间和算法名称。如果换一个模型或者换个参数,重新Start一次,则Results list又会多出一项。
喜欢小编为您带来的Weka数据挖掘工具吗?希望可以帮到您~更多软件下载尽在软件爱好者
欢迎来到人渣scum的世界!作为一款高度模拟现实的生存游戏,它不仅提供了丰富的玩法和挑战,还允许玩家根据自己的喜好调整游戏的各项设置。本文将指导你如何将游戏界面翻译成中文,并进行其他必要的设置调整,让你能够更加流畅地享受游戏的乐趣。一、启动游戏并进入设置菜单1