2015年3月7日 星期六

Data Mining 課程內容

第一部分:實用機器學習工具和技術
 1.什麼是一回事呢?
 1.1數據挖掘和機器學習
 1.2簡單的例子:天氣問題及其他
 1.3派出的應用
 1.4機器學習和統計
 1.5泛化的搜索
 1.6數據挖掘與道德
 1.7進一步閱讀

 2.輸入:概念,實例屬性
 2.1什麼是概念?
 2.2什麼是在一個例子?
 2.3什麼是在一個屬性?
 2.4準備輸入
 2.5進一步閱讀

 3.輸出:知識表達
 3.1表
 3.2線性模型
 3.3樹木
 3.4規則
 3.5基於實例的表示
 3.6集群
 3.7進一步閱讀

 4.算法:基本方法
 4.1推斷基本規則
 4.2統計學模型
 4.3分而治之:構建決策樹
 4.4覆蓋算法:構建規則
 4.5關聯規則挖掘
 4.6線性模型
 4.7基於實例的學習
 4.8聚類
 4.9多實例學習
 4.10進一步閱讀
 4.11 Weka的實現

 5.信譽:評估什麼據了解
 5.1培訓和測試
 5.2業績預測
 5.3交叉驗證
 5.4其他估計
 5.5比較數據挖掘方案
 5.6預測概率
 5.7計算成本
 5.8評估數值預報
 5.9最小描述長度原理
 5.10申請MDL聚類
 5.11進一步閱讀

第二部分:先進的數據挖掘
 6.實現:真正的機器學習方案
 6.1決策樹
 6.2分類規則
 6.3關聯規則
 6.4擴展線性模型
 6.5基於實例的學習
 6.6數值預測與局部線性模型
 6.7貝葉斯網絡
 6.8聚類
 6.9半監督學習
 6.10多實例學習
 6.11 Weka的實現

 7.數據轉換
 7.1屬性選擇
 7.2離散化數值屬性
 7.3預測
 7.4採樣
 7.5潔面
 7.6轉化多個類,以二進制問鼎
 7.7校準類概率
 7.8進一步閱讀
 7.9 Weka的實現

 8.集成學習
 8.1合併多個模型
 8.2套袋
 8.3隨機
 8.4增壓
 8.5添加劑回歸
 8.6可解釋合奏
 8.7堆疊
 8.8進一步閱讀
 8.9 Weka的實現

 9.上移動:應用及發展前景
 9.1應用數據挖掘
 9.2從海量數據集學習
 9.3數據流學習
 9.4納入領域知識
 9.5文本挖掘
 9.6 Web挖掘
 9.7對抗性情況
 9.8無處不在的數據挖掘
 9.9進一步閱讀

第三部分:Weka的數據挖掘工作台
 10.介紹了Weka
 10.1是什麼在Weka中?
 10.2你如何使用它?
 10.3還有什麼可以做什麼?

 11.瀏覽器
 11.1入門
 11.2探索瀏覽器
 11.3濾波算法
 11.4學習算法
 11.5元學習算法
 11.6聚類算法
 11.7協會規則學習者
 11.8屬性選擇

 12.知識流接口
 12.1入門
 12.2知識流組件
 12.3配置和連接組件
 12.4增量學習

 13.實驗者
 13.1入門
 13.2簡單設置
 13.3高級設置
 13.4專家組分析
 13.5分發處理了幾台機器

 14.命令行界面
 14.1入門
 14.2 Weka中的結構
 14.3命令行選項

 15.嵌入式機器學習
 15.1一個簡單的數據挖掘中的應用

 16.書寫新的學習計劃
 16.1一個例子分類
 16.2約定實施分類器

 17.教程Excercises為Weka的瀏覽器
  17.1介紹瀏覽器界面
  17.2近鄰學習和決策樹
  17.3分類邊界
  17.4預處理和參數整定
  17.5文檔分類
  17.6挖掘關聯規則

Data Mining_Syllabus(教學大綱)

Syllabus
教學大綱
Department of Industrial and Information Management

Course(課程): Data Mining (Spring, 2015); W B-D
Textbook: Data Mining – Witten and Frank, and Hall, 3rd Edition 2011, Morgan Kaufmann.
Instructor: Wong, Tzu-Tsung (翁慈宗), office: 61303, ext: 53722, tzutsung@mail.ncku.edu.tw
Content: Data mining is a technique for retrieving information from data.  The information will be useful in achieving some specific purpose.  This course introduces data mining tools for classification, association, clustering, and numeric prediction.  Students will be asked to use Weka to accomplish a data mining project.  The topics that will be covered in this course are   (內容:數據挖掘是從數據中提取信息的技術。該信息將在實現某些特定的用途是有用的。本課程介紹了分類,關聯,聚類和數值預測的數據挖掘工具。學生將被要求使用Weka中完成數據挖掘項目。這將包括在本課程的主題)

·  Introduction to data ming (介紹數據挖掘)
·  Preparation of input data (輸入數據的準備)
·  Data transformation (數據轉換)
·  Classification methods (分類方法)
·  Association analysis (關聯分析)
·  Numeric Prediction methods (數值預測方法)
·  Clustering methods (聚類方法)
.
Grade: Homework assignments 40%, midterm exam 15%, term paper report 20%, Final exam 25%
(評分:家庭作業40%,期中考試15%,期末論文報告20%,期末考試25)

Homework: There is approximately one assignment for every month. In general, the time for completing an assignment is a week. Copying assignments in any way is strictly prohibited. No late homework except for acceptable excuses.
(家庭作業:對於每月大約分配。在一般情況下,該時間用於完成工作分配是一個星期。以任何方式抄襲作業被嚴格禁止的。任何遲交的作業,除了可以接受的藉口)

Exam scheduleMidterm 4/29, Final 6/24
(考試日程安排:期中4/29,期末6/24)

DATA MINING產品特點:
解釋了數據挖掘算法是如何工作的。
幫助選擇合適的方法來特別的問題,並以比較和評價的不同技術的結果。
包括性能改進技術,包括輸入預處理並結合輸出不同的方法。
向您介紹如何使用的Weka機器學習工作台。
Explains how data mining algorithms work.
Helps you select appropriate approaches to particular problems and to compare and evaluate the results of different techniques.
Covers performance improvement techniques, including input preprocessing and combining output from different methods.
Shows you how to use the Weka machine learning workbench.