2015年4月11日 星期六

整體學習(Ensemble Learning)入門

(轉載)
 “監督學習(Supervised Learning)”是各種統計學習方法中最單純,最容易理解 的形式。
一般而言,監督學習的正規定義可以這樣來描述。
每筆資料點(data point) 是由一個特徵向量,我們以 表示之,和一個類別標籤(class label) 所組成;同 時,假定有一個未知(underlying)的函式 存在,對於每一筆訓練的資料點 來說, 是恆成立的。
於是學習演算法的目標就是要找一個令人滿意的近 似函式h,並使得針對任何一筆新增的特徵向量 Χ y f Χ y),( fy Χ= )( Χnew 所求得的類別標籤 可以 愈接近原始函式 計算的結果。
這個近似函式 ,我們就稱為分類器(classifier), 如此命名的原因,是因為它可以將輸入的特徵向量分發或歸類到某一個真實或接 近真實的類別。
監督學習能被應用於很多的問題上,包括手寫辨識、醫學診斷和 部分語音或文字的標籤處理。..詳文... 整體學習(Ensemble Learning)入門

群集化(clustering)

(轉載)
科學與工程技術期刊 第三卷 第一期 民國九十六年
利用共生詞彙特性發展一個二階段文件群集法
http://journal.dyu.edu.tw/dyujo/document/setjournal/s3-1-9-18.pdf

摘 要 
群集化(clustering)
是在資料探勘領域中被廣泛應用的技術,將其概念應用於文字探勘的 領域中,亦是近來的熱門研究議題。
若將群集化技術應用於文件型態的資料時,常會採用向量 空間模型(vector space model, VSM)來表達文件資料,然而在學術研究上卻發現有兩個缺失: 一為無法辨識文中詞彙間的關聯性,造成文件誤判。
在向量空間模型中,每個關鍵詞彙所構成 的維度都是獨立的,無法區別文中詞彙間的關聯性(包括一詞多義、一義多詞、以及共同發生 詞彙),使得進行文件相似度的比對時可能會造成誤判的情況,降低文件群集之品質。
另一缺 失則為如維度太高,易造成群集失準的問題。
向量空間模型的維度是由文件集所有的關鍵詞彙 之數量而定,當文件所萃取出來的關鍵字過多時,便會使得向量空間模型的維度增加,導致群 集的結果也比較不準確。
為了改善向量空間模型的兩大缺點,本文嘗試提出一個二階段的文件群集法,第一階段先 將關鍵字進行群集,第二階段再利用這些關鍵字群集將文件分群;本文透過關聯規則技術的應 用,來改善向量空間模型的缺失並增進文件群集的品質。
此外,關鍵字群集後的結果還可以幫 助文件群集作概括性的描述。本文以 Reuters-21578 文件集進行實驗評估,將本論文所提出的文 件群集法與傳統的文件群集法相比較,實驗結果證實本論文所提出的方法確實能得到高品質的 文件群集。

何謂信賴區間

統計學中,一個機率樣本信賴區間(Confidence interval)是對這個樣本的某個總體參數區間估計。信賴區間展現的是這個參數的真實值有一定機率落在測量結果的周圍的程度。信賴區間給出的是被測量參數的測量值的可信程度,即前面所要求的「一定機率」。這個機率被稱為信心水準。舉例來說,如果在一次大選中某人的支持率為55%,而信心水準0.95上的信賴區間是(50%,60%),那麼他的真實支持率有百分之九十五的機率落在百分之五十和百分之六十之間,因此他的真實支持率不足一半的可能性小於百分之2.5(假設分布是對稱的)。
如例子中一樣,信心水準一般用百分比表示,因此信心水準0.95上的信賴區間也可以表達為:95%信賴區間。信賴區間的兩端被稱為置信極限。對一個給定情形的估計來說,信心水準越高,所對應的信賴區間就會越大。
對信賴區間的計算通常要求對估計過程的假設(因此屬於參數統計),比如說假設估計的誤差是成常態分佈的。
信賴區間只在頻率統計中使用。在貝葉斯統計中的對應概念是可信區間。但是可信區間和信賴區間是建立在不同的概念基礎上的,因此一般上說取值不會一樣。 置信空間表示通過計算估計值所在的區間。 信心水準表示準確值落在這個區間的機率。 信賴區間表示具體值範圍,信心水準是個機率值。例如:估計某件事件完成會在10~12日之間,但這個估計準確性大約只有80%:表示信賴區間(10,12),信心水準80%。要想提高信心水準,就要放寬置信空間。

置信度(摘自Bai du百科)

(轉載)置信度
http://translate.google.com.tw/translate?hl=zh-TW&sl=zh-CN&u=http://baike.baidu.com/view/434404.htm&prev=search
統計學中,一個概率樣本的置信區間 (Confidence interval)是對這個樣本的某個總體參數區間估計 。置信區間展現的是這個參數的真實值有一定概率落在測量結果的周圍的程度。 置信區間給出的是被測量參數的測量值的可信程度,即前面所要求的“一定概率”。 這個概率被稱為置信水平 。

[簡介]
如果在一次大選中某人的支持率為55%,而置信水平0.95上的置信區間是(50%,60%),那麼他的真實支持率有百分之九十五的機率落在百分之五十和百分之六十之間,因此他的真實支持率不足一半的可能性小於百分之2.5(假設分佈是對稱的)。
如例子中一樣,置信水平一般用百分比表示,因此置信水平0.95上的置信區間也可以表達為:95%置信區間 置信區間的兩端被稱為置信極限 。 對一個給定情形的估計來說,置信水平越高,所對應的置信區間就會越大。
對置信區間的計算通常要求對估計過程的假設(因此屬於參數統計),比如說假設估計的誤差是成正態分佈的。
置信區間只在頻率統計中使用。 貝葉斯統計中的對應概念是可信區間 。 
但是可信區間和置信區間是建立在不同的概念基礎上的,因此一般上說取值不會一樣。 
置信空間表示通過計算估計值所在的區間。 
置信水平表示準確值落在這個區間的概率。 
置信區間表示具體值範圍,置信水平是個概率值。 
例如:估計某件事件完成會在10~12日之間,但這個估計準確性大約只有80%:
表示置信區間(10,12),置信水平80%。 要想提高置信水平,就要放寬置信空間。 [2]  
置信水平是指總體參數值落在樣本統計值某一區內的概率;而置信區間是指在某一置信水平下,樣本統計值與總體參數值間誤差範圍。 
置信區間越大,置信水平越高。

2015年4月6日 星期一

第一次登入後再改密碼

電子信箱(學校)E-mail address(school)
說明:
學校電子信箱是學校與學生重要事項聯絡的管道,完成報到手續後,請由本校首頁「成功入口」登入,即可使用本校E-mail收送信件;「成功入口」系統使用問題,請洽詢計網中心一樓諮詢服務區。

新生(98學年度入學者):
(部分新生要等完成報到手續,學籍資料建檔 後,才能登入)
本地生:【身份證號】後4+【生日】後4碼。
如:
【身分證】:A123456789
【生日】:780612
======>> 則第一次登入密碼為:67890612