(轉載)
“監督學習(Supervised Learning)”是各種統計學習方法中最單純,最容易理解
的形式。
一般而言,監督學習的正規定義可以這樣來描述。
每筆資料點(data point)
是由一個特徵向量,我們以 表示之,和一個類別標籤(class label) 所組成;同
時,假定有一個未知(underlying)的函式 存在,對於每一筆訓練的資料點
來說, 是恆成立的。
於是學習演算法的目標就是要找一個令人滿意的近
似函式h,並使得針對任何一筆新增的特徵向量
Χ y
f Χ y),(
fy Χ= )(
Χnew 所求得的類別標籤 可以
愈接近原始函式 計算的結果。
這個近似函式 ,我們就稱為分類器(classifier),
如此命名的原因,是因為它可以將輸入的特徵向量分發或歸類到某一個真實或接
近真實的類別。
監督學習能被應用於很多的問題上,包括手寫辨識、醫學診斷和
部分語音或文字的標籤處理。..詳文... 整體學習(Ensemble Learning)入門
2015年4月11日 星期六
群集化(clustering)
(轉載)
科學與工程技術期刊 第三卷 第一期 民國九十六年
利用共生詞彙特性發展一個二階段文件群集法
http://journal.dyu.edu.tw/dyujo/document/setjournal/s3-1-9-18.pdf
摘 要
群集化(clustering)
是在資料探勘領域中被廣泛應用的技術,將其概念應用於文字探勘的 領域中,亦是近來的熱門研究議題。
若將群集化技術應用於文件型態的資料時,常會採用向量 空間模型(vector space model, VSM)來表達文件資料,然而在學術研究上卻發現有兩個缺失: 一為無法辨識文中詞彙間的關聯性,造成文件誤判。
在向量空間模型中,每個關鍵詞彙所構成 的維度都是獨立的,無法區別文中詞彙間的關聯性(包括一詞多義、一義多詞、以及共同發生 詞彙),使得進行文件相似度的比對時可能會造成誤判的情況,降低文件群集之品質。
另一缺 失則為如維度太高,易造成群集失準的問題。
向量空間模型的維度是由文件集所有的關鍵詞彙 之數量而定,當文件所萃取出來的關鍵字過多時,便會使得向量空間模型的維度增加,導致群 集的結果也比較不準確。
為了改善向量空間模型的兩大缺點,本文嘗試提出一個二階段的文件群集法,第一階段先 將關鍵字進行群集,第二階段再利用這些關鍵字群集將文件分群;本文透過關聯規則技術的應 用,來改善向量空間模型的缺失並增進文件群集的品質。
此外,關鍵字群集後的結果還可以幫 助文件群集作概括性的描述。本文以 Reuters-21578 文件集進行實驗評估,將本論文所提出的文 件群集法與傳統的文件群集法相比較,實驗結果證實本論文所提出的方法確實能得到高品質的 文件群集。
科學與工程技術期刊 第三卷 第一期 民國九十六年
利用共生詞彙特性發展一個二階段文件群集法
http://journal.dyu.edu.tw/dyujo/document/setjournal/s3-1-9-18.pdf
摘 要
群集化(clustering)
是在資料探勘領域中被廣泛應用的技術,將其概念應用於文字探勘的 領域中,亦是近來的熱門研究議題。
若將群集化技術應用於文件型態的資料時,常會採用向量 空間模型(vector space model, VSM)來表達文件資料,然而在學術研究上卻發現有兩個缺失: 一為無法辨識文中詞彙間的關聯性,造成文件誤判。
在向量空間模型中,每個關鍵詞彙所構成 的維度都是獨立的,無法區別文中詞彙間的關聯性(包括一詞多義、一義多詞、以及共同發生 詞彙),使得進行文件相似度的比對時可能會造成誤判的情況,降低文件群集之品質。
另一缺 失則為如維度太高,易造成群集失準的問題。
向量空間模型的維度是由文件集所有的關鍵詞彙 之數量而定,當文件所萃取出來的關鍵字過多時,便會使得向量空間模型的維度增加,導致群 集的結果也比較不準確。
為了改善向量空間模型的兩大缺點,本文嘗試提出一個二階段的文件群集法,第一階段先 將關鍵字進行群集,第二階段再利用這些關鍵字群集將文件分群;本文透過關聯規則技術的應 用,來改善向量空間模型的缺失並增進文件群集的品質。
此外,關鍵字群集後的結果還可以幫 助文件群集作概括性的描述。本文以 Reuters-21578 文件集進行實驗評估,將本論文所提出的文 件群集法與傳統的文件群集法相比較,實驗結果證實本論文所提出的方法確實能得到高品質的 文件群集。
何謂信賴區間
(轉載)維基百科網站
在統計學中,一個機率樣本的信賴區間(Confidence interval)是對這個樣本的某個總體參數的區間估計。信賴區間展現的是這個參數的真實值有一定機率落在測量結果的周圍的程度。信賴區間給出的是被測量參數的測量值的可信程度,即前面所要求的「一定機率」。這個機率被稱為信心水準。舉例來說,如果在一次大選中某人的支持率為55%,而信心水準0.95上的信賴區間是(50%,60%),那麼他的真實支持率有百分之九十五的機率落在百分之五十和百分之六十之間,因此他的真實支持率不足一半的可能性小於百分之2.5(假設分布是對稱的)。
如例子中一樣,信心水準一般用百分比表示,因此信心水準0.95上的信賴區間也可以表達為:95%信賴區間。信賴區間的兩端被稱為置信極限。對一個給定情形的估計來說,信心水準越高,所對應的信賴區間就會越大。
置信度(摘自Bai du百科)
(轉載)置信度
http://translate.google.com.tw/translate?hl=zh-TW&sl=zh-CN&u=http://baike.baidu.com/view/434404.htm&prev=search
在統計學中,一個概率樣本的置信區間 (Confidence interval)是對這個樣本的某個總體參數的區間估計 。置信區間展現的是這個參數的真實值有一定概率落在測量結果的周圍的程度。 置信區間給出的是被測量參數的測量值的可信程度,即前面所要求的“一定概率”。 這個概率被稱為置信水平 。
[簡介]
http://translate.google.com.tw/translate?hl=zh-TW&sl=zh-CN&u=http://baike.baidu.com/view/434404.htm&prev=search
在統計學中,一個概率樣本的置信區間 (Confidence interval)是對這個樣本的某個總體參數的區間估計 。置信區間展現的是這個參數的真實值有一定概率落在測量結果的周圍的程度。 置信區間給出的是被測量參數的測量值的可信程度,即前面所要求的“一定概率”。 這個概率被稱為置信水平 。
[簡介]
如果在一次大選中某人的支持率為55%,而置信水平0.95上的置信區間是(50%,60%),那麼他的真實支持率有百分之九十五的機率落在百分之五十和百分之六十之間,因此他的真實支持率不足一半的可能性小於百分之2.5(假設分佈是對稱的)。
如例子中一樣,置信水平一般用百分比表示,因此置信水平0.95上的置信區間也可以表達為:95%置信區間。 置信區間的兩端被稱為置信極限 。 對一個給定情形的估計來說,置信水平越高,所對應的置信區間就會越大。
對置信區間的計算通常要求對估計過程的假設(因此屬於參數統計),比如說假設估計的誤差是成正態分佈的。
但是可信區間和置信區間是建立在不同的概念基礎上的,因此一般上說取值不會一樣。
置信空間表示通過計算估計值所在的區間。
置信水平表示準確值落在這個區間的概率。
置信區間表示具體值範圍,置信水平是個概率值。
例如:估計某件事件完成會在10~12日之間,但這個估計準確性大約只有80%:
置信區間越大,置信水平越高。
2015年4月6日 星期一
第一次登入後再改密碼
電子信箱(學校)E-mail address(school)
新生(98學年度入學者):
(部分新生要等完成報到手續,學籍資料建檔 後,才能登入)
(部分新生要等完成報到手續,學籍資料建檔 後,才能登入)
本地生:【身份證號】後4碼+【生日】後4碼。
如:
【身分證】:A123456789
【生日】:78年06月12日
======>> 則第一次登入密碼為:67890612
【身分證】:A123456789
【生日】:78年06月12日
======>> 則第一次登入密碼為:67890612
訂閱:
文章 (Atom)