PRML report3 (2010/09/28, 10/05)

PRML, www.kameda-lab.org 2010/10/05

提出方法・期限

Deadline: 2010/10/19, 18:00 by e-mail
- (To): kameda[at]iit.tsukuba.ac.jp
- (Subject): PRML report3
- (Format): PDF

課題3A

以下のデータについてＳＶＭを構成し認識能力を検証せよ。

Dataset

standard set Training: Set-A/Set-B, for #10, #100, and #1000.
Test: Set-A/Set-B, for #10, #100, and #1000 respectively.

Data in CSV format

[3A-1] SVM

線形・非線形（非線形については複数種のカーネルを用意すること）、マージンのありなしの組み合わせについて、それぞれＳＶＭを構成すること。ＳＶＭのプログラムを自身で書く必要はなく、市販やフリーのライブラリやソフトウェアを用いてよい。

以下の項目について記述すること

ライブラリないしソフトウェアの入手先 (URLなど)
当該ライブラリ・ソフトウェアの作者および知的所有権保有者
利用法に関する簡単な説明

[3A-2] SVM学習

以下に挙げる３０種類のＳＶＭを構成し、認識結果を示せ。
認識結果は True-Positive, True-Negative, False-Positive, False-Negative の形で示すこと。

True / False : 学習データ・テストデータにつけられた教師信号
Positive / Negative : ＳＶＭによる認識結果

例えば正負各１００サンプルの場合、以下のようになる。

False True Sum
Negative True-Negative [TN] False-Negative[FN] TN + FN = N = ? (100ではないかもしれない)
Positive False-Positive [FP] True-Positive [TP] FP + TP = P = ? (100ではないかもしれない)
Total TN + FP = F = 100 FN + TP = T = 100 200

【考察】
テストデータによる認識率はそれぞれ１００％に到達できたか？到達できたとしたらそれはなぜか。到達できてないとすればそれはなぜか。どちらにせよ理由を示せ。

SVM (３０種類)

線形・ソフトマージンなし（3種）
1. #10
2. #100
3. #1000
線形・ソフトマージンあり、マージンの大きさは３段階用意 (3 x 3 = 9 種)
1. #10
2. #100
3. #1000
非線形・ソフトマージン無、カーネル２種類でカーネルのパラメータは３段階 (2 x 3 x 3 = 18 種)
- カーネル１ (多項式) : パラメーラは３段階用意すること
- カーネル２ (ガウシアン) : パラメーラは３段階用意すること
  1. #10
  2. #100
  3. #1000
非線形・ソフトマージン有（一般的に用いられる形式）の結果を上記同様に示してもよい。ただし調整可能なパラメータが多いので適宜選択すること。

[3A-3] SVM 認識試験

3A-2で得た３０種類のSVMについて、それぞれ認識能力を確認するためテストデータセットで認識試験を行うこと。
認識結果は True-Positive, False-Positive, False-Negative, True-Negative の表の形で示すこと。

【考察】
テストデータによる結果は学習データでの認識結果より悪くなることが多いと言われるが、実験結果で実際にどうなったか報告せよ。また、その結果について、理由を考察せよ。

課題 3B

以下のデータセットについて、ＳＶＭを構成し認識結果を示せ。

Dataset

challange set 教師データセット: Set-A/Set-B, for #10, #100, and #1000.
試験データセット: Set-A/Set-B, for #10, #100, and #1000.

Data in CSV format

[3B-1] SVM学習

認識率を最大化するように最適なＳＶＭを構成せよ(線形非線形の選択やソフトマージンの利用の有無も含む)。この課題では、最適なＳＶＭ１つを構成するだけでよいが、�$B$=$N9=@.K!$,BEEv$@$H?.$8$kM}M3$r<($9$3$H。

構成したＳＶＭを用いて、学習データの認識結果を示せ。認識結果は#10,#100,#1000のそれぞれについて True-Positive, False-Positive, False-Negative, True-Negative の表の形で示すこと。

[3B-2] SVM 認識試験

3B-1で構成したＳＶＭの認識能力をテストデータで確認せよ。認識結果は#10,#100,#1000のそれぞれについて True-Positive, False-Positive, False-Negative, True-Negative の表の形で示すこと。

【考察】
データ分布の背後に隠されたデータ分布を推測し、その分布が従う関数を予想せよ。
この実験を通じてＳＶＭの認識能力の上限や限界について考察せよ。

課題3C

2010/10/05のPCAの講義を英語で受けた感想を書いて下さい。スコアの他に自由記述コメントもお願いします。

ＰＣＡ自体の内容は理解できましたか？
５(良)　－　４　－　３　－　２　－　１(悪)
英語は理解できましたか？
５(良)　－　４　－　３　－　２　－　１(悪)
自由記述

kameda[at]iit.tsukuba.ac.jp

	False	True	Sum
Negative	True-Negative [TN]	False-Negative[FN]	TN + FN = N = ? (100ではないかもしれない)
Positive	False-Positive [FP]	True-Positive [TP]	FP + TP = P = ? (100ではないかもしれない)
Total	TN + FP = F = 100	FN + TP = T = 100	200