Information Theory

clumpfrustratedΒιοτεχνολογία

2 Οκτ 2013 (πριν από 4 χρόνια και 11 μέρες)

464 εμφανίσεις

この講義について

担当:



勇一(かじ

ゆういち),計算メカニズム学研究室


昨年度までは,全15回の専門科目として実施

ベーシック
な部分を抜き出し,全8回の基礎科目として再構成

基本的に,情報系以外の学部を卒業した学生向け

1

情報を正確に,効率よく伝えるための理論と技術を学ぶ

本講義スライド

http
://apal.naist.jp/~kaji/lecture/

情報理論

1948
年の

C. E. Shannon

の論文からスタート

情報通信の数学的側面
に着目

今日のデジタル技術に多大な影響

有線・無線の通信・放送技術

CD/DVD/HDD
等のデータ記録技術

データ圧縮

暗号,言語学,バイオ情報学,ゲーム理論,
...


本講義では,情報理論の基礎的な知見について学ぶ

Claude E. Shannon

1916
-
2001

2

講義

構成

最初の能書




3つの章
:

能書き:講義内容全体の予告編


chapter 1:
情報を測る

chapter
2:
情報をコンパクトに表現する

chapter 3:
エラー
から情報を
守る

3

シャノン当時の時代背景を知る

1940
年代
の通信技術
...

電信
が広い用途で一般的に使われていた

モールス符号:

「トン

( ∙ )
」と「ツー


( − )
」の記号の組み合わせ

4

ある意味で,「
デジタル通信
」が既に用いられていた

10101000111000101110001011101000111

00000001110100011101110111000101110111

トン

=
1
単位時間
,
ツー

= 3
単位時間

記号と記号の間は,
1
単位時間の空白

英文字間は
3
単位,英単語間は
8
単位
時間の空白

情報処理の自動化・機械化

通信の一部を自動化する「装置」が出現

5

人間よりも複雑な処理が可能

それでも,情報の通信・記録は
...

効率が悪い
...
長大な通報の送受信には時間がかかる

信頼性が低い
...
伝達途中で,通報内容が変わることも


効率

信頼性
の確保が,当時の最重要課題

Teletype model 14
-
KTR, 1940

http://www.baudot.net/teletype/M14.htm

Enigma machine

http://enigma.wikispaces.com/

通信のモデル

通信は,下記のようにモデル化できる

6

C.E. Shannon, A Mathematical Theory of Communication,

The Bell System Technical Journal
,
27
, pp. 379

423, 623

656, 1948.

情報源

通報

送信機


符号化器


受信機


復号器


受領者

伝送


雑音源

通信



広い意味での情報の伝達

効率的であるとは

通信を
効率化する



B
のサイズを小さくする

ただし

A = D

(または

A ≈ D


の必要あり

通信路に雑音あり
(B ≠ C
),
雑音なし

(
B = C
)
の2つのケース

7

A

B

C

D

問題その1:効率性

例:天気を毎日記録したい(情報源

=天気)

通報

= {

,

,

}

記録には

“0”


“1”
だけ

使用可能(空白等は使えない)

8

天気







符号語

00

01

10

一日当たり
2
ビットを記録

100
日で

200
ビット

0100011000

もっと短くできれば,通信料の削減に!

良い符号はあるか?

符号

B
のほうが,符号

A
よりも
コンパクトに情報を表現できる

符号語の長さが違っているが,正しく復号できるか
?

先頭から処理すれば問題ナシ


符号

B
よりも良い符号はあるか
?

Yes
でもあり,
No
でもある
(

次ページ
)

9

天気







符号

A

00

01

10

符号

B

00

01

1

符号

A
...0100011000

符号

B
...010001100

「平均」で考える

通報の発生確率は,一般には均等でない
...

10

一日あたりの記録に必要なビット数


符号

A

2.0 bit

符号

B

2

0.5 +

2

0.3 +

1

0.2 =
1.8 bit

符号

C

1

0.5
+

2

0.3 +

2

0.2
=
1.5 bit

「この確率分布では

符号

C
が最良

...

この確率分布
で」,符号

C
よりも良い符号はあり得るか?

天気







確率

0.5

0.3

0.2

符号

A

00

01

10

符号

B

00

01

1

符号

C

1

01

00

最良の符号

たとえば,
一日
あたり,平均

0.0000000001
bit
で表現できる?

...
無理っぽい


「どこかに限界がある」ことは,直感的にわかる

シャノン:「どこに限界があるのかを数学的に解明したい」



この確率分布では

一日
あたり

1.485
ビット

絶対に
必要

11

天気







確率

0.5

0.3

0.2

天気という情報が持つ「情報量」

「容器(通報)のサイズは,


中身(情報量)よりも小さくできない」

本講義
の前半部分について

能書き:講義内容全体の予告編


chapter 1:
情報を
測る

情報
を定量的に測るための技術に


ついて学ぶ

chapter
2:
情報をコンパクトに表現
する

情報
をコンパクトに表現するための


技術と限界について学ぶ


chapter
3:
エラーから情報を
守る

12

信頼性の高さとは

通信の
信頼性を上げる




A
=
D

(または

A ≈
D
)」を保証する

雑音の影響により,
B

C
となるおそれがある

B
のサイズをあまり大きくせず,
A = D
となる
確率を上げたい

13

A

B

C

D

問題その2:信頼性

伝送
路は,必ずしも信頼できるものではない

送信情報



受信情報

14

伝送
路上での誤りを根絶
すること
は難しい


日常会話では
...

符丁
」の利用により問題回避

ABCABC

ABCA
D
C

ABC

A
lpha,
B
ravo,
C
harlie

ABC

A
lpha,
B
ravo,
C
harlie

あさひの「あ」

いろはの「い」

符丁とは

符丁では,冗長な記号を故意に付加する

冗長記号により,誤りを訂正可能とする



これと同種の機構を,
0
-
1
データ上で実現したい

15

送りたい
通報

誤り対策のため,やむを得ず

付加
する
冗長
な記号

必要のない

余分




冗長性について

Q
.

どうやって

0
-
1
データに冗長性を付加するか?

A
.

パリティビットを使えばよい


パリティビット
とは
...

データ中の
1
の個数を偶数にする
ための「追加ビット」

00101 → 00101
0

(

個の
1 →




1)

11010 → 11010
1

(



1 →




1)


パリティビットを一個使うと,
奇数個のビット誤りを検出可能

16

誤りを訂正するには?

パリティビットを複数使うと,誤りを訂正できる(場合もある)



:
4ビットデータ

(
a
0
,

a
1
,

a
2
,

a
3
)
に対し,パリティビットを5個付加

17

a
0

a
2

a
1

a
3

p
0

p
1

q
0

q
1

r

符号語

=

(
a
0
,

a
1
,

a
2
,

a
3
,

p
0
,

p
1
,

q
0
,

q
1
,

r
)

誤り訂正の例

1011
を送信する
...

18

1ビット誤りを訂正可能

(だが,あまりにも安直)

符号語

= 1 0 1 1
1 0 0 1 1

100110011
が受信された
...

1

1

0

1

1

0

0

1

1



×



×





1

0

0

1

1

0

0

1

1

3
ビット目が怪しい
...

「送信されたのは
10
1
110011
だろう」

本講義

後半
部分
について

能書き:講義内容全体の
予告編

chapter 1:
情報を測る

chapter
2:
情報をコンパクトに表現する


chapter
3:
エラーから情報を
守る

誤り
を発見し,訂正するための技術に


ついて学ぶ

19

授業日程

火曜1限(
9:20

10:50


4/9, 16, 23, 30, 5/7, 14, 21, 28 ...
全8回


中間レポート
... 4
月末前後

試験
... 5


28
日(最終回の講義)


講義資料(本スライド)

http://apal.naist.jp/~kaji/lecture/

20

chapter 1:

情報を測る

21

測るべき「情報」

情報とは,何かを伝えるもの.ただし
...

まったく興味のないことを教わっても,「情報」とは思わない

わかりきったことを教わっても,「情報」とは思わない



情報とは
...

不確実性を持つ興味対象
について,その
不確実さを減らすもの

22

不確実さが

大きい

Before

After

不確実さが

小さい

興味対象を,どのように表現するか

興味対象は様々

明日の天気,野球の試合結果

テストに出る問題,


友人の予定,夕食

おかず

...


現実の細部はバッサリと切り落とし,確率・統計の世界で考える


興味対象は,確率変数の値

どれ
くらい
の確率で,どの値を取るかはわかっている

実際
に発生する(発生した)値は,いまのところ不明


「サイコロの目」が典型例

23

復習:確率変数とは

確率変数





中身を覗けない「箱」のようなもの


の中には,

𝑣
1
,

𝑣
𝑀

のどれ
か一個
が入っている

何が入っているかは,箱を開けてみないとわからない

𝐷

=
{
𝑣
1
,

,
𝑣
𝑀
}

...
実現値
の集合


𝑣
𝑖
が入っている確率は


𝑖


𝑃
𝑋
𝑣
𝑖
=

𝑖

と書く


1
+


𝑀
=

𝑃
𝑋
(
𝑣
)
𝑣

𝐷
(
𝑋
)
=
1


24

復習:確率変数の例


サイコロの目
を,確率
変数

で表す」


の値は
1
,
2
,

,
6

のどれか,全部同じ確率

𝐷

=
{
1
,
2
,
3
,
4
,
5
,
6
}

𝑃
𝑋
1
=
𝑃
𝑋
2
=
𝑃
𝑋
3
=
𝑃
𝑋
4
=
𝑃
𝑋
5
=
𝑃
𝑋
(
6
)
=
1
/
6


「今夜のメニューを確率変数

で表す」

𝐷

=
{
カレー
,
とんかつ
,
ラーメン
,

}

𝑃
𝑋
(
カレー
)
=
1
/
6
,
𝑃
𝑋
(
とんかつ
)
=
1
/
4
,
...



25

情報の
伝達と確率変数

確率変数


の値を知りたい


の実現値の集合や,確率分布は既知

実際




が取った値は不明



の値について,なんらかの
情報を得る



の確率分布が変化する

正確で完全な情報







の値が一意に定まる

不正確,不完全な情報





多少の不確実さが残る

26

情報伝達の例


はサイコロ
の目を表す確率
変数,
𝑃
𝑋
(
1
)
=

=
𝑃
𝑋
(
6
)
=
1
/
6

27

1

2

3

4

5

6

1/6

1

2

3

4

5

6

1/4

1

2

3

4

5

6

1







4









3
の倍数ではない


不確実さ:大

不確実さ:中

不確実さ:小

情報の「量」と不確実さ







4









3
の倍数ではない



直感的には

...



のほうが②よりも大きな「情報量」を
持つ
,ように思われる



...
不確実さを大きく削減



...
不確実さを少しだけ削減



情報量



不確実さの削減量


として定義するのが自然

28

1

2

3

4

5

6

1

1

2

3

4

5

6

1/4





before

after

情報量

この後のシナリオ

最終目標:
「情報」の量を測る定量的指標
を導入する

step 1:
確率
変数

「エントロピー」を定義

エントロピー大



不確実さ大


step 2:
一つのニュースが持つ情報量を定義

情報量
= (BEFORE

エントロピー
)


(AFTER
エントロピー
)


step 3:
確率変数の間の相互情報量を定義

ある確率変数の値が,他の確率変数について何を語るか

29





今日

次回

𝐻
1
(

)
=



𝑖
log
2

𝑖
𝑀
𝑖
=
1
=


𝑃
𝑋
(
𝑣
)
log
2
𝑃
𝑋
(
𝑣
)
𝑣

𝐷
(
𝑋
)
(
bit
)

エントロピー
の定義


:
以下の値と確率分布を持つ確率変数

30



の(一次)
エントロピー

𝑣
1


1

𝑣
2


2

𝑣





...

...



確率

(値は,あまり重要でない)

(確率値が重要)


log
2

𝑖

の平均(期待値)と考えることもできる


log
2

𝑖

を,値
𝑣
𝑖

自己エントピー
と呼ぶ場合も

(ただし,
0
log
2
0
=
0
とする)

自己エントロピーの直感的意味付け

自己エントロピー


log
2


...
確率

の出来事が起こったと


知ったときの

驚き」の





に対して単調
減少


...
滅多にないことが起こる


が小さい)
と,驚きが大きい


>
0
で連続


...
同程度の確率であれば,驚きも同程度


=

1

2
なら



log

=

log

1

log

2


...
驚きの「加法性」に対応
している(次ページ)


31

驚きの加法性

トランプのカードを一枚引く


1
=
「ダイヤの
5だった

... 1/52
の確率



2
=
「ダイヤだった

...
1/4

確率


3
=
「5
だった」
...
1/13
の確率

32


1
を知ったときの驚き


2
を知り,その後に


3
を知ったときの驚き


log
2
1
52


log
2
1
4

log
2
1
13

自己エントロピー

,我々の直感的な理解と良く対応している

エントロピーの定義(再)



の(一次)
エントロピー

𝐻
1
(

)
=



𝑖
log
2

𝑖
𝑀
𝑖
=
1


(
bit
)

確率で重み付けした,自己
エントロピー
の平均値

確率
変数の値が与える「驚き」の平均値



不確実さ

33


log
2




log
2


エントロピー計算の例(1)

コインを投げて出た面
を確率変数

で表す


の取りうる値は「表」か「裏」の2種類

𝑃
𝑋

=
𝑃
𝑋

=
1
/
2



𝐻
1


=


1
2
log
2
1
2

1
2
log
2
1
2



=


log
2
1
2
=
log
2
1
=
1

bit

34

1bit
の情報は,2進数1桁で表現できる



Chapter
2

エントロピー計算の例(2)

2枚の異なるコインを投げる



{
表,表

表,裏


,表


,裏
}

𝑃
𝑋
(

,

)
=

=
𝑃
𝑋
(

,

)
=
1
/
4



𝐻
1


=


1
4
log
2
1
4

1
4
log
2
1
4

1
4
log
2
1
4

1
4
log
2
1
4



=


log
2
1
4
=
log
2
2
2
=
2

bit

35

コイン1枚のときの2倍のエントロピー

...
不確実さが「2倍」

エントロピー計算の例(3)

サイコロ投げ


の取りうる値は

1, 2, 3, 4, 5, 6

𝑃
𝑋
1
=
𝑃
𝑋
2
=


=

𝑃
𝑋
6
=
1
/
6



𝐻
1


=


1
6
log
2
1
6

1
6
log
2
1
6


1
6
log
2
1
6



=


log
2
1
6
=
log
2
6
=
2
.
585

bit

36

コイン投げのときと同じ尺度で比較ができる

エントロピー計算の例(4)

公正でないサイコロ


の取りうる値は

1, 2, 3, 4, 5, 6

𝑃
𝑋
1
=
0
.
9
,
𝑃
𝑋
2
=


=

𝑃
𝑋
6
=
0
.
02



𝐻
1


=


0
.
9
log
2
0
.
9

0
.
02
log
2
0
.
02


0
.
02
log
2
0
.
02



=

0
.
701

bit

37

コインを1枚投げるときより,不確実さが小さい

エントロピーのありがたみ

一回
100
円のゲーム,予想が当たれば
200
円もらえる

38

𝐻
1

=
1

𝐻
1

=
2

𝐻
1

=
2
.
585

𝐻
1

=
0
.
701

賭けるの
ならコレ

本日のまとめ

講義
概要

エントロピー
の定義


復習
問題(レポートではありません)

講義

web
ページにあるデータを使い,エントロピーを計算せよ


http
://apal.naist.jp/~kaji/lecture
/


英語

文字
出現頻度

株価の騰落データ

39