R解説(4)

Rのプログラム開発に欠かせないデバッグ、OSとのインタラクション(作業ディレクトリの変更、ファイルの存在確認など)、いくつかのライブラリについて学びます

デバッグ: バグに悩まされなくなるように

プログラムを作るための最良の方法は「一遍に大きなプログラムを作らない」ことである。つまり、プログラムを意味的に小さなカタマリに分割し、そのカタマリごとにちゃんと動くことを確かめ、最後にそのカタマリを組み合わせる、という方法である。

普通のプログラミング言語であれば、このプログラムの(小さな)カタマリはサブルーチンとか関数と呼ばれるものである。「関数」としてこのカタマリを作っていくことは価値がある。なぜなら、関数は、計算に必要なものが何かを「引数」として明示的に表し、それをどのように計算するかというアルゴリズムをコードとして表された本体があり、最後に何を値として返すか（出力、もしくは結果）がはっきりしているからである。

Rはインタプリタ型の言語である。そのため、そのカタマリや、それよりも小さな単位のコードを実際に試しながら、プログラムを作ることが容易である。
[インタプリタ型の言語とは]

プログラミング言語の処理系(つまり、その言語で書かれたプログラムを実際に実行するシステム)として、大きく分けてインタプリタとコンパイラがある。インタプリタとは、人間と対話的にコードを処理していく、つまり入力されたコードをその場でCPU（コンピュータの頭脳のこと)がわかる言葉に翻訳し(翻訳された結果をバイナリといい、この処理を「解釈」という)、その場で翻訳結果をCPUが実行する処理方式である。これがRやRuby, Lisp, Prologなどのプログラミング言語がその処理系として暗黙的に仮定している方式である。

それに対し、コンパイラとは、人間が書いたコードをCPUがわかる言葉に翻訳することと、その結果を実行することを別々にする処理方式である。そして特に前者の処理をコンパイルと呼ぶ。コンパイルした結果はファイルとして保存され、このファイルは元のコードとは独立に実行することができる(ただし、実行するためには、いろいろなライブラリにあるコードが必要になるのが普通であり、それを実行時に結合する方式を動的リンク、コンパイル時に結合する方式を静的リンクと呼ぶ)。

インタプリタ方式は人間が思いついたプログラムをその場で実行でき、一般に自由度が高い。それに対し、コンパイル方式は同じプログラムを何回も実行するのに向いている。コンパイルは１回ですみ、その結果のファイルをCPUで処理するスピードはインタプリタ型の処理に比べて10倍から100倍ほど速いからである。(そのため、インタプリタ方式でも、よく使うコードを「コンパイル」しておく方法も用いられることが多い)

Rはインタプリタ方式であるが、コンパイル方式に比肩するほどの処理速度が報告されている。そういう意味において「最強のプログラミング言語」と言えよう。

例として(標本)標準偏差を求める関数s.sdを作る工程を示そう(Rの組み込みとして標準偏差を求める関数sdがあるが、sdは不偏分散の正の平方根であり、標本の標準偏差とは異なる)。その計算の過程は次のようになる:

まず「xの平均」を求めてみよう。それには次のようにRを実行すればよい。

次に「v <- xの(標本)分散をxの平均を用いて求める」のコードを書く。「分散」とは、「xの要素と平均値との差」の自乗の総和から求めることを思い出す。そこで次のように書いてみよう。

そこで「分散」の定義を調べてみると、分散は「「xの要素と平均値との差」の自乗の総和」を要素数(不偏分散は「要素数－1」)で割った値」であったことがわかる。そこで次のように修正する:

以上が正道なのだが、こういう方法が正しいとわかっていても、いきなり関数の定義を書いてからバグに悩まされる人も少なくない(かくいう著者も時々これをやってしまう)。そのためのバグ除去の手段として、Rではdebug、およびbrowser関数が用意されている。

debugもbrowserも「デバッグモード」という特殊なモードで関数の実行を可能にしている。両者の違いは、その関数が呼び出された時にデバッグモードで実行するか(debugの場合)、それとも関数実行の途中でデバッグモードに入るのか(実行途中でbrowser関数を呼び出す。バグがありそうなところがわかっている場合に有効)、という違いである。

演習1

ファイルからデータフレーム型のデータ(例えばサンプルデータ)を読み込み、各列の平均と分散を表示するプログラムを作れ。ただし(できれば)、debugかbrowserを用いて、プログラムの動きを確認しながら、そのプログラムを作るものとする。

OSとの関わり

ファイルパスとは、そのファイルがどこの記憶領域(ハードディスクやSDカードなど)のどのフォルダの中にあるかということを示す文字列である。

Windowsにおける"C:\Users\sirai\Documents\Classes\R\sample.txt"というファイルパスを例に取ると、sample.txtというファイルは、Cドライブ(C:で表される）の中のUsersフォルダ(ドライブとフォルダやフォルダとフォルダの間の区切り文字は "\"である)の中のsiraiフォルダの中のDocumentsフォルダの中のClassesフォルダの中のRフォルダにあると示されている。

注意すべきは、Rの中ではファイルパスの区切り文字は"\"ではなく"/"が使われる、ということである。このように区切り文字を"/"とするのは、LinuxやMacOSなどUnixというOSの伝統であり、むしろこちらが一般的である。

そこでRではファイルメニューから「ディレクトリの変更」(ディレクトリとはフォルダのこと)を選んで、「作業ディレクトリ」を設定しておくことができる。これにより、例えば read.table("sample.csv") というコードを実行したときは、sample.csvというファイルはその作業ディレクトリから読み込まれる。またRで実行するプログラム(スクリプトという)も、ファイルメニューから「スクリプトを開く」を選ぶと、作業ディレクトリを表示してくれ、そこからRで実行するプログラムを指定することができる。

残念なことに、「ディレクトリの変更」はいつもコンピュータの一番上の階層から始まる。もしも探すべきフォルダがかなり下にある場合には、これはなかなか面倒な操作が必要になる。それに対して、Rの次のコマンドを行うと、「スクリプトを開く」ことも、Rの中からデータファイルを読み込むのも楽になることが期待できる。使用するのは次の関数である: getwd, dir, setwd, unlink 。これらは、WindowsOSに働きかける命令も含んでおり、いわばRの環境とOSとの調整を果たしている。

演習2

setwdコマンドを用いて自分の「ドキュメント」フォルダの下の「R」フォルダに作業ディレクトリを移動し、その下にある"test.txt"からreadLines関数により5行分読み込んで画面に表示するプログラムを作れ。ただし、上記に必要なフォルダやファイルはあらかじめ(適切に)用意しておくこと。

ライブラリの使用

CRANというRの情報源のサイトの、 Task Viewsというパッケージの紹介ページには、次のような分野のライブラリがあることが紹介されている(ここでは、ごく一部のみにとどめている):

以下はdeepnetパッケージをインストールし、ライブラリdeepnetを使えるようにした様子である。ただし、ここでは既にミラーサイトTokyoを設定してあるものとする。

演習3 (難しいテーマを含んでいるが、できるところまで頑張ってみよ)

人工知能の機械学習の一つであるニューラルネットを体験する。 (注意: ニューラルネットについては、機械学習や人工知能概論で学んでいる思うが、知らない人は調べておくこと) それには、Rのnnetパッケージをインストールし、nnetライブラリを読み込んで使う。 (この解説の「パッケージのインストール」について読み返しておくこと)
アヤメの花びらと萼片の幅と長さのデータから種別を推定するシステムを作ろう。なおこれは「教師あり学習」の一つである。

sample関数を用いてirisデータを半分ずつに分割し、片方のデータを用いて学習し、できあがった推定システムの評価を残りの半分のデータで行う。どのようにこれを実現したかとともに、その評価値を答えよ。
[ニューラルネットを作って走らせる...]
irisデータとは150個の(3種類のアヤメ、それぞれ50個のデータが連続して入っている)データである。これはRを立ち上げた時に既にセットされている。このirisデータをsample関数を用いて2つに分けるのは次のようにすればできる(iris.trainとiris.testにそれぞれ元のirisデータの半分ずつが入っている): (なおsample関数は乱数を用いて数を生成する関数である)
```
samples <- sample(1:150,75)       # 1から150までの範囲で75個選ぶ
iris.train <- iris[samples,]
iris.test  <- iris[-samples,]
```
次に、iris.trainデータを用いてニューラルネットを作る:
```
library(nnet)		# nnetライブラリの読み込み
iris.nnet <- nnet(Species~., size=3, decay=0.1,data=iris.train)
```
ここでnnet(Species~., 中略, data=iris.train)とは、種別(Species)を出力(目的変数)、他のデータを入力(説明変数)とし、iris.trainデータで学習させてニューラルネットを作ることを意味する。またsize=3は中間層のノード数が3であることを意味する。これにより作成されたニューラルネットがiris.nnetの値になっているので、これを次のようにiris.testに適用し(predict関数による。iris.predictにその結果が代入される)、その結果をtable関数を用いて表示する:
```
iris.predict <- predict(iris.nnet, iris.test[,-5],type="class")
table(iris.test[,5], iris.predict)
```
上でiris.test[,-5]によりSpeciesを除くデータが入力となり、type="class"により数値ではなく種の判別を結果として返すことを意味する。詳しくは金(2007)「Rによるデータサイエンス」や、豊田(2008)「データマイニング入門」を見てほしい。
irisデータを、乱数を用いて5等分し (それぞれに3種類のアヤメのデータが均等に入るよう工夫せよ)、それらを第1グループ、第2グループ、...、第5グループとする。
まず第2グループから第5グループをひとまとめにしたデータ (つまり元データから第1グループを除いたもの)で学習し、それによって得られた推定システムで第１グループのデータでテストする。次に元データから第2グループを除いたデータで学習させ、得られた推定システムを第2グループで評価を行う。今度は元データから第3グループを除いたデータで学習させ、得られた推定システムを第3グループで評価を行う...
このように学習と評価を別々のデータを用いて合計5回行い、すべての評価値の平均を答えよ。なお、これは「交差検証」と呼ばれており、特にデータが少ない時のシステムの評価や、システムのパラメタの最適値を求めるのに用いられる「標準的な」方法である。

Rの基礎(4)

デバッグ: バグに悩まされなくなるように

演習1

OSとの関わり

演習2

ライブラリの使用

演習3 (難しいテーマを含んでいるが、できるところまで頑張ってみよ)