九天社の跡地です…
2001.8.29-2008.6.10


Rで学ぶデータマイニング I
データ解析の視点から

 表紙

『R』でデータマイニングが
出来る時代が
やってきました!!!

無料付属CD-ROMですぐにはじめられる!


※在庫があれば上記サイトで
 入手できます。

[著]熊谷悦生、舟尾暢男
[監]

[価格]3,780 円(税込)
[判型]B5変型/264頁/CD-ROM 1枚付き
[初版]2007/05/07 
[ISBN]978-4-86167-176-0

 本書について

 データマイニングをそのまま日本語に訳しますと「データから宝石(鉱物)を掘り当てる」でしょうか.すなわち,データという鉱山から「統計的な手法」などを施すことで「宝石」を見つけるのがデータマイニングの目的と言えるでしょう.ここでいう「統計的な手法」とは、古典的な統計手法に加えて「グラフ」「回帰木」「アソシエーション・ルール」などのような,巨大なデータを主に対象としたデータ解析手法が含まれます、また「宝石」とは,データが巨大であるがゆえに古典的な統計手法を施すだけでは発見できなかったような「有益なルール」「意外なパターン」「意思決定に繋がる情報」のことを指します.
 では,標準的な統計学のアプローチとデータマイニングの違いは何でしょうか?この問いに対する回答のひとつが「データマイニング手法」に載っていますので,ここで引用します.

データマイニングのアプローチは、標準的な統計学のアプローチと以下のいくつかの点で異なっている.



●データマイニングは、生データの中の測定誤差を無視する傾向にある.
●データマイニングは、十分な量のデータと処理能力を前提としている.
●データマイニングは、いたるところで時間的従属性を仮定している.
●ビジネスの世界では、実験を計画することが難しい場合もありうる.
●データは、切り取られたり打ち切られたりする.

これらは,相反するというより,アプローチの違いである.

 マイケル J.A.ベリー/ゴードンS.リノフ著
 江原淳/佐藤栄作/上野勉/朝稲勉/河野順一/寺田英治
 斉藤史朗/谷岡日出男/藤本浩司 共訳(2005)
 データマイニング手法 2訂版.海文堂


 いずれも「言い得て妙」と言えるでしょう.
 さて,データマイニングでは「十分な量のデータと処理能力を前提としている」ので,「十分な量のデータと処理能力を持つデータマイニング用の解析ソフト」が必要となってきます、しかし,データマイニング用の解析ソフトは一般的に非常に高価な代物となっています.その中でも「無料・誰でも使える・データマイニングができるソフト」が存在します.それがRです!
 Rは統計計算とグラフィックスのための言語、環境です.Rには簡単な計算機能から数値計算関数,プログラムやシミュレーション,シンプルなプロット図から複雑なグラフィックス機能まで備わっています.また,多様な統計手法と洗練されたプログラム言語体系,もちろん今回ターゲットとしているデータマイニング機能まであり、さらにはパッケージという形でさらに機能を拡張することができます(パッケージ数は現段階で900種類にのぼります!).
 本書では,主にWindowsユーザーの方を対象として,まずRのインストール方法とRの基本的な使用方法を説明した後,「データの読み込み」「データクリーニング方法」について解説します、ここまでの準備が整った後は、フィッシャーのアヤメのデータ「iris」をたたき台として「グラフ描画によるデータマイニングの方法」を紹介します.次に,新聞やテレビ,インターネットなどで見かける「データ解析(を行ったかのような資料)に関する記事」に関して,詳しい検証を行い、記事の中で見られる問題点をデータ解析の視点から指摘し,Rを活用してデータからどれだけの考察が可能かを探求してみます.最後に、「データからどれだけの考察が可能か」を探求するもうひとつの例として,「合計特殊出生率と少子化」について詳しいデータ解析を行ってみます.
 また,本文中では「ちょっとより道」と称したコラムをたくさん載せております、「ちょっとより道」には,豆知識やRのテクニック、データの見加こ関する注意点などを盛り込んでおります.こちらもどうかお楽しみください.

2007年4月

 書籍関連サイト

サポートページ

 目次

Rで学ぶデータマイニング II 目次へ

第1部 基本知識篇

第1章 Rのインストール

1.1 Windows版Rのインストール
1.2 MacOSX版Rのインストール
1.3 Linux版Rのインストール
 1.3.1 vinelinux,SUSE Linux、Fedora Coreへのインストール例
 1.3.2 DebianGNU/Linuxへのインストール例

第2章 Rの起動

2.1 Windows版Rの場合
2.2 MacOSX版Rの場合
2.3 Linux版Rの場合

第3章 Rの終了

3.1 Windows版Rの場合
3.2 MacOSX版Rの場合
3.3 Linux版Rの合

第4章 簡単な計算方法

第5章 R用エディタと本文の記載方法について

5.1 Windows版Rの場合
5.2 MacOSX版Rの場合
5.3 Linux版Rの場合
5.4 本文の記載方法について

第6章 パッケージの呼び出しとインストール

6.1 パッケージの呼び出し
6.2 パッケージのインストール

第7章 関数の使用方法と定義方法

7.1 関数の使用方法
7.2 関数の定義方法

第8章 演算子・条件分岐・繰り返し

8.1 比較演算子・論理演算子
8.2 条件分岐:if
8.3 繰り返し:for

第9章 ベクトル

9.1 ベクトルの作成
9.2 ベクトル用の関数
9.3 ベクトル要素の取り出し

第10章 種々のベクトル

10.1 論理型ベクトル
10.2 文字型ベクトル
10.3 因子型ベクトル
10.4 型の検査・型の変換

第11章 行列

11.1 行列の作成
11.2 行列の計算ル
11.3 行列要素の取り出し

第12章 欠測値NA

第13章 作業ディレクトリの変更

第14章 データフレームの作成

14.1 ベクトルからデータフレームを作成する
14.2 行列からデータフレームを作成する
14.3 テキストファイルからデータフレームを作成する
 14.3.1 作業ディレクトリの変更
 14.3.2 テキストファイルからデータフレームを作成
 14.3.3 テキストファイルの種類とファイルの読み込み
14.4 ExcelファイルやAccessファイルからデータフレームを作成する
 14.4.1 ExcelファイルやAccessファイルの読み込み
 14.4.2 SQLの命令を用いたファイルの読み込み
 14.4.3 パッケージxIsReadWriteを使ったデータの読み込み
 14.4.4 外部ファイルへのデータの出力

第15章 データ・ハンドリング

15.1 データフレームの閲覧方法
15.2 データの編集・加工
 15.2.1 データの取り出し
 15.2.2 データの並べ替え・ソート
 15.2.3 データの編集・加工
15.3 データのクリーニング
 15.3.1 データ型チェック
 15.3.2 異常値チェック(1)
 15.3.3 欠測値チェック
 15.3.4 異常値チェック(2)
 15.3.5 重複レコードチェック

第2部 グラフとデータマイニング

第16章 グラフとデータマイニング

16.1 準備
 16.1.1 フィッシャーのアヤメのデータ「iris」
 16.1.2 データマイニングの手順
 16.1.3 データ「iris」のRへの読み込み
 16.1.4 データ「iris」の閲覧
16.2 データを要約する・層別する
 16.2.1 ヒストグラムを描く
 16.2.2 要約統計量の算出
 16.2.3 層別にヒストグラムを描く
 16.2.4 層別に要約統計量を算出する(1)
 16.2.5 層別に要約統計量を算出する(2)
 16.2.6 ここまでのまとめ
16.3 データの散布図と相関係数
 16.3.1 散布図を描く
 16.3.2 相関係数の算出
 16.3.3 3次元散布図
 16.3.4 ここまでのまとめ
16.4 回帰木による判別・予測
 16.4.1 回帰木の生成と分類ルールの作成
 16.4.2 回帰木による判別
16.5 判別に関する手法あれこれ
 16.5.1 判別分析による判別
 16.5.2 ニューラルネットワークによる判別
 16.5.3 サポートベクターマシンによる判別
 16.5.4 ここまでのまとめ
16.6 【おまけ】アソシエーション・ルール
 16.6.1 リストデータを用いた解析
 16.6.2 バイナリデータを用いた解析

第17章 グラフの保存

17.1 Windows版Rの場合
17.2 MacOSX版Rの場合
17.3 Linux版Rの場合

第18章 メディア等に溢れるデータ

18.1 交通事故死者数データ
18.2 漢字問題データ
18.3 インフルエンザワクチンの有効率データ

第19章 合計特殊出生率と少子化

19.1 少子化対策に関するこれまでの取り組み
19.2 女性が産む子供の平均数
 19.2.1 平均出生数
 19.2.2 合計特殊出生率
19.3 確率分布を想定した解析
 19.3.1 ポアソン分布を想定した解析
 19.3.2 正規分布を想定した解析
19.4 コホート分析
 19.4.1 出生率における婚姻率と離婚率の関係
19.5 回帰分析とモデル選択
 19.5.1 回帰分析と変数選択
 19.5.2 回帰分析を行う手順
 19.5.3 回帰分析を行う
 19.5.4 情報量規準AICによるモデル選択
 19.5.5 AICを用いる手順
 19.5.6 AICを用いる例
 19.5.7 「婚姻率と離婚率の合計」と「出生率」との単回帰分析
19.6 都道府県別合計特殊出生率に関する重回帰分析
 19.6.1 合計特殊出生率に関する重回帰分析
 19.6.2 3種類の相関係数を出力する関数cor3()
 19.6.3 共稼ぎ世帯と合計特殊出生率
 19.6.4 第三次産業就業者比率と合計特殊出生率
 19.6.5 情報量基準AICによるモデル選択
19.7 OECD諸国にみる女性労働力率と合計特殊出生率
 19.7.1 1997年度OECDデータでの検証
 19.7.2 女性労働力率と合計特殊出生率との単回帰分析
 19.7.3 情報量基準AICによる変数選択
 19.7.4 相関図の検証
 19.7.5 2004年度OECDデータに関する重回帰分析
       女性労働力率と合計特殊出生率の相関図
       OECDデータに関する2種類の重回帰分析
19.8 まとめ
Rで学ぶデータマイニング II 目次へ