1.自分たちでデータをつくってみよう
調査票をつくり、サンプリングした対象者に調査を実施し、回収が終わるといよいよそのデータ入力ということになる。調査票のデータの入力から分析にいたるプロセスでは、SPSSという社会統計のためのパッケージ・ソフトを用いることが多いが、年々改良が加えられて、その使い方は非常に簡単になっている。データ入力の基本を、以下に実例を示しながら述べてみよう。(調査票への回答内容を数字におきかえていく作業をコーディングという。)
(例題)「県民アンケート」をダウンロードし、そのコーディング・マニュアルを作成せよ。
ダウンロード<県民アンケート> 【基本形】以下のような場合は、○のついた選択肢番号をそのままコードする。
例
問4 あなたは、いま住んでいる地域が好きですか。次から1つ選んで番号に○をつけてください
2に○がついている場合→ 2とコードして入力する。(必ず半角で!以下同様。うっかり全角で膨大なデータを入力してもあとの祭り。バックアップもマメにすること。)1 とても好き 2 まあまあ好き 3 すこし嫌い 4 とても嫌い 無回答のものは9とコードする。もし選択肢が9個を超える場合は99とする。(したがって、択一式の選択肢をつくる場合は、できるだけ7つか8つまでにしたほうが入力やチェックの手間が省ける。) 2.変数って、どうやってつくるの?
すべてのコーディングが【基本形】のように選択肢番号をそのまま一つの変数にコードし入力するだけでよいのなら楽なのだが、一つの質問文に複数の変数を設定しなければならない場合もある。ここでは、私たちがよく用いる複数回答(SPSSでは「多重回答」と書かれている)や枝分かれ問についての実際を示しておこう。【複数回答(制限あり)】 以下の「3つまで○をつけてください」というような制限のついた複数回答形式の質問の場合、3つの変数欄にそれぞれ選択肢番号を入力していく。(○の数が足りない場合とまったくない場合ではコードが違う)
例
問10 これから住みよい町をつくっていくために、あなたは特にどのような環境や施設が必要だと思いますか。次の中から3つまでを選んで○をつけてください
【複数回答(制限なし)】 以下のような「あてはまるものすべてを選んで○をつけてください」という制限なしの複数回答形式の質問の場合、選択肢の数と同じだけの変数(この場合だと5つ)をつくり、各選択肢に○があるかないか対応させながらコードしていく(○のついているものには1、ないものには0とコードする。) (この制限なしの複数回答型質問文は作りやすい反面、入力から集計にわたるまで非常に手間がかかる。したがって、複数回答にする場合、できるだけ「×個まで○をつけてください」との制限付きの複数回答にする方が賢明である。)
例
問30 あなたは、ご自宅でパソコン通信を利用していますか。次の中であてはまるものすべてを選んで○をつけてください
【枝分かれ形式の質問文】以下のように、ひとつの質問文の中に、さらに回答対象者を限定して、枝分かれ形式の質問文がある場合、別の変数をもうける必要がある。下の例であれば、最初は【基本形】のコーディング、枝分かれの問いについては【複数回答(制限あり)】のコーディングをすればよい。
例
問28 あなたは、ご自宅でファックスを利用していますか。次から1つ選んでください
【1〜3の利用されている方にうかがいます】 ファックスをどのようなことに利用していますか。主なものを2つまで選んでください
ただし、最初の問いで「4 まったく利用していない」や「5 ファックスがない」に○がついている場合、枝分かれ問では非該当として、すべての変数に8とコードする。 また、最初の問いで「1 よく利用している」か「2 ときどき利用している」あるいは「3 たまには利用することもある」のいずれかに○がついていながら、枝分かれ問にひとつも○がない場合は、【複数回答(制限あり)】のルールどおり、すべての変数に9とコードする。 つまり枝分かれ問の場合、8の非該当と9の無回答の区別が、分析の際に重要となるので注意してコードしなければならない。 ※以上に述べたコーディングの方法を参考に、「県民アンケート」のコーディング・マニュアルを完成させよう。ポイントは次の2点である。
3.データはきれいにしてから集計すべし
すべてのコーディングと入力を終えたら、一応データは出来上がりということになるが、データには、そもそも回答者(あるいは調査員)自身の間違いや矛盾、コーディングの間違いや漏れ、入力ミスなど、さまざまな誤りの要素が含まれている。所詮は人間がやることで、いかなるデータも完全ではない。このようなデータ上の誤りをできる限り修正してから分析に入らないと、分析そのものにほとんど意味がなくなってしまう。そこで、どうすればきれいなデータをつくれるか。以下に、SPSSを用いたデータ・クリーニングの基本的な方法について述べておく。 【度数分布表(単純集計)からのチェック】
まず、すべての変数の度数分布表を出力する。それを注意深くチェックすると、たいてい本来ありえない数値が出現する。そのような数値を発見したら、次のような方法でどのケースなのかを検出する。
【クロス集計表によるチェック】
たとえば、年齢を20代前半と答えている人が、職業では自分を年金受給者と回答していたら、それは回答者本人の間違いなのか、データ入力上のミスなのか、あるいは特別な事情があるのか、調べてみないといけない。このようなチェックの方法を「論理チェック」という。クロス集計によってそのような矛盾を発見したら、次のような方法でどのケースなのかを検出する。
データ・クリーニングは、やりはじめるときりのない作業であるが、根気よくチェックすべき項目を思いつかなくなるまでやることがデータの質の向上につながる。この作業を通じて、きちんとしたサンプリングをおこなってサンプルを厳選し、ていねいなコーディングと入力作業をすることがいかに大切かを理解できるだろう。 |