R Exercise

Q1. Table 1 shows averages and standard deviations of time spent in K city, aggregated by family, couple, friends and others. By using this data set, answer the following questions.

【第1問】 K市での観光行動調査では,カップル,家族連れ,友人,その他のカップル,家族連れ,友人,その他の四つのグループで,K市の平均滞在時間とその標準偏差は,下の表1のようであった.これについて,以下の問いに答えなさい.

  • Examine test of mean differences for mean sojourn times regarding to every possible group combinations.
  • これらのグループの全ての組み合わせに対して,平均滞在時間に統計的な有意差があるかどうか,平均値の差の検定を行いなさい.
  • Examine T test whether difference of average sojourn time is more than 15 minutes between couple and family, and couple and friends.
  • カップルと家族連れ,及びカップルと友達連れとで,それぞれ平均滞在時間が15分以上の差があるかどうか,検定を行いなさい.

Table 1. Sojourn time of tourists in K city//表1 K市における観光目的での平均滞在時間とその標準偏差

Average sojourn time//平均滞在時間Standard deviation//標準偏差# of groups//集団数
Family//家族連れ128.6861.7432
Friends//友達連れ146.5048.9336
Couple//カップル169.3343.9323
Others//その他 134.4353.8882

Q2. When 10 student's test scores of a class are selected arbitrary, the following results are indicated as shown in Table 2.//【第2問】 SFCのある授業の履修者についてその最終成績を任意に10人分取り出したところ,以下のような得点であった.

  • According to Table 2, answer whether you can indicate that average test score of students who belong to Faculty of Policy Management (PM) is higher than students who belong to Faculty of Environment and Information Studies.
  • この結果から,この授業の成績の平均点が,有意水準5%で総合政策学部の学生より環境情報学部の学生の方が高いといえるか.

Table2. Final test score results//表2 SFCのある授業の最終成績(単位:点)

#ID//番号PM//総合政策EI//環境情報
177.693.6
274.455.4
368.834.0
438.4100.0
577.676.8
623.090.8
785.042.8
886.281.8
975.834.0
1072.871.0

Q3. Generally speaking, land prices in city center are higher than in rural area. Table 3 shows land price data of three wards in Y city (unit yen/m^2). 【第3問】 よく,「都心は郊外より地価が高い」などと表現したりします.実際にそのようなことが言えるのでしょうか.下の表は,Y市の3地区の住宅地の地価(¥/屐砲鮗┐靴討い泙后

  • Calculate average, variance and standard deviation of land prices in each ward.
  • Draw histograms of three wards with legends
  • Compare three area's land prices by employing test of mean value. Can you say that average land price in Rural area 1 than in Rural area 2?
  • Is it possible for you to say that average land price in rural area 1 is over 150,000 yen per sq. meters higher than in rural area2?
  • 各地区の地価について,平均,分散,標準偏差を求めなさい.
  • 3地区の地価のヒストグラムを描き,その凡例を表示する.
  • 3つの地区間で,地価の平均値に統計的有意差があるかどうか,全ての地区の組み合わせについて検定しなさい.その結果として,郊外1と郊外2は都心と比較して(平均)地価が高いといえるか.
  • 都心の平均地価は郊外1や郊外2と比較して,平均地価が150,000円/岼幣綛發い箸い┐襪.

Table 3//表3.

Rural area 1//郊外1Rural area 2//郊外2City center//都心
215000211000332000
227000240000305000
214000251000330000
240000286000332000
231000264000314000
222000334000271000
211000303000350000
220000314000420000
219000316000296000
207000310000327000
211000321000443000
214000306000300000
211000213000265000
212000230000305000
233000246000298000
214000249000272000
231000249000346000
258000268000358000
220000235000237000
208000248000309000
205000282000
237000271000
212000264000
225000266000
210000265000
214000270000
215000257000
240000275000
220000248000
229000296000
227000313000
299000
269000
289000
227000
336000
269000
275000
327000
350000
301000

問題の答え

【第1問】

  • 問題より,すべての組み合わせについて差の検定をせよ,とのことなので, 組み合わせは,以下の6パターンとなる.

家族連れ - 友達連れ 家族連れ - カップル 家族連れ - その他 友達連れ - カップル 友達連れ - その他 カップル - その他

  • このとき,分散が異なる平均値の差の検定を行う方法は,前回解説したWelchの検定なので,この方法を使う.

仮説は,

家族連れの平均(U1,) 友達連れの平均 (U2,)

帰無仮説 Ho:U1=U2 対立仮説 U1≠U2

となり,帰無仮説が棄却された場合,2つの平均値に有意な差があることが分かる. また,帰無仮説が採択された場合,2つの平均値に有意な差がないことが分かる.

家族連れ - 友達連れ

> (128.68-146.5)/sqrt(((61.74^2)/32)+((48.93^2)/36)) 
[1] -1.307950

でt値が計算できる.このとき,自由度は,

> ((61.74^2/32)+(48.93^2/36))^2/((((61.74^2/32)^2)/(32-1))+(((48.93^2/36)^2)/(36-1)))
[1] 58.99109

よって,t値表より,| -1.62 | < 1.96

有意な差があるとはいえない.

家族連れ - カップル

[1] -2.852889

でt値が計算できる.このとき,自由度は,

> ((61.74^2/32)+(43.93^2/23))^2/((((61.74^2/32)^2)/(32-1))+(((43.93^2/23)^2)/(23-1)))
[1] 52.99928

よって,t値表より,| -2.85 | < 1.96

有意な差があるといえる.

家族連れ - その他

> (128.68-134.43)/sqrt(((61.74^2)/32)+((53.88^2)/82)) 
[1] -0.4625638

でt値が計算できる.このとき,自由度は,

> ((61.74^2/32)+(53.88^2/82))^2/((((61.74^2/32)^2)/(32-1))+(((53.88^2/82)^2)/(82-1)))
[1] 50.45925

よって,t値表より,| -0.46 | < 1.97

有意な差があるとはいえない.

友達連れ - カップル

> (146.5-169.33)/sqrt(((48.93^2)/36)+((43.93^2)/23)) 
[1] -1.861517

でt値が計算できる.このとき,自由度は,

> ((48.93^2/36)+(43.93^2/23))^2/((((48.93^2/36)^2)/(36-1))+(((43.93^2/23)^2)/(23-1)))
[1] 50.68192

よって,t値表より,| -1.86 | < 1.96

有意な差があるとはいえない.

友達連れ - その他

> (146.5-134.43)/sqrt(((48.93^2)/36)+((53.88^2)/82)) 
[1] 1.195653

でt値が計算できる.このとき,自由度は,

> ((48.93^2/36)+(53.88^2/82))^2/((((48.93^2/36)^2)/(36-1))+(((53.88^2/82)^2)/(82-1)))
[1] 73.2172

よって,t値表より,| 1.19 | < 1.98

有意な差があるとはいえない.

カップル - その他

> (169.33-134.43)/sqrt(((43.93^2)/23)+((53.88^2)/82)) 
[1] 3.195127

でt値が計算できる.このとき,自由度は,

>  ((43.93^2/23)+(53.88^2/82))^2/((((43.93^2/23)^2)/(23-1))+(((53.88^2/82)^2)/(82-1)))
[1] 42.43019

よって,t値表より,| 3.19 | > 2.00

有意な差があるといえる.

【第2問】

  • まず,データを作成します.
    > st <- c( 1,77.6,93.6, 2,74.4,55.4, 3,68.8,34.0, 4,38.4,100.0, 5,77.6,76.8, 6,23.0,90.8, 
    7,85.0,42.8, 8,86.2,81.8, 9,75.8,34.0, 10,72.8,71.0)
    > st <- matrix(st,nrow=10,ncol=3,byrow=TRUE) 
    > colnames(st) <- c("no","sougou","kankyou") 
    > st
      no sougou kankyou
    1   1   77.6    93.6
    2   2   74.4    55.4
    3   3   68.8    34.0
    4   4   38.4   100.0
    5   5   77.6    76.8
    6   6   23.0    90.8
    7   7   85.0    42.8
    8   8   86.2    81.8
    9   9   75.8    34.0
    10 10   72.8    71.0
  • 仮説を設定します.
  • 総合政策学部の平均(U1,)
  • 環境情報学部の平均 (U2,)
  • 帰無仮説 Ho:U1=U2
  • 対立仮説 U1>U2
  • 平均と分散をそれぞれ求めます.
>  mean(st$sougou)
[1] 67.96
>  var(st$sougou)
[1] 425.6871
>  mean(st$kankyou)
[1] 68.02
>  var(st$kankyou)
[1] 620.2084
  • 平均値の差の検定を行います(計算).
> (67.96-68.02)/sqrt((425.6871/10)+(620.2074/10)) 
[1] -0.005866881
  • | -0.0058 | < 2.28 よって仮説は採択され,有意差はないことがわかる.
  • 平均値の差の検定を行います(コマンド).
> t.test(st$sougou,st$kankyou,altarnative="two.sided") 
  • 結果は,
Welch Two Sample t-test
data:  st$sougou and st$kankyou 
t = -0.0059, df = 17.398, p-value = 0.9954
alternative hypothesis: true difference in means is not equal to 0 
95 percent confidence interval:
 -21.59932  21.47932 
sample estimates:
mean of x mean of y 
    67.96     68.02 

【第3問】

  • 各地区の地価について,平均,分散,標準偏差を求める.
  • まずデータを作成します.データを作成するには,以下のようにコマンドcを使います.
  • 郊外1をchika1
    > chika1 <- c(215000,227000,214000,240000,231000,222000,211000,220000,219000,207000,
    211000,214000,211000,212000,233000,214000,231000,258000,220000,208000,205000,
    237000,212000,225000,210000,214000,215000,240000,220000,229000,227000) 
  • 郊外2をchika2
    > chika2 <- c(211000, 240000, 251000, 286000,264000, 334000, 303000, 314000,
    316000, 310000, 321000, 306000, 213000, 230000, 246000, 249000, 249000, 
    268000, 235000, 248000, 282000, 271000, 264000, 266000, 265000, 270000, 
    257000, 275000, 248000, 296000, 313000, 299000, 269000, 289000, 227000, 
    336000, 269000, 275000, 327000, 350000, 301000) 
  • 都心をchika3
    > chika3 <- c(332000, 305000, 330000, 332000, 314000, 271000, 350000,420000, 
    296000, 327000, 443000, 300000, 265000, 305000, 298000,272000, 346000, 
    358000, 237000, 309000) 
  • 平均,分散,標準偏差を求めます.
    • 郊外1
      >  mean(chika1)
      >  var(chika1)
      >  sd(chika1)
    • 郊外2
      >  mean(chika2)
      >  var(chika2)
      >  sd(chika2)
    • 都心
      >  mean(chika3)
      >  var(chika3)
      >  sd(chika3)
  • 同じ階級区分を用いて,3地区の地価のヒストグラムを描き,その凡例を表示する.
  • 同じ階級区分,という条件がついているので3つの地価の範囲と区分を考えなくてはなりません.ここでは,コマンドrangeを使って範囲を調べることにします.
> range(chika1)
[1] 205000 258000
> range(chika2)
[1] 211000 350000
> range(chika3)
[1] 237000 443000
  • このとき,最小値が 205000 最大値が 443000 ですので,プロット範囲を200000-450000とする.
  • 郊外1のヒストグラム
> hist(chika1, xlim=c(200000,450000),breaks=seq(200000, 450000, 
length=20),main="LandPrice of suburbs-1") 
  • 郊外2のヒストグラム
> hist(chika2, xlim=c(200000,450000),breaks=seq(200000, 450000, 
length=20),main="LandPrice of suburbs-2") 
  • 都心のヒストグラム
> hist(chika3, xlim=c(200000,450000),breaks=seq(200000, 450000, 
length=20),main="LandPrice of downtown") 
  • 3つの地区間で,地価の平均値に統計的有意差があるかどうか,全ての地区の組み合わせについて検定する.その結果として,郊外1と郊外2は都心と比較して(平均)地価が高いといえるかを検証する.このときの地価の組み合わせは,以下の3通りである.

(1) 郊外1 - 郊外2 (2) 郊外1 - 都心 (3) 郊外2 - 都心

  • (1) 郊外1 - 郊外2
    > t.test(chika1, chika2,altarnative="two.sided") 
    	Welch Two Sample t-test
    data:  chika1 and chika2 
    t = -9.6001, df = 52.095, p-value = 4.098e-13
    alternative hypothesis: true difference in means is not equal to 0 
    95 percent confidence interval:
    -67253.03 -43999.53 
    sample estimates:
    mean of x mean of y 
    221032.3  276658.5 

より,有意な差があるといえる.

  • (2) 郊外1 - 都心
> t.test(chika1, chika3,altarnative="two.sided") 
Welch Two Sample t-test
data:  chika1 and chika3
t = -8.9407, df = 20.492, p-value = 1.633e-08
alternative hypothesis: true difference in means is not equal to 0 
95 percent confidence interval:
-122639.02  -76296.46 
sample estimates:
mean of x mean of y 
221032.3  320500.0 

より,有意な差があるといえる.

  • (3) 郊外2 - 都心
> t.test(chika2, chika3,altarnative="two.sided") 
Welch Two Sample t-test
data:  chika2 and chika3
t = -3.6031, df = 28.548, p-value = 0.001180
alternative hypothesis: true difference in means is not equal to 0 
95 percent confidence interval:
-68744.08 -18938.84 
sample estimates:
mean of x mean of y 
276658.5  320500.0 
  • 都心の平均地価は郊外1や郊外2と比較して,平均地価が150,000円/岼幣綛發い箸い┐襪
  • (1) 郊外1−都心
    > t.test(chika1, chika3,mu=150000,altarnative="two.sided") 
    Welch Two Sample t-test
    data:  chika1 and chika3 
    t = -22.4235, df = 20.492, p-value = 6.775e-16
    alternative hypothesis: true difference in means is not equal to 150000 
    95 percent confidence interval:
    -122639.02  -76296.46 
    sample estimates:
    mean of x mean of y 
    221032.3  320500.0
  • (2) 郊2−都心
    > t.test(chika2, chika3,mu=150000,altarnative="two.sided") 
    Welch Two Sample t-test
    data:  chika2 and chika3 
    t = -15.931, df = 28.548, p-value = 9.69e-16
    alternative hypothesis: true difference in means is not equal to 150000 
    95 percent confidence interval:
    -68744.08 -18938.84 
    sample estimates:
    mean of x mean of y 
    276658.5  320500.0

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2011-12-10 (土) 11:21:46 (2897d)