- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第1章記述統計の復習
第1章 記述統計の復習 統計学 2010年度 Ⅰ データの種類 Ⅱ 1変量データのまとめ方 a) 特性値による記述 代表値(中心的傾向) ⅰ) 算術平均 ⅱ) メディアン ⅲ) モード ⅳ) 各代表値の特徴 2) 散布度(散らばりの傾向) ⅰ) 分散 ⅱ) 標準偏差 ⅲ) レンジ ⅳ) 四分位偏差 b) 表?グラフによる記述 1) 棒グラフ?円グラフ?帯グラフ?折れ線グラフ 2) 度数分布表 3) ヒストグラム?度数折れ線 4) 度数分布表における算術平均?分散 Ⅲ 2変量データのまとめ方 a) 特性値による記述 相関係数 b) 表?グラフによる記述 1) 分割表(クロス集計表)?2次元ヒストグラム 2) 散布図 Ⅰ データの種類 10人の学生について下の表のような情報がえられた。 データを分析する場合、性別や出身地などの情報はなんらかの数値によって表されることが多い。 この例では出身地(都道府県コード)、性別(男-1、女-2)を数値で表している。 この表にある変量は次のように分類することができる。 <質的変量と量的変量> 数値が量的な意味を持つ変量を量的変量、意味を持たないものを質的変量という。 家族の人数は数値に意味があるが、性別などは数値に意味が無い。また、学年は実際に大学に在学している年数とは異なり、分類のための数値である。 質的変量か量的変量を見分けるには、「算術平均をとって意味があるか」を考えてみる方法がある。 <離散変量と連続変量> 量的変量はさらに離散変量と連続変量に分類される。 離散変量は家族の人数やテストの点数など、とびとびの値しかとらない変量である。 一方、身長や体重などは正確に測ろうとする場合、無限に細かい数値になる。(身長171.2865...cm)このような変量は連続変量である。 Ⅱ 1変量データのまとめ方 データのまとめ方には 特性値による記述(数値的表現) 表?グラフによる記述(視覚的表現) がある。 特性値による記述は、データの特徴をまとめ、それを用いた分析をおこなうことが中心的な役割である。 表?グラフによる記述は、データの特徴を一目でとらえやすくするためにおこなわれる。 ある集団についてのデータ(例えば50人のクラスの身長など)があるとき、集団の特徴をあらわすには、その中心的傾向を示す数値が必要となる。 中心的傾向をあらわす数値として、 算術平均 メディアン(中央値) モード(最頻値) の3種類がある。 算術平均 = データの合計 ÷ データ数 メディアン → データを大きさの順に並べたときに真ん中にくる値。データ数が偶数のときは真ん中の2つの値を足して2で割る。 モード - データの中で最も多く出てくる値。10人のテストの点数の例では 下の表は2009年の東北楽天と埼玉西武の投手別勝利数(上位5人)である。 下の図は貯蓄現在高階級別の世帯分布である。 算術平均は少数の極端な値が含まれるとき、その集団の正しい代表値とならないことがある。メディアンの方が少数の極端な値の影響を受けづらい。 しかし、貯蓄現在高のように分布がゆがんでいる場合には、メディアンでも集団の正しい代表値とはいえない場合もある。(この場合はモードが適切か) しかし、算術平均は数学的な扱いやすさから、代表値として非常に良く用いられている。 算術平均をうのみにしないようにしよう! 分散=偏差2乗和÷データ数 偏差2乗和 - 個々のデータから算術平均を引いたもの(偏差)を2乗して、すべて加えたもの。 標準偏差 ? 分散の平方根 (単位:分) データを大きさの順(小さい順)に並べて、4分割する点をq1,q2,q3とする。 このとき、次式で定義されるQを四分位偏差という。 (例)9人のテストの点数が次のようになっていたとする。 集団の特徴をあらわすためには、代表値や散布度などの数値とともに、さまざまな表やグラフが用いられる。 棒グラフは、家族の人数や学年などの各変量がとる値の度数をあらわすのに用いられる。 円グラフは、その度数の全体に占める割合をあらわすのに用いられる。 帯グラフは、度数の割合が時間とともにどのように変化するかなどを見るために利用される。 折れ線グラフは、主に時系列データ(時間の順序によって並べたデータ)の変化を表すために利用される。 質的変量および量的変量のうち離散変量は、棒グラフや円グラフとして表すことができる。 では、連続変量を棒グラフで表したい場合どのようにすればよいであろうか?そのままあらわすと下図のようになる。 このような棒グラフでは、集団の特徴がよくわからない。 そこで、データをいくつかの階級に分け、その階
原创力文档


文档评论(0)