医療統計学を学ぶ大学生のブログ

医療統計学、因果推論を専攻しています。R, SASユーザーです。

SASによる解析:散布図の作成

f:id:NorihiroSuzuki:20210617151640p:plain

 この記事ではSASでの散布図の作成法について具体例とともに解説を行います。SASでグラフを作成するSGプロシジャにはいくつか種類がありますが、今回はSGPLOTとSGSCATTERについて紹介します。

SASの実行環境はいつも通りSAS OnDemandのSAS Studioです。コードに関しては有料のものと同じです。

 

 

 散布図(Scatter Plot)について

 散布図については多くの方がすでにご存じのことかと思いますが、散布図とは、あるデータの2つの変数に関して、それぞれを縦軸、横軸に対応させ、その関係性を見るものです。このプロットされたデータが散乱(scatter)していることから散布図(Scatter Plot)と呼ばれており、変数間の関係性を見るうえで最も基本的な方法の一つです。この記事のトップに載せた図は、今回の解析で実際に作成した散布図になります。

 

 

SASでの実行

SGプロシジャに関して

SGプロシジャは、グラフを作成する際に使用するプロシジャです。いくつかの種類があり、ユーザーや目的に応じて使い分けがされています。主なものとしては、SGPLOT、SGPANNEL、SGSCATTER、SGRENDERなどがあります。

 

使用データの紹介

 散布図の作成にあたって利用するのはSAS Studio内にある「SASHELP.CARS」という2004年の車に関する、428行15列のデータです。中身はこんな感じ↓

f:id:NorihiroSuzuki:20210617161500p:plain

 今回は「Horsepower」と「MPG_Highway」という項目の関係を散布図で見てみます。また、Horsepowerは馬力、MPG_Highwayはマイル/ガロン_都市部燃費を意味する列です。

 

SASコード、アウトプット

最終的なゴールとして、以下の散布図を作成することを目標としています。2つのやり方を紹介していますが、どちらも同じアウトプットを得ることができます。

f:id:NorihiroSuzuki:20210617165300p:plain

 

 

SGPLOTプロシジャでの作成

SGPOLTプロシジャの主なステートメントは以下の通りです。

f:id:NorihiroSuzuki:20210617163948p:plain

 

 CARSのデータの散布図作成のコードはこの通り。

f:id:NorihiroSuzuki:20210617164139p:plain

 

 

SGSCATTERプロシジャでの作成

SGSCATTERプロシジャの主なステートメントは以下の通りです。

f:id:NorihiroSuzuki:20210617164903p:plain

 

SGScatterプロシジャのほうがより散布図の作成に特化したプロシジャのように感じますが、どちらで散布図を作成しても全く同じものが得られます。また散布図行列の作成が可能です。

今回のコードはこちら。

f:id:NorihiroSuzuki:20210617165117p:plain

 

SAS Studioでの分析の流れ

 OnDemandのSAS Studioでは特に自分でコードを書かなくても、分析法やデータの選択をポチポチしていけば簡単に同じ分析をすることができます。今回の例であれば次のような手順で行うことが可能です。

  1. 「タスクとユーティリティ」から「グラフ」を選択
  2. 展開されたグラフの中から「散布図」を選択
  3. 「データタブ」のデータ欄で「SASHELP.CARS」を選択
  4. X軸に「Horsepower」、Y軸に「MPG_Highway」を選択
  5. 実行

 

詳しくはSAS公式の動画で紹介がされているので、もしわからなければそちらで確認してみてください。

www.sas.com