# PROC SQLの紹介

PROC SQLはデータ操作とクエリ(問い合わせ)を行う強力なツールです。従来のデータステップやPROCステップと同様の機能を、より少ないステートメントとコンピュータリソースで実行できます。このレッスンでは、SQLプロシージャを使用してデータを選択、サブセット、ソート、要約、グループ化する方法を扱います。

## PROC SQLの基本

PROC SQLは、SASがSQL(Structured Query Language)を実装するために開発したプロシージャです。このプロシージャを使用して、テーブルやビュー（テーブルを元に作成された）内のデータを修正、取得、レポートできます。他のSASプロシージャと同様に、PROC SQLにも基本的な構文があり、以下が一般的な構文です：

```
PROC SQL;
SELECT column-1<,…column-n>
FROM table-1|view-1<,…table-n|view-n>
<WHERE expression>
<GROUP BY column-1<,…column-n>>
<HAVING expression >
<ORDER BY column-1<,…column-n >>;
QUIT;
```

まず最初に、SQLとSASのデータステップとの間の用語の違いに注意してください。例えば、データファイルはデータステップではデータセットと呼ばれますが、SQLではテーブルと呼ばれます。同様に、レコードは前のレッスンではオブザベーションと呼ばれましたが、SQLテーブルでは行と呼ばれます。そして、データセットのフィールドは変数と呼ばれますが、ここでは列と呼ばれます。

|**SASのステップ**| **SQL プロシージャ** |
|-------------------|-------------------|
|data set| table|
|observation| row|
|variable| column|

もう一つ注意すべき点は、他のプロシージャとは異なり、PROC SQLの中には1つまたは複数のSELECTステートメントが存在する可能性があるということです。1つのSELECTステートメントはクエリと呼ばれ、多くの句（SELECT、FROM、WHERE、GROUP BY、HAVING、ORDER BY）で構成されます。これらの句の順序は重要であり、上記の順序で表示される必要があります。

ここでは全体を通して、PROC SQLのすべてのキーワードを順に学んでいきます。まずは最も基本的なものから始めましょう。

### 例

以下のSASによるSQLコードは、単一のテーブルからデータを取得する単純なクエリです：


<!-- 
# Introduction to PROC SQL

PROC SQL is a powerful tool for data manipulation and querying. It can perform many functions such as the conventional DATA and PROC steps but with fewer statements and computer resources. In this lesson, we will investigate how to select, subset, sort, summarize and group data with SQL procedure.

## PROC SQL Basics

PROC SQL is a procedure that SAS developed for the implementation of Structured Query Language. You can use this procedure to modify, retrieve and report data in tables and views (created on tables). Just as with other SAS procedures, PROC SQL also has basic syntax structures. It takes the following general form:

```
PROC SQL;
SELECT column-1<,…column-n>
FROM table-1|view-1<,…table-n|view-n>
<WHERE expression>
<GROUP BY column-1<,…column-n>>
<HAVING expression >
<ORDER BY column-1<,…column-n >>;
QUIT;

```

First of all, you may see differences in terminology between SQL and other SAS steps. For example, the data file is called data set in other SAS steps, but table in SQL. Correspondingly, records are called observations in the previous lessons, but rows in SQL tables; and we call a field of data set as variable, but column in this lesson.


|**Other SAS steps**| **SQL Procedure** |
|-------------------|-------------------|
|data set| table|
|observation| row|
|variable| column|

Another thing that needs your attention is that, unlike other SAS procedures, there could be one or a few SELECT statements inside PROC SQL. One SELECT statement is called a query, which is composed of many clauses, like SELECT, FROM, WHERE, GROUP BY, HAVING and ORDER BY. The order of these clauses is important. They must appear in the order as shown above.

We will use the whole lesson to work our way through all these keywords in PROC SQL. Let’s start with the most basic one.

### Example

The following SAS SQL code is just query that retrieves data from a single table:  
-->

In [None]:
libname phc6089 "/folders/myfolders/SAS_Notes/data";
proc sql;
  select ID, SATM, SATV
  from phc6089.survey;
quit;

上記のプログラムを実行するには、まずデータファイル（survey.sas7bdat）をPCに保存する必要があります（READMEを参照）。LIBNAMEステートメントを編集して、調査データセットを保存したディレクトリを反映させます。その後、プログラムを実行して出力を確認します。このコードは、プロシージャの最も基本的な形式を表しています。他のSASプロシージャと同様に、PROC SQLを実行するには最初にPROC SQLを記述する必要があります。プロシージャ内には、選択したい列を指定するSELECTステートメントが1つあります。必要な列をカンマで区切ってリストすることができます。もう1つの句はFROMで、テーブルを指定するために使用されます。PROC SQLはSASファイル名のプロトコルに従います。ここでは、永続的なファイルを参照するために2レベル名を使用しています。このプログラムは、テーブルから3つの列（学生ID、SAT数学スコア、SAS言語スコア）を選択するためのものです。

<!-- 
To run the program above, you will need to save the SAS data file (survey.sas7bdat) to your computer first (see the data folder on the course website). Edit LIBNAME statement to reflect the directory in which you saved the survey data set. Then run the program and check the output.  
The SQL procedure in this code represents the most basic form of the procedure. Like other SAS procedures, you need to run PROC SQL at the beginning to invoke it. Inside the procedure, there is only one statement starting with SELECT, which chooses the columns you want. You can list as many columns as needed, separated by commas. Another clause is FROM, which is used to specify the table(s). PROC SQL follows the same protocol of SAS file names. Here we used a two-level name to reference the permanent file. Just as you read the code, this program is used to select three columns (student id, SAT Math score and SAS Verbal score) from the table.  
-->

### 例

次のプログラムはCREATE TABLEステートメントを使用して、学生ID、SAT数学スコア、および言語スコアを含む新しいテーブルSAT_scoresを作成します。


<!-- 
### Example

The following SAS program uses CREATE TABLE statement to create a new table named SAT_scores, which contains student id, SAT math scores and verbal scores.  
-->

In [None]:
proc sql;
  create table SAT_Scores as
  select ID, SATM, SATV
  from phc6089.survey;
quit;

プログラムを開いて実行します。出力ウィンドウや開いているODSの出力先には何も表示されません。これはCREATE TABLEステートメントがクエリの出力を抑制するためです。しかし、ログウィンドウを確認すると、テーブルが作成されたことと、テーブルの行数と列数が表示されます。この例では、テーブルSAT_scoresには226行と3列があります。新しいテーブルの列は、選択されたソース列と同じ属性（型、長さ、フォーマット、ラベル）を持ちます。

これまでの2つの例から、PROC SQLを使用する感覚がつかめたと思います。次に、他のSASプロシージャとは何が違うのかをまとめます。

1. 他の多くのステートメントを含むSASプロシージャとは異なり、SQLプロシージャには1つまたは複数のSELECTステートメントが含まれる場合があります。各SELECTステートメントには、SELECT、FROM、WHERE、ORDER BYなどのいくつかの句が含まれます。ただし、SELECTとFROM句は必須であり、省略できません。他の句はオプションです。すべての句は、構文でリストされた順序で記述する必要があります。各SELECTステートメントには、ステートメントの最後にセミコロンが1つ必要です。  
2. PROC SQLを実行するためにはRUNステートメントは必要ありません。SQLプロシージャはプログラムが実行され続けます。終了するには、別のPROCステップ、データステップ、またはQUITステートメント実行する必要があります。  

<!-- 
Launch and run the SAS program. You may notice that there is no output displayed in the SAS output window or any open ODS destination. That’s because the CREATE TABLE statement suppresses the printed output of the query. However, if you check the SAS log window, it shows a message that indicates that the table has been created, and the number of rows and columns in the table (see output above). In this example, table SAT_scores has 226 rows and 3 columns. And the new table’s columns have the same attributes (type, length, format, label) as those of the selected source columns.  
From these two examples, you now have some idea about what PROC SQL is like to work with. Let’s summarize what makes it so unique from other SAS procedures.  

1. Unlike other SAS procedures which contain many statements, the SQL procedure may consist of one or more than one SELECT statement. Each SELECT statement contains several clauses, like SELECT, FROM, WHERE, ORDER BY. But the SELECT and FROM clause are essential and indispensable. Other clauses are optional. All clauses have to be written in the order as listed in the syntax. For each one SELECT statement, only one semicolon is needed at the end of the statement.
2. No RUN statement is required for PROC SQL to execute. SQL procedure will continue to run after you submit the program. To end it, you have to submit another PROC step, a DATA step, or a QUIT statement.
-->

## SELECT句の使用

前のセクションでは、PROC SQLの基本を扱いました。次に、SELECT文の詳細と、それを使用してデータを取得し、新しい列を作成し、データ操作のために利用できるオプションについて確認します。

### 例

以下のプログラムは、データファイルtraffic.sas7bdat（READMEを参照）からすべての列を取得し、新しい一時テーブルを作成します：


<!-- 
## Using the SELECT Clause

In the previous section, we learned the basics about PROC SQL. Next, we will investigate more details about the SELECT statement and how to use it to retrieve data, create new columns and what options are available for data manipulation.

### Example

The following SAS program creates a new temporary table with all columns retrieved from permanent file traffic.sas7bdat (see the data folder on the course website):  
-->

In [None]:
proc sql;
  create table traffic as
  select *
  from phc6089.traffic;
quit;
 
proc contents data=traffic varnum; 
run;
 
proc contents data=phc6089.traffic varnum;
run;

まず、データセットのファイルtrafficを自分のPCにダウンロードする必要があります。必要に応じてlibnameステートメントを修正します。その後、プログラムを実行します。このプログラムについて知っておくべきことは、SELECTの後の省略記号のアスタリスク（*）です。アスタリスクは元のテーブル内のすべての列を指します。したがって、このコードは元のテーブルのすべての列を一時データセットtrafficに選択するものです。  
データを確認するには、これまでに扱った他のプロシージャ（PRINTプロシージャなど）を使用できます。上記のプログラムでは、PROC CONTENTSが使用されて元のテーブルと新しいテーブルの変数の属性を確認します。前のセクションで述べたように、他のテーブルから選択された変数は同じ属性を保持します。    
元の列を選択する以外に、SELECT句を使用して新しい列を作成することもできます。これは、データステップで新しい変数を作成するために割り当てステートメントを使用したのと同様です。

<!-- 
First, you need to download the permanent SAS data file traffic to your own computer. Revise the libname statement as needed. Then run the program.  
One thing you need to know about this program is the shortcut, noted with an asterisk (*) after SELECT. The asterisk refers to all columns in the original table. So, this code is to select all columns in the permanent file into the temporary file, traffic.  
To check the data, you may use the other procedures we learned in previous lessons, such as the PRINT procedure. In the above program, PROC CONTENTS has been used to check the variable attributes in the original and the new table. As we mentioned in the previous section, the variables chosen from other table(s) keep the same attributes.  
Besides selecting original columns, the SELECT clause can also be used to create new columns, just as we used assignment statements in DATA step to create new variables.  
-->

### 例

次のプログラムは、SELECT句を使用して新しい列を作成します：

<!-- 
### Example

The following program is to create new columns with the SELECT statement:  
-->

In [None]:
proc sql;
  select id, count_location,
  scan(count_location,-1,' ') as orientation,
  street,
  passing_vehicle_volume * 0.5 as weekends_traffic_volume
  from  traffic;
quit;

ご覧の通り、このコードは前に作成したテーブルtrafficを使用しています。SELECT文を使用して、文字列や数値を含む新しい列を作成できます。SELECT句内で有効なステートメントを使用して、新しい列に対して任意の式を使用できます。また、新しい列には、キーワードASの後に使用したい名前を付けることができます（列名もSAS名のルールに従います）。上記のコードでは、最初の新しい列は文字関数scan()を使用して既存の列「count_location」から部分文字列を抽出して作成されます。この新しい列の名前はASの後の「orientation」です（例のための名前で意味はありません）。2番目の新しい列は、日々の車両数に0.5を掛けることで週末の交通量を推定する数式で、新しい列名は「weekend_traffic_volume」です。  
プログラムを開いて実行し、出力から期待通りに2つの新しい列が作成されたことを確認してください。ただし、新しい列は実行(問い合わせ・クエリ)の間だけ存在し、テーブルを作成しない限り永続的にはなりません。

データtrafficを見てみると、一部のデータが望ましい形式になっていないことに気づくかもしれません。幸いなことに、SELECTステートメント内でデータの見た目を向上させるための多くのオプションが提供されています。


<!-- 
As you can see, this code uses the traffic table we created previously. Using the SELECT statement you can create new columns that contain either characters or numbers. With valid statements within the SELECT clause, you can use any expression for new columns. And, the new columns can be named by using the keyword AS followed by the names you would like to use. (Column names also follow the rules for SAS names.) In the above code, the first new column is created by a character function scan(), which substring is the orientation information from the existing column, count_location. The name for this new column is orientation after AS. (It may make no sense, just for the use of example.) The second new column is a math expression that estimates the traffic volume during weekends by multiplying daily vehicle volume by 0.5. Its alias is `weekends_traffic_volume`.  
Launch and run the SAS program, and review the output to convince yourself that SAS does indeed create two new columns as you expect. But you should note that new columns only exist during the query, unless you created a table out of it.  
While observing the data in traffic, you may notice that some data are not formatted as you want. Fortunately, SAS provides many options in SELECT statement so you can enhance the appearance of the query output.  
-->

### 例

次のプログラムは、日付のフォーマットを追加し、列にラベルを付け、出力にタイトルを追加します：

<!-- 
### Example

The following program adds the format to dates, labels columns and add titles to the output:  
-->

In [None]:
title "Traffic volume in Area SS";
title2 "During weekdays and weekends";
proc sql;    
  select id, 
         Date_of_count label='Date of Count' format=mmddyy10.,
         count_location label='Location',
         street,
         passing_vehicle_volume label='Daily Volume' format=comma6.,
         passing_vehicle_volume * 0.5 as weekends_traffic_volume label='Weekends Volume' format=comma6.
  from  traffic;
quit;

プログラムを開いて実行し、結果の出力からデータが期待通りにフォーマットされ、ラベルが付けられていることを確認してください。タイトルのほかに、脚注をfootnoteステートメントを使用して出力に追加することもできますが、他のSASステップとタイトルやフットノートステートメントを使用する場合とは異なり、これらのステートメントはPROC SQLステートメントの前、またはPROC SQLステートメントとSELECT文の間に配置する必要があります。

このセクションで最後に説明するのは、CASE式です。これは、SELECT句の直後に続けて新しい列を条件付きで作成するために使用されます。これはデータステップで使用されるIF-THEN-ELSEステートメントと同等の機能を果たします。まず、CASE式の構文を見てみましょう。

```
CASE
WHEN when-condition THEN result-expression
<… WHEN when-condition THEN result-expression>
<ELSE result-expression>
END AS < column name>
```

IF-THENステートメントと同様に、WHEN条件をいくつでも追加できます。条件は計算、関数、論理演算子など、任意の有効なSAS式を使用できます。条件が満たされた場合、キーワードTHENに続く対応するアクションが実行されます。WHEN条件が偽の場合、PROC SQLはELSE式を実行します。新しい列を作成し、ENDの後にASキーワードを使用して名前を付けることができます。ELSEとASキーワードはオプションですが、新しい列を作成する際には元の列を保持しておくのが良いとされています。

### 例

次のプログラムは、給与の各範囲に対して異なる給与引き上げ計画を割り当てるためにCASE式を使用します：



<!-- 
Launch and run the SAS program and then review the resulting output to convince yourself that the data has been formatted and labeled as you expect. Except for titles, you can also add a footnote to the output using footnote statement. But unlike using title and footnote statements with other SAS steps, both statements have to be placed either before the PROC SQL statement, or between the PROC SQL statement and SELECT statement.  
One more thing we will talk about in this section is the CASE operator, which just follows the SELECT clause to create new columns conditionally. You must remember that this applies only to IF-THEN-ELSE statements that are available in DATA step. In PROC SQL, the CASE operator can perform the equivalent functions. First, let’s look at the syntax for the CASE construct.  

``` 
CASE
WHEN when-condition THEN result-expression
<… WHEN when-condition THEN
result-expression>
<ELSE result-expression>
END AS < column name>
```

As in IF-THEN statements, you can add as many WHEN conditions as you want. The conditions can be any valid SAS expression, including calculations, functions, and logical operators. It works as IF-THEN statements, too. If the conditions have been met, SAS will carry out the corresponding actions following the keyword THEN. If the WHEN condition is false, then PROC SQL executes the ELSE expression. You can create a new column and name it with AS keywords after END. The ELSE and AS keywords are optional. But it’s good practice to keep original columns while creating new ones.  

### Example

The following SAS program uses CASE operator to assign different salary raise plans for each salary range:  
 -->

In [None]:
proc sql ;
  select Name,
         Department,
         employee_annual_salary label='salary' format=dollar12.2,
         'next year raise:',
      case
         when employee_annual_salary=.                 then .
         when         employee_annual_salary < 85000   then 0.05
         when 85000 <= employee_annual_salary < 125000 then 0.03
         when employee_annual_salary >=125000          then 0.01
         else 0
      end as raise format=percent8.
  from phc6089.salary;
quit;

前の説明でフォーマットとラベルのオプションはすでに扱っています。しかし、この例ではいくつかの新しい点があります。まず、テーブルに新しい列として文字列（または数値）定数を挿入できます。ここでは、文字列"next year raise"が「employee_annual_」と「raise」の間に追加されています。「raise」はCASE式によって現在の年収に基づいて作成された新しい列です。
データセットsalary.sas7bdatをPCにダウンロードし、libnameステートメントをファイルを保存したディレクトリに合わせて修正します。その後、プログラムを開いて実行します。結果から引き上げ値が正しく割り当てられたことを確認してください。

CASE式には2つの構文があります。1つの列のみをWHEN条件に使用する場合、この列名をWHENの前にCASEの後に置くことができます。これにより、各WHEN条件で列名を繰り返す必要がなくなります。以下はこの形式の構文です：

```sas
CASE <column-name>
WHEN when-condition THEN result-expression
<… WHEN when-condition THEN result-expression>
<ELSE result-expression>
END AS < column name>
```

### 例

次のプログラムは、部門に基づいて補償（YesまたはN/A）を決定するために、より簡単な形式のCASE構文を使用します：


<!-- 
You already know format and label options from the previous explanations. There are a couple of new things in this example, however. First, you can insert a character(or numeric) constant as a new column in the table. Here a character string “next year raise” has been added between salary and raise. Raise is also a new column which has been created by the CASE operator based on the current annual salary of each person.  
Download the SAS data set salary.sas7bdat (see the data folder on the course website) on your computer and revise the libname statement to reflect the directory where you save the file. Then launch and run the program. Review the query result to convince yourself that the raise values have been assigned correctly.  

The CASE operator has two forms of syntax. In fact, if you use only one column for WHEN condition(s), this column’s name can be put after CASE and before WHEN. So you don’t have to repeat the column’s name in each WHEN condition. Below is the syntax for this form:  

```
CASE <column-name> 
when-condition THEN result-expression 
<… WHEN when-condition THEN
result-expression>
<ELSE result-expression>
END AS < column name>
```    
### Example

The following program uses the simpler form of CASE construct to decide compensation (Yes or N/A) based on departments:  
 -->

In [3]:
proc sql outobs=20;
  select name,
         Department,
         employee_annual_salary label='salary' format=dollar12.2,
         case department
             when  'POLICE'  then 'Yes'
             when  'FIRE'    then 'Yes'
             else  'N/A'
         end as Compensation
  from phc6089.salary;
quit;

Name,Department,salary,Compensation
WARNER,PROCUREMENT,"$76,980.00",
EDWARDS,POLICE,"$83,616.00",Yes
PENDARVIS,POLICE,"$103,590.00",Yes
CLARK,FIRE,"$85,680.00",Yes
FOLINO,POLICE,"$83,616.00",Yes
SAWYER,CITY COUNCIL,"$117,333.00",
WALTON,POLICE,"$89,718.00",Yes
QUINLAN,TRANSPORTN,"$95,888.04",
SOTO,WATER MGMNT,"$79,040.00",
RUSS,WATER MGMNT,"$79,040.00",


上記のコードは、前の例と同じデータセットsalaryを使用しています。ここでは、所属する部門に基づいて異なる補償プランを割り当て、新しい列「Compensation」を結果として作成します。今回は、部門名がWHEN条件の外に出され、CASE式に入れられています。そのため、「WHEN department='POLICE'」のようなコーディングは必要ありません。  
もう一つの特徴は、PROC SQLステートメントで使用できるオプション、OUTOBS=nです。これは、出力に表示される行数を制限するために使用できます。この場合、出力ウィンドウにデータの最初の20行が表示されることが期待されます。また、ログウィンドウには次のような警告メッセージが表示されます：  

```
WARNING: ステートメントは、OUTOBS=20オプションにより早期終了しました。
```

OUTOBS=はCREATE文で作成されたテーブルにも影響を与えることに注意してください。  
プログラムを開いて実行し、レコードが期待通りに処理されたことを確認します。この簡単な形式を使用する場合には注意が必要です。例えば、前の例のプログラムで「Employee_annual_salary」をWHEN条件の外に移動すると、エラーとなり実行されません！


<!-- 
The above code uses the same data set as the previous example, salary. It assigns the different compensation plans based on which department people work for and creates a new column, Compensation, for the result. This time, the column name Department has been put outside the WHEN conditions and into CASE operator. So we don’t need coding like “WHEN department=’POLICE’” any more.  
Another feature is the option you can use in the PROC SQL statement, OUTOBS=n. It can be used to limit the number of rows displayed in the output. So in this case, we would expect the table in the output window shows the first 20 rows of the data. And such a warning message will be delivered in the log file.  

``` 
WARNING: Statement terminated early due to OUTBOS=20 option.
```

Note that OUTOBS= will also affect tables that are created by the CREATE TABLE statement.  
Launch and run the program. Then check the query result to make sure the records have been processed as expected. Note that you have to be cautious with this simpler form. For instance, if you move Employee_annual_salary out of the WHEN conditions in the program of the previous example, SAS will report an error and not execute!  
-->

## WHERE句の使用

ご存知のように、データステップや他のプロシージャでのWHEREステートメントやオプションは、指定された条件に基づいてデータセットからオブザベーションを選択するのに非常に役立ちます。PROC SQLでは、SELECT文でWHERE句を使用して、指定された条件に基づいてデータをサブセット化することもできます。WHERE句内には、SAS式を入れることができ、関数、比較演算子、論理演算子、さらには特別な演算子を含むことができます。これをうまく活用することで、プログラミングの効率が向上し、計算資源を大幅に節約できます。いつものように、例を使ってこのテーマを進めていきます。

### 例

次の例ではWHERE句を使用して、部門が"POLICE"で職位が"SERGEANT"である従業員を選択します：


<!-- 
## Using the WHERE Clause

As you know, the WHERE statement or option in DATA step or other procedures is very useful in selecting observations from a data set based on some criteria. In PROC SQL, the WHERE clause in the SELECT statement can also be used to subset data based on specified conditions. Any valid SAS expression can be put inside WHERE clause, including functions, comparison or logical operators and even some special operators. Making the good use of it can increase programming efficiency and save computing resources greatly. As always, we will work through this subject with examples.

### Example

The following example uses the WHERE clause to select employees who work at a police department and have the job title as sergeant:  
-->

In [4]:
proc sql;
  select Name, Department, Employee_annual_salary 
  from phc6089.salary
  where Department='POLICE' AND Position_title='SERGEANT';
quit;

Name,Department,Employee Annual Salary
PENDARVIS,POLICE,103590
ODUM,POLICE,106920
DANIELS,POLICE,106920
TATE JR,POLICE,103590
GOLDSMITH,POLICE,110370
FRANKO,POLICE,106920
RADDATZ,POLICE,110370
FLEMING,POLICE,100440
CASEY,POLICE,110370
MC COY,POLICE,110370


プログラムを読み進めると、給与データから'POLICE'の'SERGEANT'の名前、部門、および年収情報を選択していることがわかります。WHERE句内の列はSELECT句に指定する必要はありません（例えば、Position titleのように、WHERE句で使用されていますが、SELECT句には含まれていません）。しかし、結果を確認するために、これらの列をクエリに含めておくことをおすすめします。

プログラムを開いて実行し、出力からレコードが説明通りに選択されていることを確認してください。
上記のプログラムでは、比較演算子（=）と論理演算子（AND）の2種類の演算子が使用されています。これらの一般的なものに加えて、プログラミングに非常に有用な別のタイプの演算子があります。これを条件演算子と呼びます。IN、CONTAINS、およびMISSINGなどの演算子を既にご存知かもしれません。完全な演算子のリストはSASドキュメントにあります。次に、BETWEEN ANDおよびLIKEの使用例を見てみましょう。

```
BETWEEN value-1 AND value-2
```
value-1とvalue-2の両方が終了値です。そのため、BETWEEN AND演算子を使用して、ある日付から別の日付まで、または下限から上限までの値の範囲を指定できます。小さい値が最初である必要はありません。

### 例

次のプログラムは、BETWEEN AND演算子を使用して、年収が65,000ドルから70,000ドルの間であり、かつ部門'FIRE'で働く従業員のオブザベーションを選択します：

<!-- 
Reading through the program, you must have known that it selects the name, department and annual salary information from salary data for police sergeants. Note that the columns in the WHERE clause do not have to be specified in the SELECT clause, (such as Position title), which is used in the WHERE clause but not in the SELECT clause. However, for the sake of the results checking, I would suggest to keep these columns in the query until verified.  

Launch and run the SAS program, and review the output to convince yourself that the records have been selected as described.  
We saw two types of operators used in the above program, the comparison (=) and the logical (and). Besides these common ones, another type that could be very useful in your programming is called a conditional operator. You may know some of them already, like IN, CONTAINS and MISSING. You can find the complete list of operators in the SAS documentation. Next, let’s look at a couple of examples on this using BETWEEN AND and LIKE.  

```
BETWEEN value-1 AND value-2
```

Both value-1 and value-2 are end values. So you can use the BETWEEN AND operator to specify a range of values, such as from one date to another, or from lower limit to upper limit. The smaller value does not have to be the first.  

### Example

The following program uses the operator, BETWEEN AND, to select observations from salary data whose annual salary is between \$65,000 and \$70,000, and also works in Fire department:  
-->

In [5]:
proc sql;
  select Name, Department,
         Employee_annual_salary label='Salary' format=dollar12.2
  from phc6089.salary
  where  Employee_annual_salary between 65000 and 70000
     and Department='FIRE';
quit;

Name,Department,Salary
KELLY,FIRE,"$65,946.00"
KOCHANEY,FIRE,"$65,946.00"


プログラムを開いて実行し、クエリの出力から期待通りの結果が得られていることを確認してください。

<!-- 
Launch and run the SAS program, and review the query output to convince yourself that the SAS yield the result as expected.  
-->


もう一つの有用な演算子はLIKE演算子です：

```
Column LIKE ‘pattern’
```

LIKE演算子を使用する場合、列名と一致するパターンを指定する必要があります。パターンに関しては、まず大文字と小文字が区別され、引用符で囲む必要があります。次に、アンダースコア(\_)やパーセント記号(%)などの特殊文字を含むことができます。アンダースコア文字は任意の単一文字を表し、パーセント記号は0文字以上の任意の文字列を表します。例えば、ある列に次の値が含まれているテーブルを扱っているとします。

* Cathy
* Kathy
* Kathie
* Katherine

異なるパターンを使用すると、選択結果も異なります。

|**パターン**| **結果**|
|------------|------------|
|Kath_| Kathy|
|Kath__| Kathie|
|Kath%| Kathy, Kathie, Katherine|
|_ath%| All of the names above|

<!-- 
Another useful operator is the LIKE operator:

`Column LIKE ‘pattern’`

With the LIKE operator, you have to specify a column name and the pattern to be matched. Regarding the pattern, first it is case-sensitive and has to be enclosed in quotation marks; secondly, it may contain a special character, either an underscore(_) and/or percent sign(%). The underscore character stands for any single character and the percent sign for any sequence of zero or more characters. For example, assume that you are working with a table containing these values for a column.

* Cathy
* Kathy
* Kathie
* Katherine

Now using different patterns, the selection results are different:

|**Patterns**| **Results**|
|------------|------------|
|Kath_| Kathy|
|Kath__| Kathie|
|Kath%| Kathy, Kathie, Katherine|
|_ath%| All of the names above|
-->

### 例

次のプログラムは、WHERE句でLIKE演算子を使用して、名前がRで始まり、3文字目がBである人の名前、部門、職位、および年収情報を選択します：

  
<!--   
### Example

The following program shows the use of the LIKE operator in a WHERE clause to select name, department, position title and annual salary information for people whose name starts with R and the third letter is B:  
-->

In [6]:
proc sql;
  select Name, Department, Position_title,
      Employee_annual_salary label='Salary' format=dollar12.2
  from phc6089.salary
  where  Name like 'R_B%';
quit;

Name,Department,Position Title,Salary
ROBINSON,WATER MGMNT,OPERATING ENGINEER-GROUP C,"$93,745.60"
RABANALES,FINANCE,AUDITOR II,"$87,912.00"
ROBERTS,FIRE,PARAMEDIC I/C,"$79,404.00"
ROBINSON,WATER MGMNT,CONSTRUCTION LABORER,"$79,040.00"


プログラムを開いて実行し、クエリの出力から説明通りに動作していることを確認してください。

ここで注目すべきもう一つのポイントはキーワードCALCULATEDです。前のセクションで、SELECTステートメントで計算を行い、新しい列にエイリアスを割り当てることができることを学びました。しかし、SASがWHERE句をSELECT句の前に処理するため、計算された列をWHERE句で条件として使用すると問題が発生します。したがって、CALCULATEDキーワードをWHERE句にエイリアスとともに挿入して、値がクエリ内で計算されたことを通知する必要があります。この点については次のプログラムで説明します。


<!-- 
Launch and run the SAS program, and review the query output to convince yourself that the SAS behaves as described.  

Another point worthy of being made here is the CALCULATED keywords. In the last section you learned that we can perform calculations in SELECT statement and assign an alias to that new column. However, because SAS processes the WHERE clause prior to the SELECT clause, you will run into a problem if the calculated column is used in a WHERE clause as condition. Therefore, the keyword CALCULATED has to be inserted into the WHERE clause along with the alias to inform SAS that the value is calculated within the query. This point will be illustrated by the following programs.
-->

### 例

次のプログラムは、各従業員のボーナスを計算し、ボーナスが2000ドルを超えるものを選択します：

<!-- 
### Example

The following program attempts to calculate the bonus for every employee, then select ones who has more than \$2,000 as bonus:  
-->

In [7]:
proc sql;
  select Name, Department,
      Employee_annual_salary label='Salary' format=dollar12.2,
      Employee_annual_salary * 0.02 as Bonus
  from phc6089.salary
  where  Bonus > 2000 ;
quit;


17                                                        SAS システム               2024年 6月 6日 木曜日 08時47分00秒

126        ods listing close;ods html5 (id=saspy_internal) file=_tomods1 options(bitmap_mode='inline') device=svg style=HTMLBlue;
126      ! ods graphics on / outputfmt=png;
127        
128        options notes ;
129        proc sql;
130          select Name, Department,
131              Employee_annual_salary label='Salary' format=dollar12.2,
132              Employee_annual_salary * 0.02 as Bonus
133          from phc6089.salary
134          where  Bonus > 2000 ;
[38;5;21mNOTE: データファイルPHC6089.SALARY.DATAは別なホストにネイティブな形式が使用されているか、または
      エンコーディングがセッションエンコーディングと一致していません。クロス環境データアク
       セスが使用されるため、追加のCPUリソースが必要となり、パフォーマンスが低下します。[0m
[1m[38;5;9mERROR: 次の列はテーブル内に存在しません: Bonus.[0m[0m
[38;5;21mNOTE: PROC SQLはNOEXECオプションを設定し、ステートメントの構文をチェックします。[0m
135        quit;
[38;5;21mNOTE: エラーが発生したため、このステップの処理を中止しました。[0m
[38;5;21mNOTE: PROCEDURE SQL処理(合計処理時間):
      処理時間           0

[1;31mERROR: 次の列はテーブル内に存在しません: Bonus. None
[0m

プログラムを開いて実行します。自分で何が問題なのかを確認したいかもしれません。  
ログウィンドウには、列「Bonus」が見つからないというエラーメッセージを表示します（上記の出力参照）。これは、WHERE句をSELECT句の前に処理されるためです。これを正しくするためには、WHERE句にCALCULATEDを以下のように追加します。
<!-- 
Launch and run the SAS program. You may want to see what’s going wrong yourself. In the log window, SAS delivered an error message that the column Bonus cannot be found (see output above). That’s because SAS processes the WHERE clause before the SELECT clause. To make it right, add CALCULATED in the WHERE clause as shown below.  
-->

In [8]:
proc sql;
  select Name, Department,
      Employee_annual_salary label='Salary' format=dollar12.2,
      Employee_annual_salary * 0.02 as Bonus
  from phc6089.salary
  where calculated Bonus > 2000 ;
quit;

Name,Department,Salary,Bonus
PENDARVIS,POLICE,"$103,590.00",2071.8
SAWYER,CITY COUNCIL,"$117,333.00",2346.66
ODUM,POLICE,"$106,920.00",2138.4
PLANTZ,GENERAL SERVICES,"$102,060.00",2041.2
FORD,FIRE,"$100,440.00",2008.8
DANIELS,POLICE,"$106,920.00",2138.4
MALONEY,FIRE,"$127,566.00",2551.32
MOLLOY,COMMUNITY DEVELOPMENT,"$102,060.00",2041.2
NIEGO,FIRE,"$143,682.00",2873.64
PRICE,FIRE,"$103,590.00",2071.8


これで動くようになりました! 自分のプログラムでも同様に修正し、正しく動作しているか確認してください。  
キーワードCALCULATEDを使う以外の方法は、WHERE句で再度計算式を書くことです。下のプログラムではWHERE句が書き換えられています:

```
where Employee_annual_salary *0.02 >2000;
```

しかし、この場合2回計算を行う必要があるため、あまり効率的でないことに注意してください。

<!-- 
Now it’s working! Make the same change to your program. Check the output to make sure that SAS processes the data properly.  
An alternative to using the keyword CALCULATED is to repeat the calculation expression in the WHERE clause. In the preceding program, the WHERE clause can be rewritten as:  

```
where Employee_annual_salary *0.02 >2000;
```

But note that this is not an efficient way to do this because SAS has to do the calculation twice.   
-->

## データのソート

SELECT句とFROM句は、SQLクエリにおいて欠かせないものです。他の句はオプションですが、テーブルに問い合わせをする際に非常に役立ちます。前のセクションではWHERE句による条件付きで行を選択する方法を紹介しました。これまでの例から、オブザベーションの順序が元のデータセットと同じままであることに気付いたかもしれません。しかし、データの順序を指定したい場合は、ORDER BY句を使用してデータを希望の順序にソートする必要があります。

### 例

以下のプログラムは、PROC SQL内でORDER BYを使用して、ファイルsurvey.sas7bdatのデータを性別とGPAの値でソートします：

<!-- 
## Sorting Data

The SELECT and FROM clauses are indispensable in the SQL query. Other clauses may be optional but very useful when querying a table. Last section introduced the WHERE clause and how to use it to select rows conditionally. From previous examples, you may have noticed that the order of observations might remain the same as they were in original data set. If, however, you want to specify the order of data, you will need the ORDER BY clause to sort the data as you want.

### Example

The following SAS program uses ORDER BY inside PROC SQL to sort the data in the file survey.sas7bdat by the values of gender and GPA:  
-->

In [9]:
proc sql;
  select ID, Gender, GPA, SATM, SATV
  from phc6089.survey
  where SATV is not null and GPA > 3
  order by Gender, GPA ;
quit;

id,Gender,GPA,SATM,SATV
1219,Female,3.01,630,590
1039,Female,3.02,560,560
1125,Female,3.08,470,510
1203,Female,3.1,500,610
1139,Female,3.1,530,600
1068,Female,3.1,550,610
1116,Female,3.1,560,550
1072,Female,3.1,570,570
1138,Female,3.12,560,580
1120,Female,3.16,680,670


プログラムを開いて実行し、出力を確認して、クエリ結果がまず「gender」、次に「GPA」でソートされていることを確認してください。
上記のプログラムに関して、いくつか指摘しておくべき点があります：

1. ORDER BYには一つ以上の列を使用してデータをソートできます。複数の列名を区切るにはコンマを使用します。この例では、「gender」と「GPA」の2つの列が使用されています。したがって、データはまず「gender」別でソートされ、その後に「GPA」でソートされます。
2. デフォルトでは、列の値は昇順にソートされます。例えば、「gender」には女性と男性の2つの値があります。クエリの結果では、アルファベット順に"Female"のレコードが先に表示され、その後に"Male"のレコードが表示されます。GPAの順序については、数値であるため、各性別グループ内でGPAの数値でオブザベーションをソートします。
3. WHERE句は、SATの言語スコアが欠落しておらず、GPAが3より大きいオブザベーションを選択するために使用されます。「is not null」と「is not missing」は、欠落値が含まれていないことを示すために交換が可能です。

PROC SORTと同様に、デフォルトの昇順を降順に変更したい場合は、列名の後にDESCを指定するだけです。

<!-- 
Launch and run the SAS program, and review the output to convince yourself that the query result is in order first by gender and then by GPA.  

Several things need to be pointed out regarding the above program:  

1. You can use one or more column in ORDER BY to sort the data. Comma is used to separate multiple column names. In this example, two columns have been used, Gender and GPA. So the data will be sorted by Gender first, then by GPA in order.
2. By default, the values of column(s) will be sorted ascendingly. For example, there are two values in Gender, Female and Male. In the query result, Female records are listed first, then male ones because SAS sorted them by the first letter in alphabetical order. As to GPA order, since it’s numeric, SAS sorted observations by number values of GPA inside each gender group.
3. The WHERE clause is used to select observations that her/his SAT verbal score is not missing and GPA greater than 3. “is not null” and “is not missing” are interchangeable to indicate no missing values included.

As in PROC SORT, if you want to change the default ascending order into descending order, you just need to specify DESC following the column name.  
-->

### 例

次のプログラムは、性別の値で降順に、GPAで昇順にデータsurvey.sas7bdaをソートします：


<!-- 
### Example

The following SAS program sorts the data survey.sas7bdat by the values of gender in descending order then by GPA ascendingly:  
-->

In [10]:
proc sql;
  select ID, Gender, GPA, SATM, SATV
  from phc6089.survey
  where SATV is not null and GPA > 3
  order by Gender desc, 3 ;
quit;

id,Gender,GPA,SATM,SATV
1047,Male,3.02,700,570
1157,Male,3.02,400,400
1084,Male,3.03,690,690
1140,Male,3.04,540,600
1152,Male,3.05,600,500
1130,Male,3.06,660,620
1053,Male,3.08,420,490
1151,Male,3.08,590,590
1137,Male,3.1,580,640
1097,Male,3.1,640,430


前の例のプログラムとは2つの点で異なります。DESCが「Gender」の後に追加され、データを降順にソートするように指定されています。列名の代わりにSELECT句での位置を参照するもう一つの方法があります。「GPA」は3番目にリストされているので、「GPA」を指定するために3を使用できます。  
プログラムを開いて実行し、出力から「Gender」の降順および「GPA」の昇順でクエリの結果が並んでいることを確認してください。  
ここまでで、ORDER BYがPROC SORTと同じ機能を持つと考えるかもしれません。実際にはそれ以上のことができます。次の例で確認してみましょう。

<!-- 
There are only two places that are different from the program in the previous example. DESC has been added after Gender to tell SAS to sort the data descending. Another way to refer to the column rather than its name is its location in the SELECT clause. GPA is listed as the third one so that we can use 3 to specify GPA.  
Launch and run the SAS program, and then review the output to convince yourself that the output from this query is in descending order of Gender and in ascending order of GPA.  
Up until now, you might think that ORDER BY can perform the same as PROC SORT. Actually, it can do more than that. Let’s find out with the next example.  
-->

### 例

次のプログラムは、前と同様に性別で降順にソートし、次にSATの数学と言語のスコアの平均値で昇順にソートします：

<!-- 
### Example

The following program sorts the survey data first by gender in descending order as before, then by mean values of SAT math and verbal scores in ascending order:  
-->

In [11]:
proc sql;
  select *
  from phc6089.survey
  where SATV is not null and GPA>3
  order by Gender desc, mean(SATM,SATV) ;
quit;

id,Gender,GPA,SmokeCigarettes,SATM,SATV
1157,Male,3.02,No,400,400
1090,Male,3.12,No,560,330
1053,Male,3.08,No,420,490
1220,Male,3.19,No,480,480
1217,Male,3.21,No,620,400
1212,Male,3.35,No,570,480
1101,Male,3.13,No,570,490
1098,Male,3.36,No,540,520
1097,Male,3.1,No,640,430
1152,Male,3.05,No,600,500


すべての列がクエリで使用されるため、SELECTの後に*を使用してすべての列を指定します。WHERE句は同じままです。ORDER BY句では、「Gender」のほかに、SATMとSATVの平均スコアを計算する関数が使用され、その計算結果を使用して各性別グループ内でデータをソートします。同じ結果を得るために、データステップではどれだけの手順が必要になるでしょうか。  
プログラムを開いて実行し、出力からデータが期待される順序でソートされていることを確認してください。  
もう一つ、プログラムを実行するときにログウィンドウにNoteが表示されるかもしれません。  

```
NOTE: 指定したクエリにはSELECT句にない項目によるソートが含まれます。
```

これは、MEAN(SATM, SATV)がSELECT句にはリストされず、ORDER BY句のみに表示されるためです。

<!-- 
Since all columns will be used in the query, * is used to specify all columns after SELECT. The WHERE clause remains the same. In the ORDER BY clause, besides Gender, one function is used to calculate the average scores of SATM and SATV, then uses the calculation results to sort the data inside each gender group. To get the same result, could you try other SAS steps and count how many of them will be needed?  
Launch and run the SAS program, and review the output to convince yourself that the data has been sorted in desired order.  
One more thing, you may notice a note in log window when running this program.  

``` 
NOTE: The query as specified involves ordering by an item that doesn't appear in its SELECT clause.
```

That’s because MEAN(SATM,SATV) is not listed in the SELECT clause, only in the ORDER BY clause.  
-->

## データの要約とグループ化

前のセクションでは、SQLプロシージャを使用して詳細なレポートを生成しました。時には、データを探索するために要約レポートも必要です。そのためには、PROC SQLで要約関数やGROUP BY句が必要になります。

データステップで使用される多くの要約関数も、PROC SQLでうまく動作します。以下は、使用できる要約関数の一例です：

| 要約関数 | 説明 |
| --- | --- |
| AVG, MEAN | 値の平均または平均値 |
| COUNT, FREQ, N | 欠落していない値の数 |
| CSS | 修正二乗和 |
| CV | 変動係数（パーセント） |
| MAX | 最大値 |
| MIN | 最小値 |
| NMISS | 欠落値の数 |
| PRT | 学生のtの絶対値が大きい確率 |
| RANGE | 値の範囲 |
| STD | 標準偏差 |
| STDERR | 平均の標準誤差 |
| SUM | 値の合計 |
| T | 仮説検定の学生のt値 |
| USS | 非修正二乗和 |
| VAR | 分散 |

注：一部の関数には複数の名前があります。最初にリストされているのがSQLの名前です。

次に、これらの関数がPROC SQLでどのように計算を行うかを例を通して見ていきます。その途中で、GROUP BY句を紹介し、関数と一緒に使用します。

<!-- 
## Summarizing and Grouping Data

In previous sections, we use the SQL procedure to generate detailed reports. Sometimes, the summarized report is also necessary for us to explore data. To do that, we are going to need summary functions and/or the GROUP BY clause in PROC SQL.

Many summary functions that are used in other SAS steps can also work well in PROC SQL. Below is the table of summary functions you can request:

|**Summary function**| **Description**|
|--------------------|----------------|
|AVG, MEAN| mean or average of values|
|COUNT, FREQ, N| number of non-missing values|
|CSS| corrected sum of squares|
|CV| coefficient of variation(percent)|
|MAX| largest value|
|MIN| smallest value|
|NMISS| number of missing values|
|PRT| probability of a greater absolute value of student's t|
|RANGE| range of values|
|STD| standard deviation|
|STDERR| standard error of the mean|
|SUM| sum of values|
|T| student's t value for testing hypothesis|
|USS| uncorrected sum of squares|
|VAR| variance|

Note: some functions have multiple names. The first listed is the SQL name.

Next we will work through examples to see how these functions perform calculations in PROC SQL. Along the way, the GROUP BY clause will be introduced and work with the functions.
-->

### 例

次のプログラムは、AVG()関数を使用して、SATの数学と言語テストの平均スコアを計算します：

<!--   
### Example

The following program uses the AVG() function to calculate the mean scores of SAT math and verbal test:  
-->

In [12]:
proc sql;
  select avg(SATM) as average_Math,
      avg(SATV) as average_Verbal
  from phc6089.survey;
quit

average_Math,average_Verbal
599.0046,580.3256


まずプログラムを開いて実行してください。出力を確認すると、SATMとSATVの2つの全体の平均スコアが別々に計算されているのがわかります。出力ウィンドウには1つのオブザベーションしかありません。
コード内の関数を確認しましょう。平均を計算するために、この場合、MEAN()またはAVG()のどちらかを使用できます。関数AVG()の中には引数（列）が1つだけあります。したがって、統計は1つの列のすべての行に対して計算されます。

* AVG(STAM)—SATMの全体平均スコア
* AVG(STAV)—SATVの全体平均スコア

非常に簡単ですね。関数に引数をもう1つ追加してみましょう。出力には何件のオブザベーションが表示されるでしょうか？


<!-- 
First launch and run the SAS program. When checking the output you will see two overall average scores have been calculated for SATM and SATV separately. There is only one observation in the output window.  
Let’s review the function in the code. To calculate average, either MEAN() or AVG() can be used in this case. Note that there is only one argument (column) inside the function AVG(). So the statistic is calculated across all rows for one column.  

* AVG(STAM)—the overall average score of SATM
* AVG(STAV)—the overall average score of SATV

Quite simple, right? Let’s add one more argument into the function. Can you guess how many observations will be in the output?  
-->


### 例

次のプログラムでは、関数MEAN()の引数として2つの列を使用します：

<!-- 
### Example

In the following program, two columns are the arguments of the function MEAN():  
-->

In [13]:
proc sql;
  select mean(SATM, SATV) as average
  from phc6089.survey;
quit;

average
700
600
470
635
560
665
690
595
655
560


プログラムを少し変更しました。「SATM」と「SATV」の両方が引数として関数内で指定されています。プログラムを開いて実行してください。出力には226オブザベーションが表示され、これは元の調査データと同じです。  
要約関数の引数として複数の列を追加すると、SASは各行の列全体にわたって計算を行い、上記の出力を生成します。
この場合、要約関数はもはや集計を行っていません。SASは次にBASE SAS内の同名関数を探します。あれば、各行に対して計算が行われ、なければログウィンドウにエラーメッセージが表示されます。MEAN()をAVG()に変更してみて、何が起こるか確認してください。

```
ERROR: 関数AVGが見つかりません。
```

### 例

次のプログラムでは、1つの引数だけをMEAN()に使用しますが、SELECT句にもう1つ列を追加します：

<!-- 
We changed the program a little bit. Both SATM and SATV are put inside the function as arguments. Launch and run the SAS program. You will see there are 226 observations, which is the same as in the original survey data.  
If you add more than one column as arguments of summary functions, SAS will perform the calculation across the columns for each row to generate the above output.  
In this case, the summary function is not performing aggregation anymore. SAS then looks for a like-named function in BASE SAS. If yes, the calculation will be performed for each row; if not, an error message will be output in the log window. You can try to change MEAN() to AVG() to see what will happen.  

```
ERROR: Function AVG could not be located.
```

### Example

The following program uses only one argument for MEAN(), but add one more column in the SELECT clause:  
-->

In [14]:
proc sql;
  select Gender, 
         mean(SATM) as average_Math
  from phc6089.survey;
quit;

Gender,average_Math
Male,599.0046
Female,599.0046
Female,599.0046
Female,599.0046
Female,599.0046
Male,599.0046
Male,599.0046
Male,599.0046
Male,599.0046
Female,599.0046


上記のプログラムでは、SELECT文が再び変更されました。今回は、MEAN()関数の引数は1つのみで、「SATM」の全体平均を計算します。関数の外側には、別の列も選択されています。このプログラムはどのような出力結果を生み出すでしょうか？

プログラムを開いて実行してみてください。出力結果が226行あることに驚くかもしれません。出力結果をよく見ると、上記のコードによって2つのことが行われていることがわかります。

1. 全生徒の数学成績の全体平均が計算されました。
2. 「Gender」はMEAN()関数の引数ではないため、出力にはすべての行が表示されています。

全体平均の数学成績は、各行に繰り返し表示されます。ログウィンドウには、以下のようなメッセージが表示されることがあります。このようなプログラムを実行すると、SASは最初に統計量を計算し、それを他の列とマージします。これが「再マージ」が発生する仕組みです。

```
NOTE: クエリは元のデータに要約統計量の結果を再マージします。
```

上記の出力結果は、私たちが望んでいたものではありません。では、GROUP BY句を使用して、より適切な結果を得る方法を見てみましょう。


<!-- 
In the above program, the the SELECT statement changed again. This time, only one argument is for the MEAN() function to calculate the overall average score of SAT math grades. Outside the function, another column has been selected as well. What output will it produce?  
Launch and run the SAS program. You may be surprised that the output contains 226 rows. Review the output you will see two things that have been done by the above code:  

1. It calculated the overall average math score for all students.
2. It displayed all rows in the output because Gender is not an argument of MEAN() function.

Note that the overall average math score is just repeated for each row. You can find a message like the one below in the log window. When you submit such a program, SAS calculate the statistic first. Then merge it back with other columns. That’s how “remerging” happens.  

```
NOTE: The query requires remerging summary statistics back with the original data
```

The above result is not what we wanted. Now, let’s see how to use the GROUP BY clause to make it reasonable.  
-->

### 例

次の例では、各性別グループの平均SAT数学成績を計算します。


<!-- 
### Example

The following example calculates the average SAT math score for each gender group:  
-->

In [15]:
proc sql;
  select Gender,
         mean(SATM) as average_Math
  from phc6089.survey
  group by Gender;
quit;

Gender,average_Math
Female,589.5082
Male,611.3298


上記のプログラムは、前の例にあるプログラムとほぼ同じですが、GROUP BY句が追加されています。これで、目的の結果、つまり女性と男性の生徒の平均「SATM」が得られました。もちろん、GROUP BY句には複数の列を追加して、さらに活用することができます。次の例で確認してみましょう。

<!-- 
The above program seems identical to the program in the previous example except for one more clause: GROUP BY. Finally, we get it right and obtain the desired result: the average SAT math scores for female and male students. Of course, you can make further use of GROUP BY by adding multiple columns. Let’s find out with the next example.The Voice In My Heart  
-->

### 例

次のプログラムでは、GROUP BY句に「Gender」と「SmokeCigarettes」の両方を用いて、SAT数学スコアの平均を計算します。

<!-- 
### Example

The following program uses both Gender and SmokeCigarettes in the GROUP BY clause to calculate the average SAT math scores:The Voice In My Heart  
-->

In [16]:
proc sql;
  select Gender, SmokeCigarettes,
      mean(SATM) as average_Math
  from phc6089.survey
  group by 1, 2;
quit;

Gender,SmokeCigarettes,average_Math
Female,No,589.6552
Female,Yes,586.6667
Male,No,613.2353
Male,Yes,593.3333


プログラムを開いて実行し、出力結果を確認してください。ご覧のとおり、「SATM」の平均は、「gender」の各グループ（女性または男性）内の各喫煙グループ（はいまたはいいえ）に対して計算されています。

このプログラムについて、もう1点重要なことがあります。WHERE句と同様に、列はSELECT句における位置で参照することもできます。ここでは、1と2はそれぞれ「Gender」と「SmokeCigarettes」を表しています。

次に、SQLの特殊な要約関数であるCOUNT()について説明します。COUNT()関数は、欠損値ではない値をカウントするために使用できます。

<!-- 
Launch and run the SAS program, then review the output. As you can see, the average math scores are calculated for each smoking group (Yes or No) inside each gender group (Female or Male).
Just one more thing about this program, the columns can also be referred to by their locations in the SELECT clause as in the WHERE clause. Here, 1 and 2 are used to refer to Gender and SmokeCigarettes.  
Next, we will pay attention to one special summary function in SQL, which is COUNT(). You can use the COUN() function to count the non-missing values.  
-->

### 例

次の例では、調査データの行数、数学と語彙テストのスコアにおける欠損値ではないレコードの数、性別のユニークな値をカウントします。

<!-- 
### Example

The following example count the number of rows in survey data, the number of non-missing records for math and verbal test scores, and the distinct values of gender:  
-->

In [17]:
proc sql;
  select count(*) as No_obs,
      count(SATM) as No_Math_records,
      count(SATV) as No_Verbal_records,
      count(distinct Gender) as Gender_group
  from phc6089.survey;
quit;

No_obs,No_Math_records,No_Verbal_records,Gender_group
226,216,215,2


上記のコードは、COUNT()関数の3つの一般的な使用方法を示しています。

1. Count(*)は、テーブル内の行の総数をカウントします。COUNT()は、*を引数として使用できる唯一の関数です。
2. Count(column)は、列内の欠損値ではない値の数をカウントします。プログラムでは、数学と語彙のスコアの欠損値ではない値の数をカウントしています。
3. Count(distinct column)は、列内のユニークな値の総数をカウントします。上記の例では、性別のカテゴリ数をカウントしています。

プログラムを開いて実行し、出力結果を確認してください。テーブル内の欠損値をある程度把握していれば、最初の3つの数値が一致しないことに驚くことはないでしょう。調査データの行数は226です。「SATM」と「SATV」の欠損値ではない値の総数は、それぞれ216と215です。両方の数は226より小さいので、各列で欠損値があり、「SATV」には1つ多い欠損値があります。「Gender」には、"male"と"female"の2つのカテゴリのみがあります。そのため、最後のカウントは2です。

<!-- 
The above code reveals three different common ways of using the COUNT() function.  

1. Count(*) is to count total number of rows in a table. COUNT() is the only function that allows you to use * as an argument.
2. Count(column) is to count the number of non-missing values in a column. In the program, we count the number of non-missing values for math and verbal scores.
3. Count(distinct column) is to count the total number of unique values in a column. In the above example, we count the number of gender categories.

Launch and run the SAS program, then review the output. With knowledge of some of the missing values inside the table, we are not surprised to see the first three numbers unmatched. The total number of rows in survey data is 226. The total numbers of non-missing values of math and verbal scores are 216 and 215, separately. Both numbers are less than 226, which means there are missing values in each column, and SATV has one more value missing. There are only two categories in Gender, Male and Female. So the last count is 2.  
-->

## HAVING句の使用

これまで、GROUP BY句を使用してデータをグループ化して要約する方法を学びました。場合によっては、結果から特定のグループを選択したいことがあります。これが、HAVING句が役立つ場面です。

### 例

次のプログラムでは、各部署の平均給与を計算し、クエリの出力で必要な3つの部署を選択します。


<!-- 
## Using the HAVING Clause

Previously we learned how to use the GROUP BY clause to group and summarize data. Sometimes, we want to select certain groups from the result. That’s when the HAVING clause comes into play.

### Example

The following program calculates the average salary for each department, then select three departments as needed in the query output:  
-->

In [18]:
proc sql;
  select Department,
      avg(Employee_annual_salary) as Avg_salary format=dollar12.2
  from phc6089.salary
  group by Department
  having Department in ('LAW','FINANCE','FIRE')
  order by Avg_salary;
quit;

Department,Avg_salary
LAW,"$71,082.20"
FINANCE,"$82,184.00"
FIRE,"$90,742.33"


まず、プログラムを確認しましょう。コードは列「Department」を選択し、要約関数AVG()を使用して平均給与を計算します。SELECT文にもGROUP BY句が含まれているため、平均は各部署に対するものです。ユーザーは、'LAW','FINANCE','FIRE'の3つの部署のみに関心があります。そのため、HAVING句を使用して、この3つの部署のみを出力するように選択します。最後に、平均給与でデータをソートするように指示します。このプログラムには、これまで学んだすべての句が含まれていますが、WHERE句は除きます。WHERE句については、後で説明します。

プログラムを開いて実行し、出力結果を理解していることを確認してください。

上記のプログラムでHAVING句と同じことをWHERE句で行うことができるかどうか疑問に思うかもしれません。次の例のように、HAVING句をWHERE句に置き換えてみてください。同じ出力結果が得られます。

<!-- 
Let’s review the program first. The code selects the column Department and uses the summary function AVG() to compute the average salaries. Since the GROUP BY clause also is also present in the SELECT statement, the averages are for each department. The user is only interested in three departments, Law, Finance and Fire. So we use the HAVING clause to select only these three to be output. Finally, we ask SAS to sort the data by average salaries. This program contains every clause we have learned so far except the WHERE clause, which we will address later.  
Launch and run the SAS program and review the output to make sure you understand the output.  
You may wonder if WHERE can do the same thing as HAVING does in the above program. You can try replacing Having with WHERE clause as following. You will get identical output as before.  
-->

In [19]:
proc sql;
  select Department,
      avg(Employee_annual_salary) as Avg_salary format=dollar12.2
  from phc6089.salary
  where Department in ('LAW','FINANCE','FIRE')
  group by Department
  order by Avg_salary;
quit;

Department,Avg_salary
LAW,"$71,082.20"
FINANCE,"$82,184.00"
FIRE,"$90,742.33"


ただし、この例だけでWHERE句とHAVING句が同じであると結論付けるのは早計です。両者には大きな違いがあります。一般的に、HAVING句は出力時にグループ化されたデータを制御し、WHERE句は行単位で入力データを制御します。これらの2つのコマンドについて、さらに例を見てみましょう。

<!-- 
However, let’s not assume that WHERE and HAVING are the same based on this. There are some big differences between them. Generally speaking, HAVING has control on grouped data during output; WHERE controls input data row by row. Let’s see more examples about these two commands.  
-->

### 例

次のプログラムでは、各部署の平均給与を計算し、70,000ドルを超える平均給与を持つ部署を選択します。

<!-- 
### Example

The following program calculates the average salary for each department and choose ones having more than \$70,000:  
-->

In [20]:
proc sql;
  select Department,
      avg(Employee_annual_salary) as Avg_salary format=dollar12.2
  from phc6089.salary
  group by Department
  having Avg_salary > 70000
  order by Avg_salary;
quit;

Department,Avg_salary
LAW,"$71,082.20"
BOARD OF ELECTION,"$74,988.00"
HEALTH,"$75,066.86"
TRANSPORTN,"$79,438.18"
POLICE,"$81,850.26"
FINANCE,"$82,184.00"
WATER MGMNT,"$84,780.42"
PROCUREMENT,"$89,236.00"
COMMUNITY DEVELOPMENT,"$90,096.00"
DoIT,"$90,252.00"


このプログラムには、小さな変更が加えられています。HAVING句の条件を部署の平均給与が70,000ドル以上に変更しました。そのため、HAVING句で使用される式は要約関数です。また、データは平均値でソートされています。  

プログラムを開いて実行し、出力結果を確認してください。期待される通り、平均給与が70,000ドルを超えるすべての部署がクエリの結果としてリストされています。

次に、WHERE句を使用して同じタスクを実行してみましょう。

<!-- 
Only a small change has been made to this program. The condition in the HAVING clause changed the department average salary more than \$70,000. So, the expression used in the HAVING statement is a summary function. And, the data is sorted by average values.  
Launch and run the SAS program and review the output. As we expect, all departments having more than \$70,000 average salary are listed as the query result.  
Next, let’s try using WHERE to perform the same task.  
-->

In [21]:
proc sql;
  select Department,
      avg(Employee_annual_salary) as Avg_salary format=dollar12.2
  from phc6089.salary
  where calculated Avg_salary > 70000
  group by Department
  order by Avg_salary;
quit;


45                                                        SAS システム               2024年 6月 6日 木曜日 08時47分00秒

342        ods listing close;ods html5 (id=saspy_internal) file=_tomods1 options(bitmap_mode='inline') device=svg style=HTMLBlue;
342      ! ods graphics on / outputfmt=png;
[38;5;21mNOTE: HTML5(SASPY_INTERNAL) Bodyファイルの書き込み先: _TOMODS1[0m
343        
344        proc sql;
345          select Department,
346              avg(Employee_annual_salary) as Avg_salary format=dollar12.2
347          from phc6089.salary
348          where calculated Avg_salary > 70000
349          group by Department
350          order by Avg_salary;
[38;5;21mNOTE: データファイルPHC6089.SALARY.DATAは別なホストにネイティブな形式が使用されているか、または
      エンコーディングがセッションエンコーディングと一致していません。クロス環境データアク
       セスが使用されるため、追加のCPUリソースが必要となり、パフォーマンスが低下します。[0m
[1m[38;5;9mERROR: 要約関数はSELECT句とHAVING句に限定されています。[0m[0m
[38;5;21mNOTE: PROC SQLはNOEXECオプションを設定し、ステートメントの構文をチェックします。[0m
351        quit;
[38;5;21mNOTE: エラーが発生したため、このステップの処理を中止しました。

[1;31mERROR: 要約関数はSELECT句とHAVING句に限定されています。 None
[0m

計算された結果をWHERE句で使用するには、「CALCULATED」というキーワードを挿入する必要があることを覚えておいてください。SASからは次のようなエラーメッセージが表示されてしまいました。

```
ERROR: 要約関数はSELECT句とHAVING句に限定されています。
```


この例は、HAVING句とWHERE句の大きな違いを示しています。要約関数はHAVING句で使用できますが、WHERE句では使用できません。これは、HAVING句がグループ化されたデータで動作するのに対し、WHERE句は既存のデータまたは計算されたデータを1行ずつ評価するためです。

これらの2つの句に関するこれまでの経験から、HAVING句の方が使いやすく、どちらの状況にも使用できるため、HAVING句を使用したいと思うかもしれません。しかし、すぐに結論を出すのは早計です。次の例でさらに詳しく見ていきましょう。

<!-- 
You must remember that to use the computed result in the WHERE clause, the keyword “CALCULATED” should be inserted. Oops! SAS gives us an error message like this:  

```
ERROR: Summary functions are restricted to the SELECT and HAVING clauses only.
```

This example illustrates a big difference between HAVING and WHERE. The summary functions can be used in a HAVING clause but not in a WHERE clause, because HAVING works on grouped data, but WHERE evaluates existing or calculated data row by row.  
Based on our current experiences with these two clauses, you might prefer to use HAVING since it can be used for both situations. However, don’t rush to this conclusion either. You will find out more in the next example.  
-->

### 例

次の2つのプログラムは似ています。唯一の違いは、最初のプログラムがWHERE句を使用し、2番目のプログラムがHAVING句を使用していることです。両方のプログラムは、警察署の各職位にいる従業員の数をカウントするという同じタスクを実行しようとします。


<!-- 
### Example

The following two SAS program are similar. The only difference is that the first program uses a WHERE clause and the second program uses a HAVING clause. They try to accomplish the same task: count how many employees at each position inside Police Department:  
-->

In [22]:
proc sql;
  select Position_Title,
      count(*) as Employees
  from phc6089.salary
  where Department='POLICE'
  group by Position_Title;
quit;
 
proc sql;
  select Position_Title,
      count(*) as Employees
  from phc6089.salary
  group by Position_Title
  having Department='POLICE';
quit;

Position Title,Employees
ACCOUNTANT II,1
CLINICAL THERAPIST III,1
CROSSING GUARD,5
CROSSING GUARD - PER AGREEMENT,3
DIR OF POLICE RECORDS,1
FISCAL ADMINISTRATOR,1
POLICE OFFICER,85
POLICE OFFICER (ASSIGNED AS DETECTIVE),13
POLICE OFFICER / FLD TRNG OFFICER,1
SENIOR DATA ENTRY OPERATOR,2

Position Title,Employees
ACCOUNTANT II,1
CLINICAL THERAPIST III,2
CROSSING GUARD,5
CROSSING GUARD,5
CROSSING GUARD,5
CROSSING GUARD,5
CROSSING GUARD,5
CROSSING GUARD - PER AGREEMENT,3
CROSSING GUARD - PER AGREEMENT,3
CROSSING GUARD - PER AGREEMENT,3


両方のプログラムを実行してください。上の出力はWHERE句を使用したプログラムからの出力で、下の出力はHAVING句を使用したプログラムからの部分的な出力です。

2つの結果が大きく異なることに驚くかもしれません。上の出力のような結果を期待するでしょう。しかし、下の出力にははるかに多くの行があり、一部の数値は一致していません！コードを確認して、何が起こったのか理解しましょう。SELECT句には2つの列、「Position_Title」と要約関数count(\*)があります。count(\*)は、GROUP BY句で「Position_Title」を指定しているため、各職位グループの行の総数をカウントします。前の例にあるプログラムとは異なり、WHERE句とHAVING句で使用される式は、SELECT句に含まれていない別の列である「Department」を参照しています。そのため、2つのプログラムで異なる方法で処理がされます。

最初のプログラムはWHERE句を使用しています。WHERE句はSELECT句よりも前に行単位で処理されるため、まずデータから警察のレコードが選択されます。次に、部署内の各「Position_Title」の下にいる従業員の数をカウントします。たとえば、警察には「CLINICAL THERAPIST III」という職位の人は1人しかいません。そのため、カウントは1です。目的の出力結果が得られました。

一方、2番目のプログラムはHAVING句を使用しています。これは、次のプログラムと同等ですが、出力にはDepartment列が含まれていません。
<!-- 
Now, Launch and run both programs. The output on the top is from the program using WHERE clause; the output on the bottom is the partial output from the program using HAVING clause.  
You might be surprised to see how different these two results are. One would expect a result like the output on the top. But the output on the bottom has so many more rows, and even some numbers do not match! Let’s review the code to understand what happened. There are two columns in the SELECT clause, Position_Title and a summary function, count(*), which counts total number of rows for each position group since we specify Position_Title in the GROUP BY clause. Unlike the programs in the previous example, the expression used inside WHERE and HAVING references another column, Department, which is not in the SELECT clause. Therefore, SAS handles them differently in the two programs.  
The first program uses the WHERE clause. Since SAS processes the WHERE clause before SELECT and on a row-by-row basis, the records from Police department are selected from the data first. Then SAS counts the number of employees under each position title inside the department. For example, there is only one person who is a “CLINICAL THERAPIST III” in the Police Department. So the count is 1. We obtained the desired output.  
On the other hand, the second program uses the HAVING clause. It is equivalent to the following program but without Department column in the output:  
-->

In [23]:
proc sql;
  select Position_Title,
      Department,
      count(*) as Employees
  from phc6089.salary
  group by Position_Title
  having Department='POLICE';
quit;

Position Title,Department,Employees
ACCOUNTANT II,POLICE,1
CLINICAL THERAPIST III,POLICE,2
CROSSING GUARD,POLICE,5
CROSSING GUARD,POLICE,5
CROSSING GUARD,POLICE,5
CROSSING GUARD,POLICE,5
CROSSING GUARD,POLICE,5
CROSSING GUARD - PER AGREEMENT,POLICE,3
CROSSING GUARD - PER AGREEMENT,POLICE,3
CROSSING GUARD - PER AGREEMENT,POLICE,3


このプログラムでは、GROUP BY句のために、すべての部署の各職位における従業員数をカウントします。たとえば、「CLINICAL THERAPIST III」という職位の人は、警察と保健の部署にそれぞれ1人ずついます。そのため、この職位の合計カウントは2です。要約関数とGROUP BY列の他にSELECT句に列が追加されているため、すべての行が出力に含まれ、各職位の数が示されます。たとえば、「CLINICAL THERAPIST III」という職位の両方のレコードの「Employees」の値は2です。最後にHAVING句の条件（Department=POLICE）を評価して、出力する行を選択します。そのため、2番目のクエリからの出力には、「CLINICAL THERAPIST III」という職位タイトルの下にEmployees=2が表示されます。

これまで、HAVING句とWHERE句の違いを示す2つの例を見てきました。両者を異なる方法で処理されるため、WHERE句とHAVING句を使用する場合は、自分のニーズに最適な方を選択してください。

最後に、HAVING句のもう1つの便利な機能を確認しましょう。

<!-- 
In this program, SAS counts employee numbers on each position across all departments because of GROUP BY clause. For example, there is each one person titled “CLINICAL THERAPIST III” in POLICE department and HEALTH department. So the total count on this position is 2. Since there is an extra column in SELECT clause besides the summary function and a GROUP BY column, all rows are in the output with counts on each job position. For instance, under position title “CLINICAL THERAPIST III”, both records have 2 as value of “Employees”. At last, SAS evaluates the condition (Department=POLICE) in HAVING clause to select rows for the output. That’s why you see Employees=2 for position title “CLINICAL THERAPIST III” in the output from the second query.  
We have seen two examples that show the differences between HAVING and WHERE so far. Since SAS handles them so differently, when it comes to WHERE or HAVING, pick one that fits your needs the best.  
Last but not the least, let’s check out one more cool feature of HAVING clause.  
-->

### 例

次のプログラムでは、平均給与が全体な給与水準よりも低い部署を選択します。

<!-- 
### Example

The following program selects the departments whose average salary is lower than the overall salary level:  
-->

In [24]:
proc sql;
  select Department,
      avg(Employee_annual_salary) as Avg_salary format=dollar12.2
  from phc6089.salary
  group by Department
  having Avg_salary < (select avg(Employee_annual_salary) from phc6089.salary)
  order by Avg_salary;
quit;

Department,Avg_salary
DISABILITIES,"$36,264.00"
OEMC,"$49,116.80"
FAMILY & SUPPORT,"$53,642.00"
PUBLIC LIBRARY,"$59,030.00"
GENERAL SERVICES,"$65,600.80"
BUSINESS AFFAIRS,"$65,652.00"
CITY COUNCIL,"$66,983.00"
AVIATION,"$67,704.48"
STREETS & SAN,"$68,625.08"
LAW,"$71,082.20"


このプログラムを見ても、HAVING句までは普通でないものは何も見つからないかもしれません。HAVING句の中では、以前のように標準的な式ではなく、クエリが使用されています。

```
(select avg(Employee_annual_salary) from stat482.salary)
```

このようなクエリは、サブクエリと呼ばれます。このクエリ式は、HAVING句またはWHERE句で使用できます。この例で使用されているサブクエリは、全体の平均給与を計算するためのもので、その結果は各部門の平均給与と比較されます。その後、HAVING句の「Less than」という条件を評価し、平均給与が低い部門を選択して出力します。

プログラムを開いて実行し、クエリの結果から説明の通りに部門の情報が選択されていることを確認してください。

<!-- 
Going through this program, you may not find anything unusual until HAVING clause. Inside the clause it’s not a standard expression as before, but a query:  

```
(select avg(Employee_annual_salary) from stat482.salary)
```

Such kind of query is called subquery, inner query or nested query. You can use this query-expression in a HAVING or WHERE clause. The subquery used in this example is to calculate the overall average salary. The result is compared with average salaries of each department. Then SAS evaluates the condition “Less than” in HAVING clause to select departments who have less average salaries to output.  
Launch and run the SAS program, and review the query result. Convince yourself that the departments’ information has been selected as described.  
-->

## 複数のテーブルへのクエリ

これまでのすべての例では、単一のテーブルに問い合わせをしていました。しかし実際には、FROM句に複数のテーブルを指定することができます。一度に複数のテーブルをクエリすることで、PROC SQLはデータ操作においてさらに強力になります。

次の例では、2つのテーブルを使用します。

Survey Data (survey.sas7bdat)には以下が含まれています。

|id| Gender| GPA| SmokeCig| SATM| SATV|
|---|------|----|---------|-----|-----|
|1001| Male| 2.67| No| 700| 700|
|1002| Female| 2.98| No| 700| 500|
|1003| Female| 2.67| No| 470| 470|
|1004| Female| 3.6| No| 710| 560|
|1005| Female| 3.76| No| 600| 520|
|1006| Male| 3.86| No| 610| 720|
|1007| Male| 3.94| No| 710| 670|
|1008| Male| 2.8| Yes| 610| 580|
|1009| Male| 3.48| No| 690| 620|

Survey2 Data (survey2.sas7bdat)には以下が含まれています。

|id| Seating| DriverInfluen| Height| Weight|
|---|-------|--------------|-------|-------|
|1001| Middle| No| 68| 190|
|1002| Middle| No| 54| 110|
|1003| Middle| No| 65| 225|
|1004| Middle| No| 52| 135|
|1005| Back| No| 72| 128|
|1006| Middle| No| 70| 188|
|1007| Back| No| 70| 155|
|1008| Middle| Yes| 68| 160|
|1009| Front| No| 72| 160|

これらの2つのテーブルをまだダウンロードしていない場合は、ダウンロードしてください。libnameをファイルの保存先のディレクトリに合わせて修正してください。

### 例

次のプログラムは、2つの別々のテーブルsurveyとsurvey2から、生徒の属性情報を取得しようとしています。


<!-- 
## Querying Multiple Tables

So far, all the examples in this lesson are querying a single table. However, as matter of fact, you can specify multiple tables in the FROM clause. Querying more than more table at a time makes PROC SQL even more powerful in data manipulation.

The following examples use two tables:

Survey Data (survey.sas7bdat) contains:

ID, Gender, GPA, SmokeCigarrets, SATM, SATV

|id| Gender| GPA| SmokeCig| SATM| SATV|
|---|------|----|---------|-----|-----|
|1001| Male| 2.67| No| 700| 700|
|1002| Female| 2.98| No| 700| 500|
|1003| Female| 2.67| No| 470| 470|
|1004| Female| 3.6| No| 710| 560|
|1005| Female| 3.76| No| 600| 520|
|1006| Male| 3.86| No| 610| 720|
|1007| Male| 3.94| No| 710| 670|
|1008| Male| 2.8| Yes| 610| 580|
|1009| Male| 3.48| No| 690| 620|

Survey2 Data (survey2.sas7bdat) contains:

ID, Seating, DiveInfluence, Height, Weight

|id| Seating| DriverInfluen| Height| Weight|
|---|-------|--------------|-------|-------|
|1001| Middle| No| 68| 190|
|1002| Middle| No| 54| 110|
|1003| Middle| No| 65| 225|
|1004| Middle| No| 52| 135|
|1005| Back| No| 72| 128|
|1006| Middle| No| 70| 188|
|1007| Back| No| 70| 155|
|1008| Middle| Yes| 68| 160|
|1009| Front| No| 72| 160|

Download these two tables if you have not done so. Revise the libnameto reflect the directory that you save the files.

### Example

The following program attempts to get demographic information about students from two separate tables, survey and survey2:  
-->

In [25]:
proc sql;
  create table demo_info as
  select ID, Gender, Height, Weight
  from phc6089.survey, phc6089.survey2;
quit;


53                                                        SAS システム               2024年 6月 6日 木曜日 08時47分00秒

417        ods listing close;ods html5 (id=saspy_internal) file=_tomods1 options(bitmap_mode='inline') device=svg style=HTMLBlue;
417      ! ods graphics on / outputfmt=png;
[38;5;21mNOTE: HTML5(SASPY_INTERNAL) Bodyファイルの書き込み先: _TOMODS1[0m
418        
419        proc sql;
420          create table demo_info as
421          select ID, Gender, Height, Weight
422          from phc6089.survey, phc6089.survey2;
[38;5;21mNOTE: データファイルPHC6089.SURVEY.DATAは別なホストにネイティブな形式が使用されているか、または
      エンコーディングがセッションエンコーディングと一致していません。クロス環境データアク
       セスが使用されるため、追加のCPUリソースが必要となり、パフォーマンスが低下します。[0m
[38;5;21mNOTE: データファイルPHC6089.SURVEY2.DATAは別なホストにネイティブな形式が使用されているか、または
      エンコーディングがセッションエンコーディングと一致していません。クロス環境データアク
      セスが使用されるため、追加のCPUリソースが必要となり、パフォーマンスが低下します。[0m
[1m[38;5;9mERROR: 不確定な参照です。列IDは複数のテーブルに存在します。[0m[0m
[38;5;21mNOTE: PROC SQLはNOEXECオプションを設定し、ステートメントの構文をチェックします。[0m
423        

[1;31mERROR: 不確定な参照です。列IDは複数のテーブルに存在します。 None
[0m

コードを確認してみましょう。このSQLプロシージャでは、CREATE TABLE句を使用して、新しいテーブルをdemo_infoという名前で保存しています。その後のSELECT句は、2つのテーブルからID、gender、height、weightの各列を選択します。FROM句には、2つのテーブルの名前がリストされています。

プログラムを開いて実行します。CREATE TABLE句は出力を抑制するため、出力ウィンドウには何も表示されないはずです。一方、ログウィンドウを確認すると、"不確定な参照です。列IDは複数のテーブルに存在します" というエラーメッセージが表示されます。

ご覧のように、2つのテーブルにIDが存在し、同じ情報が含まれています。SELECT文の列が複数のテーブルに存在する場合、その列が選択されるテーブルを、下のように列名の前にテーブル名を追加して指定する必要があります。

```
Table.Column
```

そのため、前のプログラムを少し修正します。IDをsurvey.IDに変更します。これは、データsurveyの「ID」を使用することを意味します。もう1つの変更点は、テーブルの名前です。テーブルには、キーワードASを付けても付けなくても、エイリアスを付けることができます。次のプログラムでは、データsurveyにはS1、データsurvey2にはS2というエイリアスを使用しています。ご覧のとおり、永久ファイルに対しても、1レベルのエイリアスを使用することができます。これにより、指定が簡単になります！このように、IDはS1.IDとして指定することができます。


<!-- 
Let’s review the code. In this SQL procedure, we used the CREATE TABLE clause to save and name the new table as demo_info. The subsequent SELECT clause chooses ID, gender, height and weight columns from two tables. In FROM clause, two tables’ names are listed.  
Launch and run the SAS program. You should expect no result in the output window because the CREATE TABLE clause suppresses output. On the other hand, check the log window and you will find the error message: “Ambiguous reference, column ID is in more than one table”.  
As you observed two tables, ID is in both tables and contains the same information. If a column in the SELECT statement appears in multiple tables, the table it is chosen from has to be specified by adding the table’s name in front as this:  

```
Table.Column
```

So to make it right, we revise the previous program a little bit: change ID to survey.ID, which means that we use ID from survey data. The other change is the tables’ names. You can give a table an alias with or without the keyword AS after its original name. In the following program, we use S1 for survey data and S2 to survey2 data. And as you can see, it’s okay to use one level alias even for a permanent file. This makes life easier! In this way, ID can be specified as S1.ID.  
-->

In [26]:
proc sql;
  create table demo_info as
  select s1.ID, Gender, Height, Weight
  from phc6089.survey as s1, phc6089.survey2 as s2;
quit;


55                                                        SAS システム               2024年 6月 6日 木曜日 08時47分00秒

431        ods listing close;ods html5 (id=saspy_internal) file=_tomods1 options(bitmap_mode='inline') device=svg style=HTMLBlue;
431      ! ods graphics on / outputfmt=png;
[38;5;21mNOTE: HTML5(SASPY_INTERNAL) Bodyファイルの書き込み先: _TOMODS1[0m
432        


433        proc sql;
434          create table demo_info as
435          select s1.ID, Gender, Height, Weight
436          from phc6089.survey as s1, phc6089.survey2 as s2;
[38;5;21mNOTE: データファイルPHC6089.SURVEY.DATAは別なホストにネイティブな形式が使用されているか、または
      エンコーディングがセッションエンコーディングと一致していません。クロス環境データアク
       セスが使用されるため、追加のCPUリソースが必要となり、パフォーマンスが低下します。[0m
[38;5;21mNOTE: データファイルPHC6089.SURVEY2.DATAは別なホストにネイティブな形式が使用されているか、または
      エンコーディングがセッションエンコーディングと一致していません。クロス環境データアク
      セスが使用されるため、追加のCPUリソースが必要となり、パフォーマンスが低下します。[0m
[38;5;21mNOTE: このクエリの実行には最適化できないデカルト積の結合が含まれます。[0m
[38;5;21mNOTE: テーブルWORK.DEMO_INFO(行数51076、列数4)が作成されました。[0m



すべてうまくいっているようです。それではプログラムを開いて実行します。前述のように、CREATE TABLE文のため、出力はありません。ログウィンドウを確認すると、注意が必要な2つのNoteが表示されます（上記の最後の2つのNoteを参照）。

最初のNoteは、「このクエリの実行には最適化できないデカルト積の結合が含まれます。」です。デカルト積とは何でしょうか？直積とは、最初のテーブルの各行を、2番目のテーブルのすべての行と組み合わせたクエリの結果のことです。FROM句に複数のテーブルを指定しても、必要な行を選択するWHERE句を使用しない場合、デカルト積が生成されます。たとえば、次のプログラムを実行した場合：

```
PROC SQL;
Select *
from table1, table2;
```

Table1には3行、Table2にも3行あります。これらの直積は、(3*3)9行になります。

Table1  

|name| value1|
|----|-------|
|x| 1|
|y| 2|
|z| 3|

(\*)  

Table2  

|name| value2|
|----|-------|
|A| 4|
|B| 5|
|C| 6|
  
(=)

結果:

|name| value1| name| value2|
|----|-------|-----|-------|
|x| 1| A| 4|
|x| 1| B| 5|
|x| 1| C| 6|
|y| 2| A| 4|
|y| 2| B| 5|
|y| 2| C| 6|
|z| 3| A| 4|
|z| 3| B| 5|
|z| 3| C| 6|



この例のプログラムには、WHERE句がありません。そのため直積を生成し、Noteを表示しました。SurveyとSurvey2の両方とも、テーブルに226行あります。クエリの結果は、(226*226) = 51076行になるはずです。そのため、もう1つのメモ、「テーブルWORK.DEMO_INFO(行数51076、列数4)が作成されました。」が表示されました。明らかに、これは正しいとは言えません。どのようにして目的の結果を得るのでしょうか？最後の仕上げをしましょう。

<!-- 
Everything seems good. Now launch and run the SAS program. As before, there is no output because of the CREATE TABLE statement. Check the log file in which there are two notes that need your attention (see the last two notes above).  
The first is “The execution of this query involves performing one or more Cartesian product joins that can not be optimized”. What is a Cartesian product? It refers to a query result in which each row in the first table is combined with every row in the second table. If you specify multiple tables in FROM clause but do not use a WHERE clause to choose needed rows, a Cartesian product is generated. For example, if we submit the following program:  

```
PROC SQL; 
Select * 
from table1, table2;
```

Table1 has 3 rows; Table2 has 3 rows as well. Their Cartesian product contains (3*3)9 rows.  

Table1  

|name| value1|
|----|-------|
|x| 1|
|y| 2|
|z| 3|

   
\\(\times \\)  

Table2  

|name| value2|
|----|-------|
|A| 4|
|B| 5|
|C| 6|
  
\\(=\\)

Result:

|name| value1| name| value2|
|----|-------|-----|-------|
|x| 1| A| 4|
|x| 1| B| 5|
|x| 1| C| 6|
|y| 2| A| 4|
|y| 2| B| 5|
|y| 2| C| 6|
|z| 3| A| 4|
|z| 3| B| 5|
|z| 3| C| 6|

In the program for this example, there is no WHERE clause. So SAS generated a Cartesian product and gave you the note. Both Survey and Survey2 have 226 rows in the table. The query should have (226*226) = 51076 rows as the result. That’s why you got the other note, “Table Work.demo_info created, with 51076 rows and 4 columns.” Clearly, this can’t be correct. How do we get the desired result? Let’s make a final push.  
-->

### 例

次のプログラムは、2つのテーブルsurveyとsurvey2から、生徒の属性情報（ID、gender、height、weight）を選択します。


<!-- 
### Example

The following program selects the demographic information of students (ID, gender, height and weight) from two tables, survey and survey2:  
-->

In [27]:
proc sql;
  create table demo_info as
  select s1.ID, Gender, Height, Weight
  from phc6089.survey as s1, phc6089.survey2 as s2
  where s1.ID = s2.ID;
  select *
  from demo_info
  where ID < 1010;
quit;

id,Gender,Height,Weight
1001,Male,67,190
1002,Female,54,110
1003,Female,65,225
1004,Female,52,135
1005,Female,72,128
1006,Male,70,188
1007,Male,70,155
1008,Male,68,160
1009,Male,72,160


コードを確認してみましょう。クエリにWHERE句が1つ追加されただけです。WHERE句を使用して、一致するID番号を持つ行のみを選択することで、直積全体をサブセット化しています。WHERE句の列名は、同じである必要はありません。最後に、テーブルを実際に確認できるように別のクエリが追加され、出力ウィンドウにデータが表示されます。

プログラムを開いて実行し、ログウィンドウと出力を確認してください。

```
NOTE: テーブルWORK.DEMO_INFO(行数226、列数4)が作成されました。
```

ついに、目的の結果を得ることができました。クエリの結果からわかるように、これは各テーブルから2つの列を横に結合したようなものです。SASではこれも結合と呼びます。このケースでは、一致する行のみを選択したため、内部結合とも呼ばれます。このタイプの結合は、データステップのMerge Byと非常に似ていますが、計算リソースとコーディングが少なくて済みます。PROC SQLには、ここで扱った範囲を超えた、その他のタイプの結合と統合結合（行の垂直結合）があります。興味がある方は、これまでの基礎を踏まえて、自分で調べてみてください！

<!-- 
Let’s check through the code. Only one more clause has been added to the query, WHERE. We use the WHERE clause to subset the whole Cartesian product by only selecting the rows with matched ID numbers. Note that the column names in the WHERE clause do not have to be the same. At last, to be able to check the table in person, another query is added to display the data in the output window.  
Launch and run the SAS program, and review the log file and the output.  

```
NOTE: Table WORK.DEMO_INFO creates, with 226 rows and 4 columns.
```

Finally, we got what we want. As you can see from the query result, it’s like combining two columns from each table horizontally. SAS also call it join. In this particular case, since we only chose the matched rows, it’s also called the inner join. Such type of join is very similar to Merge By in the DATA step but requiring less computing resources and less coding. There are other types of join and data union (a vertical combination of rows) in PROC SQL which are beyond this lesson’s scope. If you are interested, you can explore them yourself with the foundation of this lesson!  
-->