# SAS変数と割り当てステートメント

データセットに値を読み込んだら、必ずそれらの値に対して何らかの処理をしたくなるはずです。よくあることとしては、元のデータをリサーチクエスチョンに答えられるように変更することです。データを変更する方法は2つあります。

1. 基本的な**割り当てステートメント**を使用して、すべてオブザベーションにある情報を追加します。一部の割り当てステートメントでは、プログラミングの計算を簡単にするための数多くの**SAS関数**を利用できます(平均を取得する場合など)。
2. あるいは、**if-then-else ステートメント**を使って、一部のオブザベーションにのみ情報を追加することができます。

ここでは、割り当てステートメントとSAS数値関数を使ってデータを変更する方法、および`if-then-else`ステートメントを使ってデータの一部を変更する方法を学びます。

データを変更する際、変数の値だけでなく変数の型も変更する必要がある場合があります。つまり文字型の変数を数値型に変更する必要があるかもしれない、ということで文字変数を数値に変換するためのINPUT関数についても確認しましょう。

## 割り当てステートメントの基礎
データセットのデータを変更する基本的な方法は、基本的な割り当てステートメントを使うことです。形式は必ず次のようになります。

`variable = expression;`

ここで、`variable`は任意の有効なSAS名で、`expression`は変数にその値を与えるために必要な計算です。変数は常に等号の左側に置かれ、式は右側に置かれます。そしてもちろん、ステートメントの最後にセミコロン(;)を付けます。

割り当てステートメントは変数の値を変更するものなので、割り当てステートメントについて確認する過程で、数値変数と文字変数の両方を扱います。また、計算を簡単にするためのSAS数値関数の使い方にも触れます。

### 例

このセクション全体を通して、次のデータステップで作成される一時データセットgradesのいろいろな部分を変更していきます。
<!-- 
# SAS Variables and Assignment Statements

Once you've read your data into a SAS data set, surely you want to do something with it. A common thing to do is to change the original data in some way in an attempt to answer a research question of interest to you. You can change the data in one of two ways:

1. You can use a basic **assignment statement** in which you add some information to all of the observations in the data set. Some assignment statements may take advantage of the numerous **SAS functions** that are available to make programming certain calculations easier (e.g., taking an average).
2. Alternatively, you can use an **if-then-else statement** to add some information to some but not all of the observations. In this lesson, we will learn how to use assignment statements and numeric SAS functions to change your data, and then, we will learn how to use if-then-else statements to change a subset of your data.

Modifying your data may involve not only changing the values of a particular variable, but also the type of the variable. That is, you might need to change a character variable to a numeric variable. For that reason, we'll investigate how to use the INPUT function to convert character data values to numeric values.

## Assignment Statement Basics

The fundamental method of modifying the data in a data set is by way of a basic assignment statement. Such a statement always takes the form:

variable = expression;

where variable is any valid SAS name and expression is the calculation that is necessary to give the variable its values. The variable must always appear to the left of the equal sign and the expression must always appear to the right of the equal sign. As always, the statement must end with a semicolon (;).

Because assignment statements involve changing the values of variables, in the process of learning about assignment statements we'll get practice with working with both numeric and character variables. We'll also learn how using numeric SAS functions can help to simplify some of our calculations.

### Example

Throughout this lesson, we'll work on modifying various aspects of the temporary data set grades that is created in the following DATA step:   
-->

In [1]:
data grades;
  input name $ 1-15 e1 e2 e3 e4 p1 f1;
  datalines;
Alexander Smith  78 82 86 69  97 80
John Simon       88 72 86  . 100 85
Patricia Jones   98 92 92 99  99 93
Jack Benedict    54 63 71 49  82 69
Rene Porter     100 62 88 74  98 92
;
run;
 
proc print data = grades;
  var name e1 e2 e3 e4 p1 f1;
run;

OBS,name,e1,e2,e3,e4,p1,f1
1,Alexander Smith,78,82,86,69,97,80
2,John Simon,88,72,86,.,100,85
3,Patricia Jones,98,92,92,99,99,93
4,Jack Benedict,54,63,71,49,82,69
5,Rene Porter,100,62,88,74,98,92


このデータセットには、学生の名前(name)、4回の試験の点数(e1、e2、e3、e4)、プロジェクトの点数(p1)、期末試験の点数(f1)が含まれています。  
注意点がいくつかあります。例としての都合上、ここではDATALINESステートメントを使ってデータを読み込んでいますが、INFILEステートメントを使っても動作は同じです。また簡単にするため永久データセットでなく一時データセットを作成しています。最後に各データステップの後で、PRINTプロシージャを使ってSASデータセットの全部または一部を確認できるようにしています。
<!-- 
The data set contains student names (name), each of their four exam grades (e1, e2, e3, e4), their project grade (p1), and their final exam grade (f1).  
A couple of comments. For the sake of the examples that follow, we'll use the DATALINES statement to read in the data. We could have just as easily used the INFILE statement. Additionally, for the sake of ease, we'll create temporary data sets rather than permanent ones. Finally, after each SAS DATA step, we'll use the PRINT procedure to print all or part of the resulting SAS data set for your perusal.  
-->

### 例

次のプログラムは、とてもシンプルな割り当てステートメントで、各学生の4回の試験の点数を足し合わせ、その合計を新しい数値変数「examtotal」に格納します。
<!-- 
### Example

The following SAS program illustrates a very simple assignment statement in which SAS adds up the four exam scores of each student and stores the result in a new numeric variable called examtotal.  
-->

In [2]:
data grades;
  input name $ 1-15 e1 e2 e3 e4 p1 f1;
  * add up each students four exam scores and store it in examtotal;
  * 各学生の4回の試験の点数を足し合わせ、examtotalに格納する;
  examtotal = e1 + e2 + e3 + e4;
  datalines;
Alexander Smith  78 82 86 69  97 80
John Simon       88 72 86  . 100 85
Patricia Jones   98 92 92 99  99 93
Jack Benedict    54 63 71 49  82 69
Rene Porter     100 62 88 74  98 92
;
run;
 
proc print data = grades;
  var name e1 e2 e3 e4 examtotal;
run;

OBS,name,e1,e2,e3,e4,examtotal
1,Alexander Smith,78,82,86,69,315
2,John Simon,88,72,86,.,.
3,Patricia Jones,98,92,92,99,381
4,Jack Benedict,54,63,71,49,237
5,Rene Porter,100,62,88,74,324


新しい変数名「examtotal」が等号の左側にあり、4回の試験の点数を足し合わせる式(e1+e2+e3+e4)が等号の右側にあることに注目してください。  
SASプログラムを開いて実行し、PRINTプロシージャの出力を確認して、新しい数値変数「examtotal」が確かに4回の試験の合計点であることを確認してください。また、SASがデータの一部が欠損している場合にどう処理されるかも確認してください。John Simonの3つの試験の点数を足し合わせるのではなく、SASは彼の「examtotal」に欠損値を割り当てています。よく考えれば、これは正しい処理です。そうしないと、彼の 「examtotal」が他の学生と根本的に異なるのかがわからなくなってしまいます。ここで重要なのは、SASが様々な計算を行う際にはどのように欠損値を扱うかを常に意識しておくことです。
<!-- 
Note that, as previously described, the new variable name examtotal appears to the left of the equal sign, while the expression that adds up the four exam scores (e1+e2+e3+e4) appears to the right of the equal sign.  
Launch and run the SAS program. Review the output from the PRINT procedure to convince yourself that the new numeric variable examtotal is indeed the sum of the four exam scores for each student appearing in the data set. Also note what SAS does when it is asked to calculate something when some of the data are missing. Rather than add up the three exam scores that do exist for John Simon, SAS instead assigns a missing value to his examtotal. If you think about it, that's a good thing! Otherwise, you'd have no way of knowing that his examtotal differed in some fundamental way from that of the other students. The important lesson here is to always be aware of how SAS is going to handle the missing values in your data set when you perform various calculations!   
-->

### 例

前の例では、まだ存在しない変数名を使って新しい変数をデータセットに作成しました。既存の変数名を使って、その変数の値を変更することもできます。次のプログラムは、もし教師が2回目の試験の点数「e2」を各学生で8点加算したい場合、どのように変更するかを示しています。

<!-- 
### Example
In the previous example, the assignment statement created a new variable in the data set by simply using a variable name that didn't already exist in the data set. You need not always use a new variable name. Instead, you could modify the values of a variable that already exists. The following SAS program illustrates how the instructor would modify the variable e2, say for example, if she wanted to modify the grades of the second exam by adding 8 points to each student's grade:  
 -->

In [3]:
data grades;
  input name $ 1-15 e1 e2 e3 e4 p1 f1;
  e2 = e2 + 8;  * add 8 to each student's second exam score (e2);
  * 各学生の2回目の試験の点数(e2)に8を加算する;
  datalines;
Alexander Smith  78 82 86 69  97 80
John Simon       88 72 86  . 100 85
Patricia Jones   98 92 92 99  99 93
Jack Benedict    54 63 71 49  82 69
Rene Porter     100 62 88 74  98 92
;
run;
 
proc print data = grades;
  var name e1 e2 e3 e4 p1 f1;
run;

OBS,name,e1,e2,e3,e4,p1,f1
1,Alexander Smith,78,90,86,69,97,80
2,John Simon,88,80,86,.,100,85
3,Patricia Jones,98,100,92,99,99,93
4,Jack Benedict,54,71,71,49,82,69
5,Rene Porter,100,70,88,74,98,92


変更する変数名「e2」が等号の左側に、「e2」に8を加算する算術式(e2+8)が等号の右側にあることに注目してください。一般に、変数名が等号の両側にある場合、右側の元の値が式を評価するために使われます。次に、式の結果が等号の左側の変数に割り当てられます。\  
プログラムを開いて実行し、PRINTプロシージャの出力を確認して、数値変数「e2」の値が元の値より8高いことを確かめてください。

<!-- 
Note again that the name of the variable being modified (e2) appears to the left of the equal sign, while the arithmetic expression that tells SAS to add 8 to the second exam score (e2+8) appears to the right of the equal sign. In general, when a variable name appears on both sides of the equal sign, the original value on the right side is used to evaluate the expression. The result of the expression is then assigned to the variable on the left side of the equal sign.
Launch and run the SAS program. Review the output from the print procedure to convince yourself that the values of the numeric variable e2 are indeed eight points higher than the values in the original data set.  
-->

## 算術演算子を使った算術計算

これまでは変数の足し算しかしていませんでしたが、引き算、掛け算、割り算、べき乗もできます。ただし、SASが認識する記号を使う必要があります。

| 操作 | 記号 | 代入文 | アクション |
|-----------|--------|----------------------|--------------|
| 加算 | + | *a* = *b* + *c* ; | *b*と*c*を加算 |
| 減算 | - | *a* = *b* - *c* ; | *b*から*c*を減算 |
| 乗算 | * | *a* = *b* * *c* ; | *b*と*c*を乗算 |
| 除算 | / | *a* = *b* / *c* ; | *b*を*c*で除算 |
| 指数 | ** | *a* = *b* ** *c* ; | *b*を*c*乗する |
| 負の接頭辞 | - | *a* = - *b* ; | *b*の負値をとる |

他のプログラミング言語と同様、1つの割り当てステートメントで複数の演算を行うことができます。演算の順序は通常の数学の式と同じです。

- べき乗が最初に実行され、次に乗算と除算、最後に加算と減算
- 加算のみ、減算のみ、または加算と減算が同じ式内にある場合、左から右へ実行されます
- 乗算のみ、除算のみ、または乗算と除算が同じ式内にある場合、左から右へ実行されます  
- べき乗が複数ある場合、右から左へ実行されます
- かっこ内の演算が最初に実行されます

最後のものが特に役に立つと思います。かっこを使って最初に計算したい部分を明示すれば、他のルールをあまり気にする必要がありません。次の2つの例を見てみましょう。


<!-- 
## Arithmetic Calculations Using Arithmetic Operators

All we've done so far is add variables together. Of course, we could also subtract, multiply, divide or exponentiate variables. We just have to make sure that we use the symbols that SAS recognizes. They are:

| Operation | Symbol | Assignment Statement | Action Taken |
|-----------|--------|----------------------|--------------|
| addition | + |     _a_ = _b_ \+ _c_ ;     | add _b_ and _c_ |
| subtraction | - |  _a_ = _b_ \- _c_ ;     | subtract _c_ from _b_ |
| multiplication | * |  _a_ = _b_ * _c_ ;   | multiply _b_ and _c_ |
| division | / |  _a_ = _b_ / _c_ ;         | divide _b_ by _c_ |
| exponentiation | ** |  _a_ = _b_ ** _c_ ; |raise _b_ to the power of _c_ |
| negative prefix | - | | _a_ = - _b_ ;     |take the negative of _b_ |

As is the case in other programming languages, you can perform more than one operation in an assignment statement. The operations are performed as they are for any mathematical expression, namely:

* exponentiation is performed first, then multiplication and division, and finally addition and subtraction
* if multiple instances of addition, multiple instances of subtraction, or addition and subtraction appear together in the same expression, the operations are performed from left to right
* if multiple instances of multiplication, multiple instances of division, or multiplication and division appear together in the same expression, the operations are performed from left to right
* if multiple instances of exponentiation occur in the same expression, the operations are performed right to left
* operations in parentheses are performed first

It's that last bullet that I think is the most helpful to know. If you use parentheses to specifically tell SAS what you want calculated first, then you needn't worry as much about the other rules. Let's take a look at two examples.
-->


### 例

次の例は、標準的な計算の順序を示す計算を含んでいます。ある統計学の教師が、試験の平均点に0.6、プロジェクト点数に0.2、期末試験に0.2をそれぞれ重み付けして最終成績を計算するとします。次のプログラムでは、教師が(間違って)学生の最終成績を計算しています。
<!-- 
### Example

The following example contains a calculation that illustrates the standard order of operations. Suppose a statistics instructor calculates the final grade by weighting the average exam score by 0.6, the project score by 0.2, and the final exam by 0.2. The following SAS program illustrates how the instructor (incorrectly) calculates the students' final grades:  
-->

In [4]:
data grades;
  input name $ 1-15 e1 e2 e3 e4 p1 f1;
  final = 0.6*e1+e2+e3+e4/4 + 0.2*p1 + 0.2*f1;
  datalines;
Alexander Smith  78 82 86 69  97 80
John Simon       88 72 86  . 100 85
Patricia Jones   98 92 92 99  99 93
Jack Benedict    54 63 71 49  82 69
Rene Porter     100 62 88 74  98 92
;
run;
 
proc print data = grades;
  var name e1 e2 e3 e4 p1 f1 final;
run;

OBS,name,e1,e2,e3,e4,p1,f1,final
1,Alexander Smith,78,82,86,69,97,80,267.45
2,John Simon,88,72,86,.,100,85,.
3,Patricia Jones,98,92,92,99,99,93,305.95
4,Jack Benedict,54,63,71,49,82,69,208.85
5,Rene Porter,100,62,88,74,98,92,266.50


まあ、教師は統計学に専念し、数学はやめたほうがいいかもしれません。割り当てステートメントを見ると、教師は4回の試験の点数を足して4で割り、その結果に0.6を掛けることで試験の平均点を求めようとしているのがわかります。しかし、SASはそうはしていません。SASプログラムを実行し、出力を確認して、Alexander Smithの場合にSASが何をしているのか確認してみてください。まだわからない場合は、計算の順序のルールをもう一度確認してください。ルールによると、SASは最初に次のことを行います。

* Alexander の1回目の試験の点数78に0.6を掛けて46.8を得る
* Alexander の4回目の試験の点数69を4で割って17.25を得る  
* Alexander のプロジェクト点数97に0.2を掛けて19.4を得る
* Alexander の期末試験の点数80に0.2を掛けて16.0を得る

次に、SASはすべての加算を行います。46.8 + 82 + 86 + 17.25 + 19.4 + 16.0 = 267.45となり、これがAlexanderの最終成績になります。たぶんAlexanderはこの点数を望むかもしれませんが、根本的に間違っています。かっこを利用して、統計学の教師を正しい方向に導いてみましょう。

<!-- 
Well, okay, so the instructor should stick to statistics and not mathematics. As you can see in the assignment statement, the instructor is attempting to tell SAS to average the four exam scores by adding them up and dividing by 4, and then multiplying the result by 0.6. Let's see what SAS does instead. Launch and run the SAS program, and review the output to see if you can figure out what SAS did, say, for the first student Alexander Smith. If you're still not sure, review the rules for the order of the operations again. The rules tell us that SAS first:  

* takes Alexander's first exam score 78 and multiples it by 0.6 to get 46.8
* takes Alexander's fourth exam score 69 and divides it by 4 to get 17.25
* takes Alexander's project score 97 and multiplies it by 0.2 to get 19.4
* takes Alexander's final exam score 80 and multiplies it by 0.2 to get 16.0

Then, SAS performs all of the addition:`46.8 + 82 + 86 + 17.25 + 19.4 + 16.0`  
to get his final score of 267.45. Now, maybe that's a final score that Alexander wants, but it is still fundamentally wrong. Let's see if we can help set the statistics instructor straight by taking advantage of that last rule that says operations in parentheses are performed first.  
-->

### 例

次の例は、標準的な順序による計算を含んでいます。ある統計学の教師が、試験の平均点に0.6、プロジェクト点数に0.2、期末試験に0.2をそれぞれ重み付けして最終成績を計算するとします。次のプログラムは、教師が(正しく)学生の最終成績を計算する方法を示しています。

<!-- 
### Example

The following example contains a calculation that illustrates the standard order of operations. Suppose a statistics instructor calculates the final grade by weighting the average exam score by 0.6, the project score by 0.2, and the final exam by 0.2. The following SAS program illustrates how the instructor (correctly) calculates the students' final grades:  
-->

In [5]:
data grades;
  input name $ 1-15 e1 e2 e3 e4 p1 f1;
  final = 0.6*((e1+e2+e3+e4)/4) + 0.2*p1 + 0.2*f1;
  datalines;
Alexander Smith  78 82 86 69  97 80
John Simon       88 72 86  . 100 85
Patricia Jones   98 92 92 99  99 93
Jack Benedict    54 63 71 49  82 69
Rene Porter     100 62 88 74  98 92
;
run;
 
proc print data = grades;
  var name e1 e2 e3 e4 p1 f1 final;
run;

OBS,name,e1,e2,e3,e4,p1,f1,final
1,Alexander Smith,78,82,86,69,97,80,82.65
2,John Simon,88,72,86,.,100,85,.
3,Patricia Jones,98,92,92,99,99,93,95.55
4,Jack Benedict,54,63,71,49,82,69,65.75
5,Rene Porter,100,62,88,74,98,92,86.60


Alexander の最終成績の計算を再度見てみましょう。`final`の割り当てステートメントでは、SASに次のことを指示しています。

* まずAlexanderの4回の試験の点数(78、82、86、69)を足して315を得る  
* その合計315を4で割り、試験の平均点78.75を得る
* その平均点78.75に0.6を掛けて47.25を得る
* Alexanderのプロジェクト点数97に0.2を掛けて19.4を得る
* Alexanderの期末試験の点数80に0.2を掛けて16.0を得る  

次に、SASは最後の3つの項目を足し合わせます。
```
47.25 + 19.4 + 16.0 = 82.65
```
これがAlexanderの最終成績になります。そうですね、申し訳ありませんAlexander。
SASプログラムを開いて実行し、PRINTプロシージャの出力を確認して、最終成績が教師の意図どおりに計算されていることを確認してください。  
再度にはなりますが、John Simonの最終成績が欠損となっている点には注意してください。 
前の例では、4つの試験の点数を足して4で割ることで平均点を計算しましたが、SASの数多くある関数の1つであるMEAN関数を使うこともできます。

<!-- 
Let's dissect the calculation of Alexander's final score again. The assignment statement for final tells SAS:  

* to first add Alexander's four exam scores (78, 82, 86, 69) to get 315
* and then divide that total 315 by 4 to get an average exam score of 78.75
* and then multiply the average exam score 78.75 by 0.6 to get 47.25
* and then take Alexander's project score 97 and multiply it by 0.2 to get 19.4
* and then take Alexander's final exam score 80 and multiply it by 0.2 to get 16.0

Then, SAS performs the addition of the last three items:  
```    
47.25 + 19.4 + 16.0
```

to get his final score of 82.65. There, that sounds much better. Sorry, Alexander.  
Launch and run the SAS program to see how we did. Review the output from the print procedure to convince yourself that the final grades have been calculated as the instructor wishes. By the way, note again that SAS assigns a missing value to the final grade for John Simon.  
In this last example, we calculated the students' average exam scores by adding up their four exam grades and dividing by 4. We could have instead taken advantage of one of the many numeric functions that are available in SAS, namely that of the MEAN function.  
 -->

## 数値関数

他のプログラミング言語(C++やS-Plusなど)と同様に、SAS関数はプログラムされたルーチンで、1つ以上の引数から計算された値を返します。SAS関数の標準的な形式は次のとおりです。

`functionname(argument1, argument2,…);`

例えば、変数a、b、cを足し合わせてその結果を変数dに割り当てる場合、SASの関数SUMを使った正しい割り当てステートメントの形式は次のようになります。

`d = sum(a, b, c) ;`

この場合、sumが関数名で、dが関数SUMの結果を割り当てる対象の変数です。そして、a、b、cが関数の引数になります。一部の関数は特定の数の引数を必要とし、他の関数(SUMなど)では任意の数の引数を取ることができます。また、引数を必要としない関数もあります。次の例で示すように、引数には変数名、定数、または式を使うこともできます。

SASには、算術、金融、統計、確率の関数があります。これらの関数をすべて詳しく見ていくことはできませんが、いくつかの例を見ていきましょう。


<!-- 
## Numeric Functions

Just as is the case for other programming languages, such as C++ or S-Plus, a SAS function is a pre-programmed routine that returns a value computed from one or more arguments. The standard form of any SAS function is:

`functionname(argument1, argument2,…);`

For example, if we want to add three variables, a, b and c, using the SAS function SUM and assign the resulting value to a variable named d, the correct form of our assignment statement is:

`d = sum(a, b, c) ;`

In this case, sum is the name of the function, d is the target variable to which the result of the SUM function is assigned, and a, b, and c are the function's arguments. Some functions require a specific number of arguments, whereas other functions, such as SUM, can contain any number of arguments. Some functions require no arguments. As you'll see in the examples that follow, the arguments can be variable names, constants, or even expressions.

SAS offers arithmetic, financial, statistical and probability functions. There are far too many of these functions to explore them all in detail, but let's take a look at some examples.
-->

### 例

前の例では、4回の試験の点数を足して4で割ることで平均点を計算しました。代わりにMEAN関数を使うこともできます。次のプログラムは、自分で定義する方法と MEAN関数の2つの方法で平均点を計算する方法を示しています。

<!-- 
### Example

In the previous example, we calculated students' average exam scores by adding up their four exam grades and dividing by 4. Alternatively, we could use the MEAN function. The following SAS program illustrates the calculation of the average exam scores in two ways — by definition and by using the MEAN function:  
-->

In [6]:
data grades;
  input name $ 1-15 e1 e2 e3 e4 p1 f1;
  * calculate the average by definition;
  * 定義に従って平均を計算する;
  avg1 = (e1+e2+e3+e4)/4;
  * calculate the average using the mean function;
  * MEAN関数を使って平均を計算する;  
  avg2 = mean(e1,e2,e3,e4);
    datalines;
Alexander Smith  78 82 86 69  97 80
John Simon       88 72 86  . 100 85
Patricia Jones   98 92 92 99  99 93
Jack Benedict    54 63 71 49  82 69
Rene Porter     100 62 88 74  98 92
;
run;
 
proc print data = grades;
  var name e1 e2 e3 e4 avg1 avg2;
run;

OBS,name,e1,e2,e3,e4,avg1,avg2
1,Alexander Smith,78,82,86,69,78.75,78.75
2,John Simon,88,72,86,.,.,82.0
3,Patricia Jones,98,92,92,99,95.25,95.25
4,Jack Benedict,54,63,71,49,59.25,59.25
5,Rene Porter,100,62,88,74,81.00,81.0


プログラムを実行し、PRINTプロシージャの出力を確認すると、2つの平均点算出方法で同じ結果になることがわかります。  
おっと!何が起こったのでしょうか?MEAN関数を使って平均点を計算した場合、John Simonの平均点が82と表示されていますが、定義を使った場合は欠損値になっています。結果を見ると、MEAN関数を使って平均を計算する場合、SASは欠損値を無視し、利用可能な値から平均を計算することがわかります。  

どちらの方法が適切かについて、一般的な言明はできません。状況とプログラマーの意図次第です。ここで重要なのは、SASが様々な計算方法でどのように欠損値を扱うかを知ることです。このコースですべての可能な計算や関数を扱うことはできません。ですので、典型的ないくつかのオブザベーションで計算をチェックし、SASプログラミングが意図した通りに動作することを確認することを、良いプログラミングの習慣に加えるとよいでしょう。


SASヘルプおよびドキュメンテーション(「By Category」の下の「Functions」)を参照すれば、SASに組み込まれているすべての数値関数を確認できますが、以下で統計解析で役立つ一般的な数値関数をいくつか紹介しておきます。

| 一般的な関数 | 例 |
|--------------|------|
| INT: 数値の整数部分 | a = int(x); |
| ABS: 引数の絶対値 | a = abs(x); |  
| SQRT: 引数の平方根 | a = sqrt(x); |
| MIN: 引数の最小値 | a = min(x, y, z); |
| MAX: 引数の最大値 | a = max(x, y, z); |
| SUM: 引数の和 | a = sum(x, y, z); |
| MEAN: 引数の平均 | a = mean(x, y, z); |
| ROUND: 指定された単位で引数を丸める | a = round(x, 1); |
| LOG: 引数の自然対数(底eの対数) | a = log(x); |
| LAG: 前のオブザベーションでの引数の値 | a = lag(x); |
| DIF: 現在のオブザベーションと前のオブザベーションでの引数の値の差 | a = dif(x); |
| N: 引数の欠損値でない値の数 | a = n(x); |
| NMISS: 引数の欠損値の数 | a = nmiss(x); |

私はINT関数を何度か使ったことがあります。例えば、この地域のエリアコードは814です。電話番号が812341230のように数値で格納されている場合、INT関数を使ってエリアコードを抽出することができます。INT関数のこの使い方の例を見てみましょう。  
INT関数は数値の最初の何桁かだけが必要なときに使うことがあります。例えばPennsylvaniaの地域コードが814でその地域の電話番号が8142341230なら、INT関数により電話番号から地域コードを得ることができます。このような使い方の例を見てみましょう。  

<!-- 
Launch and run the SAS program. Review the output from the PRINT procedure to convince yourself that the two methods of calculating the average exam scores do indeed yield the same results:  
Oooops! What happened? SAS reports that the average exam score for John Simon is 82 when the average is calculated using the MEAN function, but reports a missing value when the average is calculated using the definition. If you study the results, you'll soon figure out that when calculating an average using the MEAN function, SAS ignores the missing values and goes ahead and calculates the average based on the available values.  
We can't really make some all-conclusive statement about which method is more appropriate, as it really depends on the situation and the intent of the programmer. Instead, the (very) important lesson here is to know how missing values are handled for the various methods that are available in SAS! We can't possibly address all of the possible calculations and functions in this course. So ... you would be wise to always check your calculations out on a few representative observations to make sure that your SAS programming is doing exactly as you intended. This is another one of those good programming practices to jot down.  
Although you can refer to SAS Help and Documentation (under "functions, by category") for a full accounting of the built-in numeric functions that are available in SAS, here is a list of just some of the numeric functions that can be helpful when performing statistical analyses:  

| ***Common Functions*** | ***Example*** |
|--------------|------|
| **INT**: the integer portion of a numeric value | a = int(x); |
| **ABS**: the absolute value of the argument | a = abs(x); |  
| **SQRT**: the square root of the argument | a = sqrt(x); |
| **MIN**: the minimum value of the arguments | a = min(x, y, z); |
| **MAX**: the maximum value of the arguments | a = max(x, y, z); |
| **SUM**: the sum of the arguments | a = sum(x, y, z); |
| **MEAN**: the mean of the arguments | a = mean(x, y, z); |
| **ROUND**: round the argument to the specified unit | a = round(x, 1); |
| **LOG**: the log (base *e*) of the argument | a = log(x); |
| **LAG**: the value of the argument in the previous observation | a = lag(x); |
| **DIF**: the difference between the values of the argument in the current and previous observations| a = dif(x); |
| **N**: the number of non-missing values of the argument | a = n(x); |
| **NMISS**: the number of missing values of the argument | a = nmiss(x); |

I have used the INT function a number of times when dealing with numbers whose first few digits contain some additional information that I need. For example, the area code in this part of Pennsylvania is 814. If I have phone numbers that are stored as numbers, say, as 8142341230, then I can use the INT function to extract the area code from the number. Let's take a look at an example of this use of the INT function.
-->

### 例

次のプログラムは、INT関数を使って10桁の電話番号から地域コードを抽出する方法を示しています。

<!-- 
### Example

The following SAS program uses the INT function to extract the area codes from a set of ten-digit telephone numbers:  
-->

In [7]:
data grades;
  input name $ 1-15 phone e1 e2 e3 e4 p1 f1;
  areacode = int(phone/10000000);
  datalines;
Alexander Smith 8145551212  78 82 86 69  97 80
John Simon      8145562314  88 72 86  . 100 85
Patricia Jones  7175559999  98 92 92 99  99 93
Jack Benedict   5705551111  54 63 71 49  82 69
Rene Porter     8145542323 100 62 88 74  98 92
;
run;
 
proc print data = grades;
  var name phone areacode;
run;

OBS,name,phone,areacode
1,Alexander Smith,8145551212,814
2,John Simon,8145562314,814
3,Patricia Jones,7175559999,717
4,Jack Benedict,5705551111,570
5,Rene Porter,8145542323,814


要するにINT関数はかっこ内の式の整数部分を返します。したがって電話番号が8145562314の場合、int(phone/10000000)はint(814.5562314)となり、意図するとおり地域コード814になります。プログラムを開いて実行し、PRINTプロシージャの出力を確認して、地域コードが正しく計算されていることを確かめてください。

<!-- 
In short, the INT function returns the integer part of the expression contained within parentheses. So, if the phone number is 8145562314, then int(phone/10000000) becomes int(814.5562314) which becomes, as claimed, the area code 814. Now, launch and run the SAS program, and review the output from the PRINT procedure to convince yourself that the area codes are calculated as claimed.  
-->

### 例

SASでは関数をネストすることもできます(他のほとんどのプログラミング言語と同様)。つまり、関数の中で別の関数を計算することができます。関数をネストする場合、SASは内側の関数から順に実行します。つまり、最も内側の関数のアクションを最初に実行し、その結果を次の関数の引数として使用し、以下同様に実行していきます。引数の要件を満たしていれば、任意の関数をネストできます。次のプログラムは、試験の平均点を最近接の単位に丸める際に、関数をネストしている例を示しています。
<!-- 
### Example

One really cool thing is that you can nest functions in SAS (as you can in most programming languages). That is, you can compute a function within another function. When you nest functions, SAS works from the inside out. That is, SAS performs the action in the innermost function first. It uses the result of that function as the argument of the next function, and so on. You can nest any function as long as the function that is used as the argument meets the requirements for the argument.The following SAS program illustrates nested functions when it rounds the students' exam average to the nearest unit:  
-->

In [8]:
data grades;
  input name $ 1-15 e1 e2 e3 e4 p1 f1;
  *calculate the average using the mean function and then round it to the nearest digit;
  *MEAN関数で平均を計算し、その結果を最近接の整数に丸める;
  avg = round(mean(e1,e2,e3,e4),1);
  datalines;
Alexander Smith   78 82 86 69  97 80
John Simon        88 72 86  . 100 85
Patricia Jones    98 92 92 99  99 93
Jack Benedict     54 63 71 49  82 69
Rene Porter      100 62 88 74  98 92
;
run;
 
proc print data = grades;
  var name e1 e2 e3 e4 avg;
run;

OBS,name,e1,e2,e3,e4,avg
1,Alexander Smith,78,82,86,69,79
2,John Simon,88,72,86,.,82
3,Patricia Jones,98,92,92,99,95
4,Jack Benedict,54,63,71,49,59
5,Rene Porter,100,62,88,74,81


例えば、Alexanderの4回の試験の平均は78.75です(78、82、86、69を足して4で割ったもの)。そのため、avgを計算する際に78.75がROUND関数の引数となり、丸め単位を1で丸められて79になります。プログラムを開いて実行し、PRINTプロシージャの出力を確認して、試験の平均が意図のとおりに丸められていることを確かめてください。
<!-- 
For example, the average of Alexander's four exams is 78.75 (the sum of 78, 82, 86, and 69 all divided by 4). Thus, in calculating avg for Alexander, 78.75 becomes the argument for the ROUND function. That is, 78.75 is rounded to the nearest one unit to get 79. Launch and run the SAS program, and review the output from the PRINT procedure to convince yourself that the exam averages avg are rounded as claimed.  
 -->

## 文字変数の割り当て

これまでの例は数値変数についてのみでした。次にデータセットに新しい文字変数を追加したり、既存の文字変数の値を変更する方法を見ていきましょう。データの入出力では、INPUTステートメントで変数名の後にドル記号($)を付けることで、文字変数の値を読み込む方法を学びました。ここでは割り当てステートメントを使って文字変数を更新したり(または新しい文字変数を作成したり)します。

<!-- 
## Assigning Character Variables

So far, all of our examples have pertained to numeric variables. Now, let's take a look at adding a new character variable to your data set or modifying an existing characteric variable in your data set. In the previous lessons, we learned how to read the values of a character variable by putting a dollar sign (\$) after the variable's name in the INPUT statement. Now, you can update a character variable (or create a new character variable!) by specifying the variable's values in an assignment statement.
 -->

### 例

データセットに新しい文字変数を作成する際には、ほとんどの場合、特定の条件に基づいて値を割り当てたいでしょう。例えば、教師が最終成績に基づいて、学生の「合格」または「不合格」状況を示す文字変数「status」を作成したいとします。65点未満は不合格、65点以上は合格とみなすとします。この場合、if-then-elseステートメントを使う必要があります。if-then-elseステートメントの詳細は後で扱いますが、ここでは基本的な考え方がわかるはずです。次のSASプログラムは、割り当てステートメントとif-then-elseステートメントを組み合わせて、新しい文字変数「status」を作成する例を示しています。

<!-- 
### Example

When creating a new character variable in a data set, most often you will want to assign the values based on certain conditions. For example, suppose an instructor wants to create a character variable called status which indicates whether a student "passed" or "failed" based on their overall final grade. A grade below 65, say, might be considered a failing grade, while a grade of 65 or higher might be considered a passing grade. In this case, we would need to make use of an if-then-else statement. We'll learn more about this kind of statement in a later section, but you'll get the basic idea here. The following SAS program illustrates the creation of a new character variable called status using an assignment statement in conjunction with an if-then-else statement:  
 -->

In [9]:
data grades;
  input name $ 1-15 e1 e2 e3 e4 p1 f1;
  * calculate the average using the mean function;
  * MEAN関数で平均を計算する;
  avg = mean(e1,e2,e3,e4); 
  * if the average is less than 65 indicate failed, otherwise indicate passed;
  * 平均が65未満なら不合格、それ以外は合格を示す;  
  if (avg < 65) then status = 'Failed';
  else status = 'Passed';
  datalines;
Alexander Smith  78 82 86 69  97 80
John Simon       88 72 86  . 100 85
Patricia Jones   98 92 92 99  99 93
Jack Benedict    54 63 71 49  82 69
Rene Porter     100 62 88 74  98 92
;
run;
 
proc print data = grades;
  var name e1 e2 e3 e4 avg status;
run;

OBS,name,e1,e2,e3,e4,avg,status
1,Alexander Smith,78,82,86,69,78.75,Passed
2,John Simon,88,72,86,.,82.0,Passed
3,Patricia Jones,98,92,92,99,95.25,Passed
4,Jack Benedict,54,63,71,49,59.25,Failed
5,Rene Porter,100,62,88,74,81.0,Passed


SASプログラムを実行し、PRINTプロシージャの出力を確認すると、文字変数「status」の値が正しく割り当てられていることがわかります。文字変数の値を割り当てステートメントで指定する際は、値を引用符で囲む必要があることに注意してください。  

* 単引用符と二重引用符のどちらを使ってもかまいません。上のプログラムの単引用符を二重引用符に変更して再実行すれば、文字の値が同様に割り当てられることを確認できます。


<!-- 
Launch and run the SAS program. Review the output from the PRINT procedure to convince yourself that the values of the character variable status have been assigned correctly. As you can see, to specify a character variable's value using an assignment statement, you enclose the value in quotes. Some comments:  

* You can use either single quotes or double quotes. Change the single quotes in the above program to double quotes, and re-run the SAS program to convince yourself that the character values are similarly assigned.
* You can use either single quotes or double quotes. Change the single quotes in the above program to double quotes, and re-run the SAS program to convince yourself that the character values are similarly assigned.
-->

## データの変換

売上収益を計算するために価格と販売数量が必要だと言われたとしましょう。かなり簡単ですね。価格と販売数量がデータセットで数値変数として格納されていれば、次のような割り当てステートメントを使えばよいでしょう。

`sales = price * units;`  

しかし、もし価格と販売数量が文字変数として格納されている場合はどうでしょうか。そうすると、文字変数の価格と販売数量を掛け合わせるのはおかしなことになってしまいます。その場合、文字変数の価格と販売数量を最初に数値変数に変換する必要があります。SASがそれをどのように助けてくれるかが、このセクションのテーマです。具体的には、文字値を数値に変換するINPUT関数について扱います。

実際のところ、SASはかなりスマートなアプリケーションです。文字変数に対して、数値変数にのみ適用できる操作を試みると、SASは自動的にその文字変数を数値に変換しようとします。しかし、このような怠惰なアプローチを取ると、期待したようには動作しないことがあります。そのため、このレッスンの結論となりますが、常に自分でINPUT関数を使ってデータ型の変換を行うことが最善の方法であることがわかるはずです。

<!-- 
## Converting Data

Suppose you are asked to calculate sales income using the price and the number of units sold. Pretty straightforward, eh? As long as price and units are stored in your data set as numeric variables, then you could just use the assignment statement:

`sales = price * units;`

It may be the case, however, that price and units are instead stored as character variables. Then, you can imagine it being a little odd trying to multiply price by units. In that case, the character variables price and units first need to be converted to numeric variables price and units. How SAS helps us do that is the subject of this section. To be specific, we'll learn how the INPUT function converts character values to numeric values.

The reality though is that SAS is a pretty smart application. If you try to do something to a character variable that should only be done to a numeric variable, SAS automatically tries first to convert the character variable to a numeric variable for you. The problem with taking this lazy person's approach is that it doesn't always work the way you'd hoped. That's why, by the end of our discussion, you'll appreciate that the moral of the story is that it is always best for you to perform the conversions yourself using the INPUT function.
-->

### 例

次のプログラムでは、SASが自動的に文字から数値への変換を試み、算術演算を実行できるようにしています。

<!-- 
### Example

The following SAS program illustrates how SAS tries to perform an automatic character-to-numeric conversion of standtest and e1, e2, e3, and e4 so that arithmetic operations can be performed on them:  
-->

In [10]:
data grades;
  input name $ 1-15 e1 $ e2 $ e3 $ e4 $ standtest $;
  avg = round(mean(e1,e2,e3,e4),1); 
  std = standtest/4;
  datalines;
Alexander Smith   78 82 86 69   1,210
John Simon        88 72 86  .     990
Patricia Jones    98 92 92 99   1,010
Jack Benedict     54 63 71 49     875
Rene Porter      100 62 88 74   1,180
;
run;


23                                                        SAS システム               2024年 6月 6日 木曜日 07時40分00秒

255        ods listing close;ods html5 (id=saspy_internal) file=_tomods1 options(bitmap_mode='inline') device=svg style=HTMLBlue;
255      ! ods graphics on / outputfmt=png;
256        
257        options notes ;
258        data grades;
259          input name $ 1-15 e1 $ e2 $ e3 $ e4 $ standtest $;
260          avg = round(mean(e1,e2,e3,e4),1);
261          std = standtest/4;
262          datalines;

[38;5;21mNOTE: 以下の箇所で文字値を数値に変換しました。(行:カラム)
      260:20   260:23   260:26   260:29   261:9    [0m
[38;5;21mNOTE: 無効な数値データstandtest='1,210'が行 261 カラム 9にあります。[0m
RULE:      ----+----1----+----2----+----3----+----4----+----5----+----6----+----7----+----8----+----9----+----0                     
263        Alexander Smith   78 82 86 69   1,210
name=Alexander Smith e1=78 e2=82 e3=86 e4=69 standtest=1,210 avg=79 std=. _ERROR_=1 _N_=1
[38;5;21mNOTE: 無効な数値データstandtest='1,010'が行 261 カラ

最初に、なぜかデータセットのすべてのデータが文字データとして読み込まれていることに注目してください。つまり、試験の点数(e1、e2、e3、e4)と標準化テストの点数(standtest)も文字変数として格納されています。次に、SASが試験点数の平均(avg)を計算する際、e1、e2、e3、e4を数値変数に変換しようと試みます。同様に、新しい標準化テストの点数(std)を計算する際、SASは「standtest」を数値変数に変換しようと試みます。それがうまくいったかどうか見てみましょう。

プログラムを開いて実行し、出力ウィンドウを確認する前に、ログウィンドウを確認してください。上のようなメッセージが表示されているはずです。

最初のNOTEは、SASが自動的に文字から数値への変換を行ったことを警告するための標準的なメッセージです。次に、「standtest」の値1,210、1,010、1,180の無効な数値データに関する3つのNOTEが表示されます。これらの数値にカンマが入っているため、SASが混乱しているのです。一般に、自動変換では、標準的な数値(0、1、...、9の数字、小数点、プラス記号やマイナス記号以外の文字を含む)に準拠しない文字値は、すべて数値の欠損値に変換されてしまいます。そのため、5番目のNOTEで欠損値が生成されたことが通知されています。結果を出力すると以下のようになります。

<!-- 
Okay, first note that for some crazy reason all of the data in the data set have been read in as character data. That is, even the exam scores (e1, e2, e3, e4) and the standardized test scores (standtest) are stored as character variables. Then, when SAS goes to calculate the average exam score (avg), SAS first attempts to convert e1, e2, e3, and e4 to numeric variables. Likewise, when SAS goes to calculate a new standardized test score (std), SAS first attempts to convert standtest to a numeric variable. Let's see how it does. Launch and run the SAS program, and before looking at the output window, take a look at the log window. You should see something that looks like the log shown above:  
The first NOTE that you see is a standard message that SAS prints in the log to warn you that it performed an automatic character-to-numeric conversion on your behalf. Then, you see three NOTE about invalid numeric data concerning the standtest values 1,210, 1,010, and 1,180. In case you haven't figured it out yourself, it's the commas in those numbers that is throwing SAS for a loop. In general, the automatic conversion produces a numeric missing value from any character value that does not conform to standard numeric values (containing only digits 0, 1, ..., 9, a decimal point, and plus or minus signs). That's why that fifth NOTE is there about missing values being generated. The output itself:  
-->

In [11]:
proc print data = grades;
run;

OBS,name,e1,e2,e3,e4,standtest,avg,std
1,Alexander Smith,78,82,86,69.0,1210,79,.
2,John Simon,88,72,86,,990,82,247.50
3,Patricia Jones,98,92,92,99.0,1010,95,.
4,Jack Benedict,54,63,71,49.0,875,59,218.75
5,Rene Porter,100,62,88,74.0,1180,81,.


自動変換の最終的な結果がわかります。「avg」の計算は問題なく行われましたが、e1、e2、e3、e4には標準的な数値が含まれていたからです。一方、「std」の計算は「standtest」に標準的でない数値が含まれていたため失敗しました。文字から数値への変換を自分で制御することにしましょう。

<!-- 
shows the end result of the attempted automatic conversion. The calculation of avg went off without a hitch because e1, e2, e3, and e4 contain standard numeric values, whereas the calculation of std did not because standtest contains nonstandard numeric values. Let's take this character-to-numeric conversion into our own hands.  
-->

### 例 

次のプログラムは、INPUT関数を使って文字変数「standtest」を明示的に数値変数に変換し、算術演算を行う例を示しています。

<!-- 
### Example

The following SAS program illustrates the use of the INPUT function to convert the character variable standtest to a numeric variable explicitly so that an arithmetic operation can be performed on it:  
-->

In [12]:
data grades;
  input name $ 1-15 e1 $ e2 $ e3 $ e4 $ standtest $;
  std = input(standtest,comma5.)/4;
  datalines;
Alexander Smith   78 82 86 69   1,210
John Simon        88 72 86  .     990
Patricia Jones    98 92 92 99   1,010
Jack Benedict     54 63 71 49     875
Rene Porter      100 62 88 74   1,180
;
run;
 
proc print data = grades;
  var name standtest std;
run;

OBS,name,standtest,std
1,Alexander Smith,1210,302.5
2,John Simon,990,247.5
3,Patricia Jones,1010,252.5
4,Jack Benedict,875,218.75
5,Rene Porter,1180,295.0


「std」の計算方法と、前の例での計算方法の唯一の違いは、「standtest」がここではINPUT関数に渡されていることです。INPUT関数の一般的な形式は次のとおりです。

INPUT(source, informat)

ここで、
- sourceは数値変数に変換される文字変数、定数、または式
- informatはsourceに格納された値を読み取るための数値informat

この場合、変換したい文字変数は「standtest」です。「standtest」の値はcomma5.informatに準拠しているため、INPUT関数でそのinformatを指定しています。

うまくいったかどうか確認しましょう。プログラムを開いて実行し、出力ウィンドウを確認する前に、今度はログウィンドウを確認してください。以下のようなメッセージが表示されるはずです。

<!-- 
The only difference between the calculation of std here and of that in the previous example is that the standtest variable has been inserted here into the INPUT function. The general form of the INPUT function is:  

```  
INPUT(source, informat)
```

where  
* source is the character variable, constant or expression to be converted to a numeric variable
* informat is a numeric informat that allows you to read the values stored in source

In our case, standtest is the character variable we are trying to convert to a numeric variable. The values in standtest conform to the comma5. informat, and hence its specification in the INPUT function.  
Let's see how we did. Launch and run the SAS program, and again before looking at the output window, take a look at the log window. You should see something that now looks like this:  
-->

In [13]:
data grades;
  input name $ 1-15 e1 $ e2 $ e3 $ e4 $ standtest $;
  std = input(standtest,comma5.)/4;
  datalines;
Alexander Smith   78 82 86 69   1,210
John Simon        88 72 86  .     990
Patricia Jones    98 92 92 99   1,010
Jack Benedict     54 63 71 49     875
Rene Porter      100 62 88 74   1,180
;
run;


29                                                        SAS システム               2024年 6月 6日 木曜日 07時40分00秒

312        ods listing close;ods html5 (id=saspy_internal) file=_tomods1 options(bitmap_mode='inline') device=svg style=HTMLBlue;
312      ! ods graphics on / outputfmt=png;
[38;5;21mNOTE: HTML5(SASPY_INTERNAL) Bodyファイルの書き込み先: _TOMODS1[0m
313        
314        data grades;
315          input name $ 1-15 e1 $ e2 $ e3 $ e4 $ standtest $;
316          std = input(standtest,comma5.)/4;
317          datalines;

[38;5;21mNOTE: データセットWORK.GRADESは5オブザベーション、7変数です。[0m
[38;5;21mNOTE: DATA ステートメント処理(合計処理時間):
      処理時間           0.00 秒
      ユーザーCPU時間    0.00 秒
      システムCPU時間    0.00 秒
      メモリ             536.21k
      OSメモリ           18336.00k
      タイムスタンプ     2024/06/06 午前07:41:43
      ステップ数                        24  スイッチ数  2
      ページフォルト回数                0
      ページリクレーム回数              130
      ページスワップ回数                0
      自発的コンテキストスイッチ回数    9
      非自発的コンテキストスイッチ回数  0


SASが自動的に変換を行ったことを警告するメッセージはありません。今回は私たちがプログラムをコントロールしているからです。結果を出力してみると(コードは前のものを参照)、今回は「std」を正しく計算できていることがわかります。これでよくなりました!

最後にコメントを2点。まず、今回の議論を踏まえて、良いプログラミングの習慣のリストに新しい項目を追加することをお勧めします。可能な限りプログラムをコントロールし、プログラムが意図したとおりに動作することを常に把握しておくことです。状況によってプログラムが期待通りに動作しない場合は、動作するようにプログラムを書き換えましょう。

2つ目は、文字から数値への変換ばかり話してきましたが、逆に数値から文字への変換が必要な場合はどうしたらよいか不安になるかもしれません。それについては心配無用です。SASなら対応できます。数値変数に対して文字変数にのみ適用できる操作を試みると、SASは自動的にその数値変数を文字に変換しようと試みます。うまくいかない場合は、PUT関数を使って明示的に数値値を文字に変換する必要があります。PUT関数については、文字関数についての際に扱います。

<!-- 
Ahhaa! No warnings about SAS taking over our program and performing automatic conversions. That's because we are in control this time! Now, looking at the output (see above), we see that we successfully calculated std this time around. That's much better!
A couple of closing comments. First, I might use our discussion here to add another item to your growing list of good programming practices. Whenever possible, make sure that you are the one who is in control of your program. That is, know what your program is doing at all times, and if it's not doing what you'd expect it to do for all situations, then rewrite it in such a way to make sure that it does.
Second, you might be wondering "geez, we just spent all this time talking about character-to-numeric conversions, but what happens if I have to do a numeric-to-character conversion instead?" Don't worry ... SAS doesn't let you down. If you try to do something to a numeric variable that should only be done to a character variable, SAS automatically tries first to convert the character variable to a numeric variable. If that doesn't work, then you'll want to use the PUT function to convert your numeric values to character values explicitly. We'll address the PUT function in Stat 481 when we learn about character functions in depth.
-->


## If-Then ステートメント

ここでは、データセットの一部のオブザベーションを変更する様々な例を扱っていきます。SASで特定の条件を満たすオブザベーションを選択する最も一般的な方法は、if-thenステートメントを利用することです。if-thenステートメントの基本的な形式は次のとおりです。

**IF** (条件が真である) **THEN** (このアクションを実行する);

これまでに、次のような条件の例を見ました。

```
avg < 65
```

そして、アクションは次のようになります。

```
status = 'Failed'  
```

各オブザベーションに対して、SASはIFキーワードに続く条件(この場合は学生の平均点が65未満かどうか)を評価し、真または偽を判断します。条件が真の場合、SASはTHEN キーワードに続くアクション(この場合は学生のステータスを'Failed'に変更する)を実行します。条件が偽の場合、SASはTHENを無視し、データステップの次のステートメントに進みます。条件には常に何らかの比較が含まれ、実行されるアクションは通常、何らかの割り当てステートメントになります。

### 例

この例では新しいことは特に無く、前のレッスンで既にif-then(-else)ステートメントを見ています。そこでは主に割り当てステートメントに焦点を当てていました。ここでは、条件部分を含むif-thenステートメント全体に注目します。次のプログラムは、学生の1回目の試験の点数が65点未満の場合にステータスを'Failed'に設定する文字変数「status」を作成しています。

<!-- 
## If-Then Statements

In this lesson, we investigate a number of examples that illustrate how to change a subset of the observations in our data set. In SAS, the most common way to select observations that meet a certain condition is to utilize an **if-then statement**. The basic form of the statement is:

**IF** (condition is true) **THEN** (take this action);

In the previous lesson, we looked at an example in which the _condition_ was:

avg < 65

and the **action** was:

status = 'Failed'

For each observation, SAS evaluates the condition that follows the keyword IF — in this case, is the student's average less than 65? — to determine if it is true or false. If the condition is true, SAS takes the action that follows the keyword THEN — in this case, change the student's status to 'Failed.' If the conditon is false, SAS ignores the THEN clause and proceeds to the next statement in the DATA step. The condition always involves a comparison of some sort, and the action taken is typically some sort of assignment statement.

### Example

There is nothing really new here. You've already seen an if-then(-else) statement in the previous lesson. Our focus there was primarily on the assignment statement. Here, we'll focus on the entire if-then statement, including the condition. The following SAS program creates a character variable status, whose value depends on whether or not the student's first exam grade is less than 65:  
-->

In [14]:
data grades;
  input name $ 1-15 e1 e2 e3 e4 p1 f1;
  * if the first exam is less than 65 indicate failed;
  * 1回目の試験が65点未満の場合は不合格を示す;
  if (e1 < 65) then status = 'Failed';
  datalines;
Alexander Smith  78 82 86 69  97 80
John Simon       88 72 86  . 100 85
Patricia Jones   98 92 92 99  99 93
Jack Benedict    54 63 71 49  82 69
Rene Porter     100 62 88 74  98 92
;
run;
 
proc print data = grades;
  var name e1 status;
run;

OBS,name,e1,status
1,Alexander Smith,78,
2,John Simon,88,
3,Patricia Jones,98,
4,Jack Benedict,54,Failed
5,Rene Porter,100,


以降でもデータセット「grades」を使用します。再度データセットについて説明しておくと、学生の名前(name)、4つの試験の結果(e1,e2,e3,e4)、プロジェクトの結果(p1)、最終試験(f1)の結果が含まれています。SASプログラムを開いて実行し、PRINTプロシージャの出力を確認すると、文字変数「status」の値が正しく割り当てられていることがわかります。
<!-- 
First, note that we continue to work with the grades data set from the last section. Again, the data set contains student names (name), each of their four exam grades (e1, e2, e3, e4), their project grade (p1), and their final exam grade (f1). Then, launch and run the SAS program. Review the output from the print procedure to convince yourself that the values of the character variable status have been assigned correctly.  
-->

## 比較演算子  

前の例では、小なり記号(<)を使って比較を行いました。SASの構文に従えば、標準的な比較演算子を使ってどのような比較も行えます。

| 比較 | SAS構文 | 代替のSAS構文 |
|------|---------|---------------|
| 小なり | < | LT |
| 大なり | > | GT |  
| 以下 | <= | LE |
| 以上 | >= | GE |
| 等しい | = | EQ |
| 等しくない | ^= | NE |
| リストのいずれかに等しい | in | IN |

どちらの構文を使ってもかまいません。単なる好みの問題です。代替のSAS構文の動作を確認するには、以前のプログラムの小なり記号(<)を"LT"(または"lt")に置き換えてみてください。次に、プログラムを再実行し、PRINTプロシージャの出力を確認して、プログラムが期待通りに動作することを確認してみてください。

### 例

次のプログラムは、IN演算子を使って、プロジェクト点数p1が98、99、100のいずれかの学生を特定しています。つまり、p1の値が98、99、100のいずれかに等しい学生には、'Excellent'という値が変数「project」に割り当てられます。

<!-- 
## Comparison Operators

In the previous example, we used the less-than sign to make the comparison. We can use any of the standard **comparison operators** to make our comparisons as long as we follow the syntax that SAS expects, which is:

| Comparison | SAS syntax | Alternative SAS syntax |
|------------|------------|------------------------|
| less than | < | LT |
| greater than | > | GT |  
| less than or equal to | <= | LE |
| greater than or equal to | >= | GE |
| equal to | = | EQ |
| not equal to | ^= | NE |
| equal to one of a list | in | IN |


It doesn't really matter which of the two syntax choices you use. It's just a matter of preference. To convince yourself that you understand how to use the alternative SAS syntax though, replace the less-than sign (<) in the Example program with the letters "LT" (or "lt"). Then, re-run the SAS program and review the output from the PRINT procedure to see that the program indeed performs as expected.

### Example

The following SAS program uses the IN operator to identify those students who scored a 98, 99, or 100 on their project score. That is, students whose p1 value equals either 98, 99, or 100 are assigned the value 'Excellent' for the project variable:  
-->

In [15]:
data grades;
  input name $ 1-15 e1 e2 e3 e4 p1 f1;
  if p1 in (98, 99, 100) then project = 'Excellent';
  datalines;
Alexander Smith  78 82 86 69  97 80
John Simon       88 72 86  . 100 85
Patricia Jones   98 92 92 99  99 93
Jack Benedict    54 63 71 49  82 69
Rene Porter     100 62 88 74  98 92
;
run;
 
proc print data = grades;
  var name p1 project;
run;

OBS,name,p1,project
1,Alexander Smith,97,
2,John Simon,100,Excellent
3,Patricia Jones,99,Excellent
4,Jack Benedict,82,
5,Rene Porter,98,Excellent


プログラムを開いて実行し、PRINTプロシージャの出力を確認すると、プログラムが説明どおりに動作していることがわかります。
**注:** 比較演算子を扱った後では、割り当てステートメントでEQの構文を使いたくなることがよくあります。試してみると、SASがエラーを出すことがわかるはずです。割り当てステートメントでは必ず等号(=)を使わなければなりません。

<!-- 
Launch and run the SAS program and review the output from the PRINT procedure to convince yourself that the program performs as described.  
**Note!** After being introduced to the comparison operators, students are often tempted to use the syntax EQ in an assignment statement. If you try it, you'll soon learn that SAS will hiccup at you. Assignment statements must always use the equal sign (=).  
-->

## 代替のアクション: ELSEステートメント

if-thenステートメントだけでなく、if-then-elseステートメントを使いたい場合もあるでしょう。前の例では、IF キーワードに続く条件が真の場合に SAS がどうするかだけ指示しました。elseステートメントを含めることで、条件が偽の場合にどうするかを指示できます。

### 例  

次のプログラムでは、学生の1回目の試験の点数が65点未満の場合はステータスを "Failed" に設定し、それ以外の場合は "Passed" に設定する文字変数「status」を作成しています。

<!-- 
## Alternative Actions: ELSE statements

There may be occasions when you want to use an if-then-else statement instead of just an if-then statement. In a previous example, we told SAS only what to do if the condition following the IF keyword was true. By including an else statement, we can tell SAS what to do if the condition following the IF keyword is false.  

### Example

The following SAS program creates a character variable status, whose value is "Failed" IF the student's first exam grade is less than 65, otherwise (i.e., ELSE) the value is "Passed":  
-->

In [16]:
data grades;
  input name $ 1-15 e1 e2 e3 e4 p1 f1;
  * if the first exam is less than 65 indicate failed;
  * 1回目の試験が65点未満の場合は不合格を示す;
  if (e1 < 65) then status = 'Failed';
  * otherwise indicate passed;
  * それ以外の場合は合格を示す;
  else status = 'Passed';
  datalines;
Alexander Smith  78 82 86 69  97 80
John Simon       88 72 86  . 100 85
Patricia Jones   98 92 92 99  99 93
Jack Benedict    54 63 71 49  82 69
Rene Porter     100 62 88 74  98 92
;
run;
 
proc print data = grades;
  var name e1 status;
run;

OBS,name,e1,status
1,Alexander Smith,78,Passed
2,John Simon,88,Passed
3,Patricia Jones,98,Passed
4,Jack Benedict,54,Failed
5,Rene Porter,100,Passed


プログラムを開いて実行し、PRINTプロシージャの出力を確認すると、文字変数「status」の値が正しく割り当てられていることがわかります。  
一般にELSEステートメントをIF-THENステートメントと組み合わせると、リソースを節約できます。

* ELSEステートメントなしでIF-THENステートメントを使うと、SASはすべてのIF-THENステートメントを評価します。
* ELSEステートメント付きのIF-THENステートメントを使うと、SASは最初に真のステートメントを検出するまでIF-THENステートメントを実行し、それ以降のIF-THENステートメントを評価されません。

効率を高めるのであれば、 IF-THEN-ELSEステートメントは生じる確率順に書くようにします。
<!-- 
Launch and run the SAS program. Review the output from the PRINT procedure to convince yourself that the values of the character variable status have been assigned correctly.  
Note that, in general, using ELSE statements with IF-THEN statements can save resources:  

* Using IF-THEN statements without the ELSE statement causes SAS to evaluate all IF-THEN statements.
* Using IF-THEN statements with the ELSE statement causes SAS to execute IF-THEN statements until it encounters the first true statement. Subsequent IF-THEN statements are not evaluated.

For greater efficiency, you should construct your IF-THEN-ELSE statements with conditions of decreasing probabilities.  
-->

## 論理演算子

以前に学習した比較演算子に加えて、次の論理演算子も使用できます:

|演算| SAS構文| 別のSAS構文| 
|----|--------|------------|
|両方の条件が真であるか?| &| AND|
|どちらかの条件が真であるか?| \|| OR|
|比較の論理を逆転させる| ^ or ~| NOT|


AND演算子を使うと、ANDでリンクされた両方の式が真の場合にTHENステートメントが実行されます。例えば:

`IF (p1 > 90) AND (f1 > 90) THEN performance = 'excellent';`

OR演算子を使うと、ORでリンクされた式のいずれかが真の場合にTHENステートメントが実行されます。例えば:  

`IF (p1 > 90) OR (f1 > 90) THEN performance = 'very good';`

そしてNOT演算子は他のオペレーターと組み合わせて、比較の論理を逆転させたい場合に使います:

`IF p1 NOT IN (98, 99, 100) THEN performance = 'not excellent';`

これらの論理演算子を使った例を見てみると、なぜ2つまでのELSEステートメントしか使わないのでしょうか? たくさんのELSEステートメントをプログラムしてみましょう!ただし、そうするときは条件が相互に排他的であることを確実にしなければなりません。つまり、データセット内の各オブザベーションに対して、1つの条件のみが成立するようにする必要があります。これは、多くの場合、間隔の端点が何らかの形で重複しないようにする必要があることを意味します。


<!-- 
## Logical Operators

In addition to the comparison operators that we learned previously, we can also use the following **logical operators** :

|Operation| SAS syntax| Alternative SAS syntax| 
|---------|-----------|-----------------------|
|are both conditions true?| &| AND|
|is either condition true?| \|| OR|
|reverse the logic of a comparison| ^ or ~| NOT|


You will want to use the AND operator to execute the THEN statement if both expressions that are linked by AND are true, such as here:

`IF (p1 GT 90) AND (f1 GT 90) THEN performance = 'excellent';`

You will want to use the OR operator to execute the THEN statement if either expression that is linked by the OR is true, such as here:

`IF (p1 GT 90) OR (f1 GT 90) THEN performance = 'very good';`

And, you will want to use the NOT operator in conjunction with other operators to reverse the logic of a comparison:

`IF p1 NOT IN (98, 99, 100) THEN performance = 'not excellent';`

Now when we look at examples using these logical operators, why stop at just two ELSE statements? Let's go crazy and program a bunch of them! One thing though — when we do, we have to be extra careful to make sure that our conditions are mutually exclusive. That is, we have to make sure that, for each observation in the data set, one and only one of the conditions holds. This most often means that we have to make sure that the endpoints of our intervals don't overlap in some way.
-->

### 例

以下のプログラムは、if-then-else ステートメントの中で複数の互いに排他的な条件を使用する例です。このプログラムでは、AND演算子を使用して条件を定義しています。繰り返しになりますが、比較がANDで接続されている場合、条件が真であるためには、すべての比較が真でなければなりません。 

<!-- 
### Example

The following SAS program illustrates the use of several mutually exclusive conditions within an if-then-else statement. The program uses the AND operator to define the conditions. Again, when comparisons are connected by AND, all of the comparisons must be true in order for the condition to be true.  
-->

In [17]:
data grades;
  length overall $ 10;
  input name $ 1-15 e1 e2 e3 e4 p1 f1;
  avg = round((e1+e2+e3+e4)/4,0.1);
       if (avg = .)                   then overall = 'Incomplete';
  else if (avg >= 90)                 then overall = 'A';
  else if (avg >= 80) and (avg < 90)  then overall = 'B';
  else if (avg >= 70) and (avg < 80)  then overall = 'C';
  else if (avg >= 65) and (avg < 70)  then overall = 'D';
  else if (avg < 65)                  then overall = 'F';	
  datalines;
Alexander Smith  78 82 86 69  97 80
John Simon       88 72 86  . 100 85
Patricia Jones   98 92 92 99  99 93
Jack Benedict    54 63 71 49  82 69
Rene Porter     100 62 88 74  98 92
;
run;
 
proc print data = grades;
  var name avg overall;
run;

OBS,name,avg,overall
1,Alexander Smith,78.8,C
2,John Simon,.,Incomplete
3,Patricia Jones,95.3,A
4,Jack Benedict,59.3,F
5,Rene Porter,81.0,B


プログラムを開いて実行してください。PRINTプロシージャからの出力を確認し、成績の文字が正しく割り当てられていることを確認してください。またプログラム全体、特にif-then-elseステートメントがどのように書かれているかに注目してください。条件と割り当てステートメントがきれいに列に並べられ、括弧を使って条件を区切っています。可能な限り...いや、必ずそうするべきですが...プログラムでは書式を整え(コメントも付けましょう)。結局のところ、数年後にそのプログラムを実際に使う必要が出てくるかもしれません。その時は当時のあなたは感謝するはずです! 

注意点:

* まず、プログラムが学生の全体の平均を計算し、その結果を小数点以下1桁に丸めています。平均の算出方法を定義して計算することで、試験を欠席した学生には欠席値が割り当てられます。
* 欠席値をチェックするifステートメントがあることに注目してください。学生の平均が欠席値の場合、Incompleteが割り当てられます。SASが欠損値をどのように扱うかについては、後ほど学習します。
* 学生の総合平均が90以上の場合、Aが割り当てられます。
* 学生の総合平均が80以上90未満の場合、Bが割り当てられます。
* 学生の総合平均が70以上80未満の場合、Cが割り当てられます。
* 学生の総合平均が65以上70未満の場合、Dが割り当てられます。
* 学生の総合平均が65未満の場合、Fが割り当てられます。

もう1点、欠損値に関する条件の後で条件がA、B、...Fの順に並んでいることに気づきませんでしたか?インストラクターは前向きな考え方をしているのでしょうか?実は、この順序は文の効率性に関係しています。SASが特定のオブザベーションに対して真となる条件があると、SASはif-then-elseステートメントを抜けて、次のデータステップのステートメントに移ります。これによりSASは、残りの条件を不必要に評価する手間が省けます。したがって、if-then-elseステートメントで条件の順序を並べるときには、(おおよそですが)最も一般的な条件を最初に、次に一般的な条件を2番目に、というように並べるのが良いプログラミングの習慣です。また、欠損値に関する条件がIFステートメントの最初に現れるようにする必要があります。そうしないと、SASがそれを飛ばしてしまう可能性があります。



<!-- 
Launch and run the SAS program. Review the output from the PRINT procedure to convince yourself that the letter grades have been assigned correctly. Also note how the program in general, and the if-then-else statement in particular, is formatted in order to make the program easy to read. The conditions and assignment statements are aligned nicely in columns and parentheses are used to help offset the conditions. Whenever possible ... okay, make that always ... format (and comment) your programs. After all, you may actually need to use them again in a few years. Trust me ... you'll appreciate it then! Note that:  

* First, the program calculates the student's overall average and rounds the result to the first decimal place. By using the definition to calculate the average, we ensure that a student who has missed an exam gets assigned a missing value for his or her overall average.
* Note that there is an if statement to check for missing values. If the student's average is missing valued, then the grade should be incomplete. We will learn more about how SAS handles missing values later.
* If the student's overall average is 90 or higher, then the assigned grade is an A.
* If the student's overall grade is 80 or higher AND less than 90, then the student is assigned a B.
* If the student's overall grade is 70 or higher AND less than 80, then the student is assigned a C.
* If the student's overall grade is 65 or higher AND less than 70, then the student is assigned a D.
* If the student's overall grade is less than 65, then the student is assigned an F.

Oh, one more point. You may have noticed, after the condition that takes care of missing values, that the conditions appear in order from A, B, ... down to F. Is the instructor treating the glass as being half-full as opposed to half-empty? Hmmm ... actually, the order has to do with the efficiency of the statements. When SAS encounters the condition that is true for a particular observation, it jumps out of the if-then-else statement to the next statement in the DATA step. SAS thereby avoids having to needlessly evaluate all of the remaining conditions. Hence, we have ourselves another good programming habit ... arrange the order of your conditions (roughly speaking, of course!) in an if-then-else statement so that the most common one appears first, the next most common one appears second, and so on. You'll also need to make sure that your condition concerning missing values appears first in the IF statement, otherwise SAS may bypass it.  
-->

### 例
前のプログラムでは、条件がAND演算子を使って書かれていました。代わりに、単純な数値の範囲を使うこともできます。次のプログラムは、範囲と比較演算子の代替構文の使用例を示しています。前のプログラムと同じ出力が得られることに注目してください。

<!-- 
### Example

In the previous program, the conditions were written using the AND operator. Alternatively, we could have just used straightforward numerical intervals. The following SAS program illustrates the use of alternative intervals as well as the alternative syntax for the comparison operators. Note that you get the same output as the previous program.  
-->

In [18]:
data grades;
  length overall $ 10;
  input name $ 1-15 e1 e2 e3 e4 p1 f1;
  avg = round((e1+e2+e3+e4)/4,0.1);
       if (avg EQ .)         then overall = 'Incomplete';
  else if (90 LE avg LE 100) then overall = 'A';
  else if (80 LE avg LT  90) then overall = 'B';
  else if (70 LE avg LT  80) then overall = 'C';
  else if (65 LE avg LT  70) then overall = 'D';
  else if (0  LE avg LT  65) then overall = 'F';
  datalines;
Alexander Smith  78 82 86 69  97 80
John Simon       88 72 86  . 100 85
Patricia Jones   98 92 92 99  99 93
Jack Benedict    54 63 71 49  82 69
Rene Porter     100 62 88 74  98 92
;
run;
 
proc print data = grades;
  var name avg overall;
run;

OBS,name,avg,overall
1,Alexander Smith,78.8,C
2,John Simon,.,Incomplete
3,Patricia Jones,95.3,A
4,Jack Benedict,59.3,F
5,Rene Porter,81.0,B


### 例  

さて、インストラクターが、コースの最初から終わりまでの間に何らかの改善の兆しを示した学生にボーナスポイントを与えたいとします。第1回目の試験の成績が第3回目と第4回目の成績より低いか、第2回目の試験の成績が第3回目と第4回目の成績より低い場合、その学生の総合平均に2点を加えたいとします。(なぜかは聞かないでください。ここでは動機付けのために使っているだけです。)ここで行いたい操作は「either(どちらか)」と「or(または)」です。インストラクターの意向を満たすためには、ORの比較演算子を使う必要があります。ORで比較がつながれている場合、条件が真になるためには比較のうち1つが真であれば十分です。次のプログラムは、OR演算子、AND演算子、そしてORとANDの両方の演算子の使用例を示しています。

<!-- 
### Example

Now, suppose an instructor wants to give bonus points to students who show some sign of improvement from the beginning of the course to the end of the course. Suppose she wants to add two points to a student's overall average if either her first exam grade is less than her third and fourth exam grade or her second exam grade is less than her third and fourth exam grade. (Don't ask why! I'm just trying to motivate something here.) The operative words here are "either" and "or". In order to accommodate the instructor's wishes, we need to take advantage of the OR comparison operator. When comparisons are connected by OR, only one of the comparisons needs to be true in order for the condition to be true. The following SAS program illustrates the use of the OR operator, the AND operator, and the use of the OR and AND operators together:  
 -->

In [19]:
data grades;
  input name $ 1-15 e1 e2 e3 e4 p1 f1;
  avg = round((e1+e2+e3+e4)/4,0.1);
       if    ((e1 < e3) and (e1 < e4)) 
          or ((e2 < e3) and (e2 < e4)) then adjavg = avg + 2;
  else adjavg = avg;
  datalines;
Alexander Smith  78 82 86 69  97 80
John Simon       88 72 86  . 100 85
Patricia Jones   98 92 92 99  99 93
Jack Benedict    54 63 71 49  82 69
Rene Porter     100 62 88 74  98 92
;
run;
 
proc print data = grades;
  var name e1 e2 e3 e4 avg adjavg;
run;

OBS,name,e1,e2,e3,e4,avg,adjavg
1,Alexander Smith,78,82,86,69,78.8,78.8
2,John Simon,88,72,86,.,.,.
3,Patricia Jones,98,92,92,99,95.3,95.3
4,Jack Benedict,54,63,71,49,59.3,59.3
5,Rene Porter,100,62,88,74,81.0,83.0


まずプログラムを確認して、コードを理解しておきましょう。特に()で囲まれた論理比較は、他の式と比較される前に真偽が評価されることに注目してください。この例では:

* SASは最初に、e1がe3より小さく、かつe1がe4より小さいかどうかを判定します。
* 次にSASは、e2がe3より小さく、かつe2がe4より小さいかどうかを判定します。
* 最後にSASは、最初の箇条書きが真であるか、2番目の箇条書きが真であるかを判定します。

このSASプログラムを起動して実行してください。PRINTプロシージャからの出力を確認し、適切な場合には、学生の平均(avg)に2点を加えて調整済み平均(adjavg)が計算されていることを確認してください。また、ここでは欠損値のプログラミングを心配する必要がなかったことに注目してください。学生の調整済み平均(adjavg)は、その平均(avg)が欠席値の場合、自動的に欠席値が割り当てられます。SASではこれを「欠席値のプロパゲーション(伝播)」と呼んでいます。

<!-- 
First, inspect the program to make sure you understand the code. In particular, note that logical comparisons that are enclosed in parentheses are evaluated as true or false before they are compared to other expressions. In this example:  

* SAS first determines if e1 is less than e3 AND if e1 is less than e4
* SAS then determines if e2 is less than e3 AND if e2 is less than e4
* SAS then determines if the first bullet is true OR if the second bullet is true

Launch and run the SAS program. Review the output from the PRINT procedure to convince yourself that, where appropriate, two points were added to the student's average (avg) to get an adjusted average (adjavg). Also, note that we didn't have to worry about programming for missing values here, because the student's adjusted average (adjavg) would automatically be assigned missing if his or her average (avg) was missing. SAS calls this "propagation of missing values."  
-->

## 文字値の比較

これまで見てきたif-then-elseステートメントの例はすべて数値変数のみを扱っていました。文字変数を含む比較も同様に行えます。文字値を比較する際の重要なポイントは、SASが大文字と小文字を区別することです。つまり、文字値はデータセットに現れる場合と同じ大文字小文字で指定しなければならず、この点ではSASはケース・センシティブです。また文字値は引用符で囲む必要があります。

### 例

インストラクターがコースを完了しなかった学生や不合格の学生を特定したいとします。SASは大文字と小文字を区別するため、これらの学生を識別するためのif-then-elseステートメントで、'failed'や'Failed'や'FAILED'など、"failed(不合格)"や"incomp(未完了)"のすべての可能な表記をチェックする必要があります。1つの面倒な解決策は、"failed"と"incomp"のすべての可能な表記をチェックすることですが、代わりにUPCASE関数を使って最初に大文字の値を生成し、その後、大文字値同士の比較のみを行うこともできます。次のプログラムはそのようなアプローチを取っています。  



<!-- 
## Comparing Character Values

All of the if-then-else statement examples we've encountered so far involved only numeric variables. Our comparisons could just as easily involve character variables. The key point to remember when comparing character values is that SAS distinguishes between uppercase and lowercase letters. That is, character values must be specified in the same case in which they appear in the data set. We say that SAS is " **case-sensitive**." Character values must also be enclosed in quotation marks. 

### Example

Suppose our now infamous instructor wants to identify those students who either did not complete the course or failed. Because SAS is case-sensitive, any if-then-else statements written to identify the students have to check for those students whose status is 'failed' or 'Failed' or 'FAILED' or ... you get the idea. One rather tedious solution would be to check for all possible "typings" of the word "failed" and "incomp" (for incomplete). Alternatively, we could use the UPCASE function to first produce an uppercase value, and then make our comparisons only between uppercase values. The following SAS program takes such an approach:  
-->

In [20]:
data grades;
  length action $ 7
         action2 $ 7;
  input name $ 1-15 e1 e2 e3 e4 p1 f1 status $;
       if (status = 'passed') then action = 'none';
  else if (status = 'failed') then action = 'contact';
  else if (status = 'incomp') then action = 'contact';
       if (upcase(status) = 'PASSED') then action2 = 'none';
  else if (upcase(status) = 'FAILED') then action2 = 'contact';
  else if (upcase(status) = 'INCOMP') then action2 = 'contact';
  datalines;
Alexander Smith  78 82 86 69  97 80 passed
John Simon       88 72 86  . 100 85 incomp
Patricia Jones   98 92 92 99  99 93 PAssed
Jack Benedict    54 63 71 49  82 69 FAILED
Rene Porter     100 62 88 74  98 92 PASSED
;
run;
 
proc print data = grades;
  var name status action action2;
run;

OBS,name,status,action,action2
1,Alexander Smith,passed,none,none
2,John Simon,incomp,contact,contact
3,Patricia Jones,PAssed,,none
4,Jack Benedict,FAILED,,contact
5,Rene Porter,PASSED,,none


プログラムを開いて実行してください。PRINTプロシージャからの出力を確認し、変数「action」に関連するif-then-elseステートメントが不適切であるのに対し、UPCASE関数を使って作成した変数「action2」は上手く機能していることを確認してください。
ちなみに、文字値を含む比較を行う場合、SASでは欠損文字値(ブランクスペース' ')が任意の文字より小さいと見なされるので、欠損値をプログラムするという良い習慣は文字変数の場合にも当てはまります。


<!-- 
Launch and run the SAS program. Review the output from the PRINT procedure to convince yourself that the if-then-else statement that involves the creation of the variable action is inadequate while the one that uses the UPCASE function to create the variable action2 works like a charm.  
By the way, when making comparisons that involve character values, you should know that SAS considers a missing character value (a blank space ' ') to be smaller than any letter, and so the good habit of programming for missing values holds when dealing with character variables as well.  
-->

## 複数のアクションを実行する

これまでの例では、ある条件に対して1つのアクションのみを実行していました。状況によっては、複数のアクションを実行したい場合があるかもしれません。

### 例

インストラクターが、第4回の試験を欠席した学生には0点を与え、その旨を学生に通知したいとします。次のSASプログラムは、DO-ENDを使ってインストラクターの意向を実現する方法を示しています。


<!-- 
## Performing Multiple Actions

All of the examples we've looked at so far have involved performing only one action for a given condition. There may be situations in which you want to perform more than one action.

### Example

Suppose our instructor wants to assign a grade of zero to any student who missed the fourth exam, as well as notify the student that she has done so. The following SAS program illustrates the use of the DO-END clause to accommodate the instructors wishes:  
-->

In [21]:
data grades;
  input name $ 1-15 e1 e2 e3 e4 p1 f1;
  if e4 = . then do;
    e4 = 0;
    notify = 'YES';
  end;
  datalines;
Alexander Smith  78 82 86 69  97 80
John Simon       88 72 86  . 100 85
Patricia Jones   98 92 92 99  99 93
Jack Benedict    54 63 71 49  82 69
Rene Porter     100 62 88 74  98 92
;
run;
 
proc print data = grades;
  var name e1 e2 e3 e4 p1 f1 notify;
run;

OBS,name,e1,e2,e3,e4,p1,f1,notify
1,Alexander Smith,78,82,86,69,97,80,
2,John Simon,88,72,86,0,100,85,YES
3,Patricia Jones,98,92,92,99,99,93,
4,Jack Benedict,54,63,71,49,82,69,
5,Rene Porter,100,62,88,74,98,92,


DOステートメントは、対応するENDが現れるまで、SASにすべてのステートメントを1つの包括的なアクションとして扱うように指示します。対応するENDが現れない場合、SASはエラーを出力します。このプログラムを起動して実行し、PRINTプロシージャの出力を確認して、プログラムが想定通りの動作をしていることを確認してください。

<!-- 
The DO statement tells SAS to treat all of the statements it encounters as one all-inclusive action until a matching END appears. If no matching END appears, SAS will hiccup. Launch and run the SAS program, and review the output of the PRINT procedure to convince yourself that the program accomplishes what we claim.  
-->

## 演習  

1. 次のデータステップを使って、新しい変数`Grade`と`Course`を以下の定義に従って作成してください。

```
data school; 
  input Age Quiz : $1. Midterm Final;
  /* ここにステートメントを追加 */
datalines;
12 A 92 95  
12 B 88 88
13 C 78 75
13 A 92 93
12 F 55 62
13 B 88 82
;
run;
```

If-Then-Elseステートメントを使って新しい2つの変数を作成してください。

* Grade(数値)の値は、Ageが12の場合は6、Ageが13の場合は8となります。
* クイズの成績には以下の数値が対応しています: A=95、B=85、C=75、D=70、F=65  
  この情報を使って、コースの成績「Course」(クイズ「Quiz」20%、中間試験「Midterm」30%、期末試験「Final」50%の加重平均)を計算してください。


<!-- 
## Exercises

1. Use the following SAS data step to create the new variables `Grade` and `Course` defined below:

```   
data school;
   input Age Quiz : $1. Midterm Final;
   /* Add you statements here */
datalines;
12 A 92 95
12 B 88 88
13 C 78 75
13 A 92 93
12 F 55 62
13 B 88 82
;
```

Using If-Then-Else statements, compute two new variables as follows: 

* Grade (numeric), with a value of 6 if Age is 12 and a value of 8 if Age is 13.
* The quiz grades have numerical equivalents as follows: A = 95, B = 85, C = 75, D = 70, and F = 65. Using this information, compute a course grade (Course) as a weighted average of the Quiz (20\%), Midterm (30\%) and Final (50\%).
-->