# データの入出力

データを分析するためには、SASが理解できるデータセットとしてデータを読み込む必要があります。ここでは様々な状況で機能するデータの読み込み方法を学びます。ただし、SASデータセットにデータを読み込む際は、常に次の3つのことをSASに伝える必要があります。

* データの場所 - プログラム内に埋め込まれた**入力ストリームデータ**なのか、プログラム外部にある**生データ**なのか、または**別のSASデータセット**に含まれているのか?
* データの形式 - データ値が整然と定義された列に並んでいて**カラム入力**が使えるか、データ値が少なくとも1つの空白で区切られていて**リスト入力**が使えるか、データ値に特殊文字が含まれていて**フォーマット入力**を使わなければならないか?
* 作成するSASデータセットの種類 - **永久SASデータセット**を作成するのか、**一時SASデータセット**を作成するのか?

ここでは、これらすべてのケースについて学びます。入力ストリームデータ、外部の生データ(csvファイルなど)、別のSASデータセットからのデータの読み込み方法を学びます。カラム入力、リスト入力、フォーマット入力の使い方も学びます。そして、一時データセットと永久データセットの作成方法も学びます。

<!-- 
# Data I/O

In order to be able to analyze our data, we need to be able to read it into a data set that our SAS software understands. In this lesson, we learn methods that will work in many situations to get your data read into a SAS data set. Keep in mind though that when reading data into a SAS data set, you always need to tell SAS three things:

* where your data reside — Are they **instream data**, that is, embedded within your SAS program? Are they contained in a **raw data file** external to your SAS program? Or are they contained already in **another SAS data set**?
* the format of the data — Are the data values arranged in neatly defined columns so that they can be read in using **column input**? Are the data values separated by at least one blank space so that they can be read in using **list input**? Do the data values contain special characters so that they must be read in using **formatted input**?
* the kind of SAS data set that you want to create — Do you want to create a **permanent SAS data set**? Or do you want to create a **temporary SAS data set**?

In this lesson, we will learn how to tackle all of these cases. We will learn how to read in both instream, external data from a raw data file (e.g. a csv file), or from another SAS dataset. We'll learn how to use column, list and formatted input. And, we'll learn how to create both temporary and permanent SAS datasets.
-->

## 入力ストリームデータの読み込み

セクションのタイトルは「入力ストリームデータの読み込み」ですが、データをSASデータセットに読み込む方法のひとつだけに焦点をあてることは難しいです。前で説明したように、SASデータセットにデータを読み込む際は、常に3つのことをSASに伝える必要があります。データの場所、データの形式、作成するSASデータセットの種類です。さっそく例を見ていきましょう。

### 例
次のプログラムでは、カラム入力を使って入力ストリームデータを読み込み、一時データセットtemp1を作成して、結果のデータセットにタイトルを付けて出力しています。

<!-- 
## Reading Instream Data

Although the title of this section is reading instream data, it is hard to focus on just one method of reading data into SAS. As discussed in the introduction to this lesson, every time we read data into a SAS data set, we need to tell SAS three things — where our data reside, the form of the data, and the kind of SAS data set that we want to create. Let's jump right in and take a look at an example.

### Example

The following SAS program illustrates how to create a temporary SAS data set called temp1 to read instream data using column input and then prints the resulting dataset with a title: 
-->

In [1]:
data temp1;
  input subj 1-4 gender 6 height 8-9 weight 11-13;
  datalines;
1024 1 65 125
1167 1 68 140
1168 2 68 190
1201 2 72 190
1302 1 63 115
  ;
run;

title 'Output dataset: TEMP1'; 
proc print data=temp1;  
run;

OBS,subj,gender,height,weight
1,1024,1,65,125
2,1167,1,68,140
3,1168,2,68,190
4,1201,2,72,190
5,1302,1,63,115


DATALINESステートメントは、その後に続く行がデータであることをSASに示します。DATALINESに続くすべての行はデータとして扱われ、セミコロン(;)が現れるまで続きます。このセミコロンはデータセットの終わりを示します。DATALINESはデータステップの最後に記述する必要があることに注意してください。セミコロン終了後のものはSASによって実行されません。

INPUTステートメントは、入力データからどの列を読み込むか、そしてSAS変数名を指定します。

RUNステートメントは、データステップをSASに実行させます。PROC PRINTステートメントは、一時的データセットtemp1を出力するようSASに指示します。

このプログラムで重要なことは次の通りです。

* `DATALINES`ステートメントは、SASに入力ストリームデータが続くことを伝えるステートメントです。DATALINESステートメントは次のようになります:

  - データステップの最後に現れる(RUNステートメント以外)
  - データ行の直前に記述する
  - ステートメントは不要でセミコロン1つで終了する。データステップには1つのDATALINESステートメントしか書けません

* **INPUT**ステートメントは、SASにデータの形式を伝えるステートメントです。ここでは、データ値が特定の列にあるので、カラム入力を使用しています。標準的な数値データには、数字、小数点、指数表記(3.1E5など)、プラス記号かマイナス記号のみが含まれます。

一般に、生データの各フィールドをSASデータセットに読み込みたい場合、INPUTステートメントで次の情報を指定する必要があります。

変数が文字変数である場合は、変数名の直後にスペース1つと$記号を付けます。このデータセットには文字変数はありません。「subj」が列1から4まで、「gender」が列6、「height」が列8から9まで、「weight」が列11から13までを表しています。列番号は左端の列を1として右に数えていきます。正しく定義されていることを確認するために、左から右へ列を数え以下を確認してみるのもよいでしょう。
* データ値の型(文字または数値)
* 定義された列に従って配置されている
* 有効なSAS変数名
* 指定するデータ型（文字または数値）
* フィールドの開始と終了の列番号をハイフン（-）で区切ったもの


* **DATA**ステートメントは、作成するSASデータセットが一時的か永続的かをSASに伝えるステートメントです。ここでは、一時データセットtemp1 を作成するよう指示しています。一時データセットはtemp1のように1レベルの名前で指定します。stat480.temp1のように2レベルだと永久データセットになります。一時データセットは現在のSASセッションの終了時に削除されることに注意してください。

プログラムを開いて実行し、まずログウィンドウでエラーがないかを確認してください。次にアウトプットウィンドウを見て、PRINTプロシージャの出力を確認してください。

DATALINESステートメントの代わりにCARDSステートメントを使っても同じ結果になります。プログラムエディタでDATALINESをCARDSに置き換えて、プログラムを再実行すれば確認できます。

さらに追記しておきますが、データ値にセミコロンが含まれる場合はDATALINESステートメントは使えません。その場合はDATALINES4ステートメントに置き換え、セミコロン1つを4つのセミコロン(;;;;)で置き換える必要があります。


<!-- 
The DATALINES statement indicates that lines of data are to follow. All lines following DATALINES are treated as data until a single semicolon is encountered. This semicolon indicates the end of the dataset. Note that DATALINES must occur last in the DATA step. Anything after the semicolon ending the DATALINES statement will not be executed by SAS.  
The INPUT statement identifies the columns that we want to read from the input data, and the names of the SAS variables to be created from the data values.  
The RUN statement tells SAS to execute the DATA step. The PROC PRINT statement tells SAS to print the entire temporary dataset temp1.  
The key things to not about the program are:  
1. The DATALINES statement is the statement that you must use to tell SAS to expect instream data. The DATALINES statement: 
  1. Must be the last statement to appear in the DATA step (that is, except for the RUN statement)
  2. Must immediately precede the data lines
  3. Must be closed by a null statement (that is, a single semicolon). Only one DATALINES statement can appear in a DATA step

2. The **INPUT** statement is the statement that you must use to tell SAS the form of the data. Here, we use what is called column input, because the data values are in specific columns. Recall that standard numeric data values can contain only numbers, decimal points, numbers in scientific notation (e.g., 3.1E5), and plus or minus signs. 


In general, for each field of raw data that you want to read into your SAS data set, you must specify the following information in the INPUT statement:

If you intend for the variable to be a character variable, place one blank space and then a dollar sign (\$) right after the variable's name in the INPUT statement. None of the variables in our data set are character variables, and therefore no dollar signs appear in the INPUT statement in our program. As our INPUT statement informs SAS, the subject number (subj) begins in column 1 and ends in column 4, gender occupies just column 6, the subject's height begins in column 8 and ends in column 9, and the subject's weight begins in column 11 and ends in column 13. You might want to count the columns out from left to right to convince yourself that we've defined the fields correctly.
* standard character or numeric values, and
* arranged in neatly defined columns.
* a valid SAS variable name,
* a type (character or numeric),
* and the number of the column in which the field starts and the number of the column in which the field ends, separated by a dash (-).

3. The **DATA** statement is the statement that you must use to tell SAS whether the data set that you intend to create should be temporary or permanent. We'll learn more about temporary and permanent data sets in the lesson pages that follow. Know for now .... errrrr, that is, trust me? ... that the above DATA statement tells SAS to create a temporary data set called temp1. Okay, I'll let the cat out of the bag a little bit ... the DATA statement tells SAS that temp1 should be treated as temporary by specifying what is called a one-level name, such as temp1, rather than a two-level name, such as stat480.temp1. Okay, best to stop there. The key thing for now is to know that, because temp1 is a temporary data set, it exists only until the end of your current SAS session. That is, once you close out your SAS session, the SAS data set is removed from memory, and would have to be created again if you needed to use it again.


Launch and run the SAS program in your SAS environment. Then, as always, view the log window first to see if SAS displays any errors from running the code. Then, view the output window. You should see a display of the data set that arises from the PRINT procedure in our code.   

Note that the CARDS statement is an alias for the DATALINES statement. That is, we could have alternatively entered the data by replacing the "DATALINES;" statement with a "CARDS;" statement. In your program editor, replace "DATALINES;" with "CARDS;" and rerun your program to convince yourself that this is indeed true.   

One more thing ... if any of your data values contain semicolons, the DATALINES statement will not work. Instead you must replace the DATALINES statement with a DATALINES4 statement, and the null statement with a single semicolon (;) with a null statement containing four semicolons (;;;;). Strange, I know.   
-->

## SASデータライブラリ

一時データセットと永久データセットの違いを理解する前に、SASの**データライブラリ**についての理解が必要です。SASライブラリとは、同じフォルダまたはディレクトリ内に格納されたSASファイルの集合のことです。SAS形式の拡張子以外のファイルが同じフォルダに入っていてもかまいません。


ファイル作成時に指定するライブラリ名によって、SASファイルが一時的または永続的に保存されます。

* Work またはライブラリ名を指定しない場合、作成したファイルは一時的なWorkライブラリに保存されます。SASセッションを終了すると、一時ライブラリとその中のファイルはコンピューターのメモリから削除されます。

* Workではないライブラリ名を指定した場合、ファイルは永続的に保存されます。後のSASセッションでそのライブラリとその内容を利用できます。

### 永久SASファイルの参照方法

一時的か永続的かに関わらず、SASはデータセットを2レベル名で参照します。

*libref.ファイル名*

2レベル名の libref はSASデータライブラリの(ニックネーム)名で、ファイル名はその中のファイル名です。例えば、ライブラリPHC6089にデータセットYTSがある場合、以下のようになります。

WindowsまたはUFアプリを使っている場合:
<img src = "./img/SAS_library_windows.png" alt = "SAS library contents in windows SAS." style = "max-width: 500px;">

SAS University EditionまたはOnDemand Academicsを使っている場合:  
<img src = "./img/SAS_library_ondemand.png" alt = "SAS library contents in SAS University or OnDemand versions." style = "max-width: 500px;">

ライブラリPHC6089のデータセットYTSを出力するには、以下のコードの*PHC6089.YTS*のように参照します。

<!-- 
## SAS Data Libraries

Before we can really get a handle on the distinction between temporary and permanent SAS data sets, we need to understand what SAS refers to as **SAS data libraries**. In short, a SAS library is simply a collection of SAS files that are stored in the same folder or directory on your computer. Other files can be stored in the same folder or directory, but only the files that have SAS file extensions are recognized as part of the SAS library.

Depending on the library name that you use when you create a SAS file, such as a SAS data set, SAS files are stored either temporarily or permanently as follows:

* When creating a SAS file, if you use the library name Work or you don't specify a library name at all, then the file is stored in a temporary SAS library called Work. When you close out the SAS session in which you created the SAS file, the temporary library and all of its files are removed from your computer's memory.
* If you use a library name other than the default library name Work when creating a SAS file, then the file is stored permanently until you delete it. That is, you can use permanent SAS libraries and their contents in subsequent SAS sessions.

### Referencing Permanent SAS Files

Regardless of whether a SAS data set is temporary or permanent, SAS always refers to the data set by a two-level name:

*libref.filename*

In the two-level name, *libref* is the (nick)name that you gave the SAS data library that contains the SAS data set, and filename is the name of the file itself. For example, if we have a library called PHC6089 with a SAS dataset called yts, then we would see this if you are using SAS for Windows or UF Apps
![SAS library contents in windows SAS.](./img/SAS_library_windows.png)
or if you are using SAS University Edition or OnDemand Academics, then you will see something like this. 
![SAS library contents in SAS University or OnDemand versions.](./img/SAS_library_ondemand.png)

In order to print the permanent dataset called YTS that is stored in the SAS library called PHC6089, we have to refer to the permanently stored SAS dataset as:

*PHC6089.YTS*

as in the following code:
-->

In [None]:
proc print data = PHC6089.YTS;
run;

この例では、YTSがPHC6089ライブラリの永久データセットであることが分かります。


### 一時SASファイルの参照方法

前にも記載していますが、一時的か永続的かに関わらず、SASはデータセットを2レベル名で参照します。

*libref.ファイル名*

一時的データセットの libref は常に Work です。そのため、Work内の任意のデータセットを以下のように参照できます。

*Work.ファイル名*

ここでファイル名はそのファイル名です。例えば、一時データセットtemp1がある場合は次のようになります。

WindowsSASまたはUFアプリを使っている場合: 
<img src = "./img/SAS_Work_windows.png" alt = "SAS Work library contents in windows SAS." style = "max-width: 500px;">
SAS University EditionまたはOnDemand Academicsを使っている場合:
<img src = "./img/SAS_Work_ondemand.png" alt = "SAS Work library contents in SAS University or OnDemand versions." style = "max-width: 500px;">

デフォルトの一時ライブラリ Work の一時データセット Temp1 を出力するには、次のようにします。

<!-- 
In this example, we know the SAS dataset called YTS is permanent because the SAS library name is PHC6089 and not *Work*.

### Referencing Temporary SAS Files

As stated previously, regardless of whether a SAS data set is temporary or permanent, SAS always refers to the data set by a two-level name:

*libref.filename*

Now, we know that the *libref* of a temporary data set is always Work. Therefore, we can refer to any SAS data set stored temporarily in Work by:

*Work.filename*

where filename is the name of the file itself. For example, if we have a temporary dataset called temp1, then you will see something like this if you are using windows SAS or UF apps
![SAS Work library contents in windows SAS.](./img/SAS_Work_windows.png)
and something like this if you are using SAS Univeristy Edition or OnDemand Academics.
![SAS Work library contents in SAS University or OnDemand versions.](./img/SAS_Work_ondemand.png)

In order to print the temporary SAS data set called *Temp1* that is stored in the default temporary SAS library called *Work*, we can refer to the temporarily stored SAS data set as: 

*Work.Temp1*

as in the following code:
-->

In [None]:
proc print data = work.temp1;
run;

SAS内部では常に2レベル名を使いますが、あなたも同様にする必要はなく次のうような1レベル名を使うこともできます。
*filename*

1レベル名を使うと、デフォルトでWorkが前につくと見なされます。そのため、前のコードは次のように書くことができます。


<!-- 
Now, although SAS always refers to SAS data sets by their two-level names, it doesn't mean you have to do the same! In this case, SAS lets you take a shortcut by using just the one-level name:

*filename*

When you specify a one-level name, the default libref *Work* is assumed. For example, rather than using the previous code to print the temporary SAS data set called Temp1, we could use the following code:
-->

In [None]:
proc print data = temp1;
run;

### ライブラリの定義

最後に、ライブラリの定義方法を見ていきましょう。LIBNAMEステートメントを使い、libref(ライブラリ参照名)をコンピューター上の特定のフォルダまたはディレクトリ(SASファイルが含まれる)に関連付けます。 例えば私のコンピューターには以下のサブディレクトリがあります。

folders/myfolders/SAS_Notes/data

このディレクトリには yts.sas7bdatというSASデータセットが入っています。

このサブディレクトリに *PHC6089* というライブラリ参照名をつけるには、以下の`LIBNAME`ステートメントを使います。

<!-- 
### Defining Libraries

We have just one more thing to tend to before we complete our discussion of SAS libraries, and that is how to define a library. To do so, we use a LIBNAME statement to tell SAS to associate a a name — called a `libref` — to one of the folders or directories on your computer that contains SAS files. For example, I have a subdirectory on my computer:

folders/myfolders/SAS_Notes/data

that contains the SAS dataset yts.sas7bdat.

![Data directory on my computer of a SAS dataset.](./img/data_directory.png)

To tell SAS to associate a libref *PHC6089* with this subdirectory, we simply use a `LIBNAME` statement as follows:
-->

In [None]:
libname PHC6089 "/folders/myfolders/SAS_Notes/data";

一般的に、ライブラリ参照名は1～8文字の文字または数字とアンダースコアからなり、先頭は文字またはアンダースコアでなければなりません。ライブラリの物理的な名前(ここでは"/folders/myfolders/ SAS_Notes/data")はWindowsの規則に従います。LIBNAMEステートメントは必要であればプログラム中でいくつでも使用することができます。

LIBNAMEステートメントを実行した後、ログウィンドウを確認して、ライブラリ参照名が正しく割り当てられたというメッセージが出ていることを確認することができます。  
すべてうまくいっていれば、以下のようなメッセージがログウィンドウに表示されています。

```
 1          OPTIONS NONOTES NOSTIMER NOSOURCE NOSYNTAXCHECK;
 68         
 69         libname PHC6089 "/folders/myfolders/SAS_Notes/data";
 NOTE: ライブラリ参照名PHC6089を次のように割り当てました。 
       エンジン: V9 
       物理名: /folders/myfolders/SAS_Notes/data
 70         
 71         OPTIONS NONOTES NOSTIMER NOSOURCE NOSYNTAXCHECK;
 81         
```

注意点として、LIBNAMEステートメントはグローバルステートメントです。つまり、ライブラリ参照名は変更、取り消し、またはSASセッションの終了までその効力が続きます。新しいSASセッションを開始するたびに、アクセスしたい永久SASデータライブラリにライブラリ参照名を割り当てる必要があります。

<!-- 
In general, the libref can be a nickname of your choosing, as long as it is between 1 and 8 characters long, begins with a letter or underscore, and contains only letters, numbers, or underscores. The specification of the physical name of the library, of course, adheres to the conventions of the Windows operating system. You can use as many LIBNAME statements in a program as necessary to assign the librefs that you need.

Now, after submitting our LIBNAME statement, we can (and should!) look at the log window to verify that SAS assigned the libref successfully. If all went well, we should see a message similar to this in this log window:

```    
 1          OPTIONS NONOTES NOSTIMER NOSOURCE NOSYNTAXCHECK;    
 72         
 73         libname PHC6089 "/folders/myfolders/SAS_Notes/data";
 NOTE: Libref PHC6089 was successfully assigned as follows: 
       Engine:        V9 
       Physical Name: /folders/myfolders/SAS_Notes/data
 74         
 75         
 76         OPTIONS NONOTES NOSTIMER NOSOURCE NOSYNTAXCHECK;
 88         
```

Because the LIBNAME statement is a global statement, our PHC6089 libref remains in effect until we have modified it, canceled it, or ended the SAS session. That is, the LIBNAME statement assigns the libref for the current SAS session only. Each time you begin a SAS session, you must assign a libref to each permanent SAS data library that contains files that you want to access in that SAS session.
-->

### 永久SASデータセットへのデータ読み込み 

前の例で扱ったセッション終了時に削除される一時データセットではなく、指定したディレクトリに保存された永久データセットも簡単に作成することができます。それでは試してみましょう!

### 例
次のプログラムはカラム入力による最もシンプルな読み込みの例で、入力ストリームデータから永久SASデータセットPHC6089.temp2を作成しています。


<!-- 
### Reading Data into Permanent SAS Datasets

Rather than having created a temporary data set in the previous Example that disappears at the end of our SAS session, we could have just as easily created a permanent data set that instead gets stored in a directory of our choosing and is therefore available to us permanently. Let's try that!

### Example

The following SAS program illustrates how to create a permanent SAS data set called PHC6089.temp2 to read instream data using column input:

The following SAS program illustrates the simplest example of column input.
-->

In [1]:
libname PHC6089 "/folders/myfolders/SAS_Notes/data/";
    *Specifies the SAS data library (directory);
 
data phc6089.temp2;
  input subj 1-4 gender 6 height 8-9 weight 11-13;
  datalines;
1024 1 65 125
1167 1 68 140
1168 2 68 190
1201 2 72 190
1302 1 63 115
  ;
run;

title 'Output dataset: PHC6089.TEMP2'; 
proc print data=PHC6089.temp2;  
run;

OBS,subj,gender,height,weight
1,1024,1,65,125
2,1167,1,68,140
3,1168,2,68,190
4,1201,2,72,190
5,1302,1,63,115


前の例との違いは以下の通りです。

* LIBNAMEステートメントがあり、データセットをPHC6089の/folders/myfolders/SAS_Notes/dataディレクトリに永続的に書き込むようSASに指示しています。
* DATAステートメントのデータセット名が2レベル名になっています。これでSASに永続的データセットtemp2をPHC6089のディレクトリに作るよう指示しています。 
* 後続のプロシージャ(ここではPRINT)で、永続的データセットを2レベル名で参照しています。

プログラムを開いて実行する前に、/folders/myfolders/SAS_Notes/dataが実際に存在することを確認してください。存在しない場合は適切なディレクトリを作成するか、LIBNAMEステートメントを編集する必要があります。

プログラムを実行すると、次のことが分かります。

* phc6089.temp2の内容と構造はwork.temp1と同じです。一時的か永続的かの違いしかありません。
* Explorerウィンドウで、temp2がphc6089ライブラリの下に表示されており、永久データセットであることが分かります。
* Windowsエクスプローラーで、SASデータセットが実際に/folders/myfolders/SAS_Notes/dataディレクトリに永続的に保存されていることが確認できます。

<!-- 
Note that the only differences between this program and the program in previous Example is that:

* there is now a LIBNAME statement. This is how we tell SAS to which of our directories we want the data permanently written. Here, the SAS data set is written to our /folders/myfolders/SAS_Notes/data directory.
* the name of the data set appearing in the DATA statement is now a two-level name. This is how SAS knows to put the permanent dataset temp2 in our /folders/myfolders/SAS_Notes/data directory.
* in subsequent procedures, such as the PRINT procedure here, we refer to the permanent data set by its two-level name.

Launch and run the SAS program. Don't forget that you must make sure that you have already created the /folders/myfolders/SAS_Notes/data subdirectory on your computer (or at least some other appropriately placed and named subdirectory). After running the program, note that:

* the contents and structure of phc6089.temp2 is identical to the contents and structure of work.temp1. The only thing that differs between the two datasets is that temp1 is temporary and temp2 is permanent.
* in the Explorer Window, the dataset temp2 appears in the phc6089 library indicating that the data set is permanent.
* using your Windows Explorer, you can see that the SAS data set is permanently stored in your /folders/myfoldersu/SAS_Notes/data directory.
-->

## 生データ(テキストデータ)のファイルからデータを読み込む

これまで入力ストリームデータの例だけでしたが、ここからは生データをSASデータセットに読み込む方法を扱います。

ここでの生データのファイルとは、データ値がフィールドに並んだレコードを含むテキストファイルのことです。一般的なファイルの拡張子は.datや.txtです。生データのファイルはASCII、shift-jisやutf-8などの特定の文字コードで構成され、メモ帳やワードパッドで表示できるファイルです。スプレッドシートのようなExcelに保存されたデータセットはバイナリ形式であり、生のテキストデータファイルではありません。

### 例
以下のプログラムはカラム入力による最もシンプルな読み込みの例で、生データtemp3.datを読み込み、一時データセットtemp3を作成しています。

<!-- 
## Reading From a Raw Data File

Thus far, we've only looked at examples in which we've read instream data into SAS data sets. Now, let's direct our attention to learning how to read data from a raw data file into SAS data sets.

A raw data file is an external text file whose records contain data values that are arranged in fields. Typical filename extensions of raw data files are .dat and .txt. A raw data file (also commonly called an ASCII file) is the kind of data file that you would view using your Notepad or Wordpad software. Data sets stored in spreadsheets, such as Microsoft's Excel, are binary, not raw ASCII data files.

###  Example
The following SAS program illustrates how to create a temporary SAS data set called temp3 by using column input to read in data stored in a raw data file called temp3.dat:  
The following SAS program illustrates the simplest example of column input.  
-->

In [3]:
data temp3;
  infile '/folders/myfolders/SAS_Notes/data/temp3.dat';
  input subj 1-4 gender 6 height 8-9 weight 11-13;
run;

title 'Output dataset: TEMP3'; 
proc print data=temp3; 
run;

OBS,subj,gender,height,weight
1,1024,1,65,125
2,1167,1,68,140
3,1168,2,68,190
4,1201,2,72,190
5,1302,1,63,115


INPUTステートメントの前で使うINFILEステートメントがDATALINESステートメントの代わりにとなっています。INFILEステートメントは、生のデータファイルがコンピューター上のどこに保存されているかをSASに伝えます。ファイル名と場所は引用符で囲む必要があります。この例では、生のデータファイルtemp3.datが"/folders/myfolders/SAS_Notes/data"ディレクトリに保存されています。データのみがファイルには格納されています。  
このプログラムを実行するには、最初にtemp3.datファイル(READMEに記載のリンクから入手可能)をコンピューターの適切な場所に保存する必要があります。次に、INFILEステートメントを編集して、ファイルの正しい場所を反映させます。最後に、SASプログラムを開いて実行し、ログと出力ウィンドウを確認して、データが一時データセットtemp3に適切に読み込まれたことを確認します。

INFILEステートメントでファイル名と場所を指定する代わりに、fileref(ファイル参照名)を使うこともできます。librefと同様に、FILENAMEステートメントでfilerefをデータファイルの保存場所に関連付けます。すなわちlibrefはSASデータライブラリを参照しますが、filerefは外部データファイルの保存場所を一時的に参照します。

<!-- 
Notice that the INFILE statement, which must precede the INPUT statement, merely replaces the DATALINES statement and the data that appeared in the previous two examples. The INFILE statement tells SAS where the raw data file is stored on your computer. The name and location of the raw data file must appear in single quotes and immediately follow the INFILE keyword. In this case, our raw data file temp3.dat is stored in the directory "/folders/myfolders/SAS_Notes/data". As you can see, the data values are the only items stored in the file.  
In order to run this program, first save the temp3.dat file (see the CANVAS website for this file) to a convenient location on your computer. Then, edit the INFILE statement as necessary to reflect the correct location. Finally, launch and run the SAS program. Review the log and output windows to convince yourself that the data were properly read into the temporary data set temp3.  
Instead of identifying the raw data file by specifying the entire filename and location in the INFILE statement, we can alternatively use what is called a fileref (for file reference). Just as we use a LIBNAME statement to assign a libref, we use a FILENAME statement to assign a filref. Filerefs perform the same function as librefs. That is, they temporarily point to a storage location for data. However, librefs point to SAS data libraries, whereas filerefs point to external data files.  
-->

### 例
以下のプログラムはINFILEステートメントでFILENAMEステートメントによりfilerefを使用する例で、生データファイルtemp3.datを読み込み一時データセットtemp4を作成します。


<!-- 
### Example

The following SAS program illustrates the use of a fileref in the INFILE statement, in conjunction with a FILENAME statement, to read data stored in a raw data file called temp3.dat to create a temporary SAS data set called temp4:

The following SAS program illustrates the simplest example of column input.
-->

In [4]:
filename patients '/folders/myfolders/SAS_Notes/data/temp3.dat';
 
data temp4;
  infile patients;
  input subj 1-4 gender 6 height 8-9 weight 11-13;
run;

title 'Output dataset: TEMP4'; 
proc print data = temp4;  
run;

OBS,subj,gender,height,weight
1,1024,1,65,125
2,1167,1,68,140
3,1168,2,68,190
4,1201,2,72,190
5,1302,1,63,115


FILENAMEステートメントでpatientsというfilerefをtemp3.datファイルの保存場所に関連付けています。一般的に、filerefは1〜8文字の文字または数字で、先頭は文字かアンダースコアでなければなりません。ファイルの物理的な名前の指定はWindowsの規則に従います。

まだtemp3.datファイルを保存していない場合は、適切な場所に保存してください。次に、FILENAMEステートメントを編集して、ファイルの正しい場所を反映させます。最後に、プログラムを開いて実行し、ログと出力ウィンドウを確認して、データが一時的データセットtemp4に適切に読み込まれたことを確認します。


<!-- 
The FILENAME statement in our program assigns the fileref patients to our temp3.dat file stored in our /folders/myfolders/SAS_Notes/data/ folder. In general, the fileref can be a nickname of our choosing, as long as it is between 1 and 8 characters long, begins with a letter or underscore, and contains only letters, numbers, or underscores. The specification of the physical name of the file, of course, adheres to the conventions of the Windows operating system.

If you haven't already done so for the previous example, save the temp3.dat file to a convenient location on your computer. Then, edit the FILENAME statement as necessary to reflect the correct location. Finally, launch and run the SAS program. Review the log and output windows to convince yourself that the data were properly read into the temporary data set temp4.  
-->

## カラム入力による読み込み

前で説明しているように、SASには3つの入力スタイルがあります。

- **カラム入力**は、データ値が固定の列に入力されている場合に使用します。
- **リスト入力**は、データ値が少なくとも1つのスペース(または文字)で区切られている場合に使用します。
- **フォーマット入力**は、日付や通貨額など、特殊文字を含む数値データを読み込む場合に使用します。

このセクションでは、カラム入力の2つの簡単な例を見ていきます。後のセクションではリスト入力とフォーマット入力についても扱います。

**コメント** この後の例では、DATALINES ステートメントを使ってデータを読み込みますが、INFILE文を使用することもできます。また永久データセットを作成することもできますが、一時データセットを作成します。最後に、各データステップの後、PRINTプロシージャ（PROC PRINT）を使用して、結果のSASデータセットを出力し確認できるようにします。

カラム入力では、各レコード内の同じ列にあるデータ値を読み込めます。カラム入力を使うには、INPUTステートメントで変数名を並べ、続けてその変数のデータが収まっている列の範囲を指定します(文字変数の場合は$記号を先に付ける)。カラム入力は、データが固定の列にあり、標準的な文字または数値フォーマットの場合に使えます。カラム入力では、指定した最後の列までデータ値を読み込みます。

カラム入力の重要なポイントは次の通りです。

* 欠損値を示すプレースホルダ(ピリオドなど)は不要です。欠損値は空白のままでかまいません。
* 文字変数の長さが指定した列の範囲で決まり、デフォルトの8文字を超えることが可能で、スペースも埋め込めます。
* フィールドを完全に飛ばしたり、順序を変えて読み込むことができます。
* 値の一部だけを読み込んだり、値を再度読み込むこともできます。 
* データ値の間にスペースを入れる必要はありません。

<!-- 
## Reading Column Input

As mentioned in the introduction to this lesson, there are three different styles of input that are available to us in SAS. They are:

* **column input**, which is the most commonly used style, allows you to read data values that are entered in fixed columns.
* **list input**, which allows you to read data by simply listing the variable names in the INPUT statement. At least one space (or character) must occur between each value in the data set.
* **formatted input**, which allows you to read numeric data containing special characters, such as dates and dollar amounts.

In this section, we will take a look at two simple examples of column input. In later sections, we will spend some time investigating list input and formatted input.

**A couple of comments**. For the sake of the examples that follow, we'll use the DATALINES statement to read in data. We could have just as easily used the INFILE statement to illustrate each point. Additionally, we'll create temporary data sets rather than permanent ones, even though we could have just as easily created permanent data sets to illustrate each point. Finally, after each SAS DATA step, we'll use the SAS print procedure (PROC PRINT) to print the resulting SAS data set for your perusal.

Column input allows you to read variable values that occupy the same columns within each record. To use column input, list the variable names in the INPUT statement, immediately following each variable name with its corresponding column positions in each of the data lines. (Of course, you'll need to follow each character variable with a dollar sign (\$) first.) Column input can be used whenever your raw data are in fixed columns and in standard character or numeric format. Column input reads data values until it reaches the last specified column for the field.

The important points to note about column input are:

* When using column input, you are not required to indicate missing values with a placeholder, such as a period. That is, missing values can be left as blank.
* Column input uses the columns specified to determine the length of character variables, thereby allowing the character values to exceed the default 8 characters and to have embedded spaces.
* Column input allows fields to be skipped altogether or to be read in any order.
* Column input allows only part of a value to be read and allows values to be re-read.
* Spaces are not required between the data values.
-->

### 例

以下のプログラムはシンプルなカラム入力の例です。

<!-- 
### Example
The following SAS program illustrates the simplest example of column input.  
-->

In [5]:
data temp;
  input subj 1-4 name $ 6-23 gender 25 height 27-28 weight 30-32;
  cards;
1024 Alice Smith        1 65 125
1167 Maryann White      1 68 140
1168 Thomas Jones       2 68 190
1201 Benedictine Arnold 2 68 190
1302 Felicia Ho         1 63 115
  ;
run;
 
title 'Output dataset: TEMP'; 
proc print data=temp;
run;

OBS,subj,name,gender,height,weight
1,1024,Alice Smith,1,65,125
2,1167,Maryann White,1,68,140
3,1168,Thomas Jones,2,68,190
4,1201,Benedictine Arnold,2,68,190
5,1302,Felicia Ho,1,63,115


まずSASコードを確認して、カラム入力のINPUTステートメントの設定方法を理解しましょう。
データポイントは列に並んでいます。読みやすいようにデータ値は空白で区切られていますが、カラム入力の場合は必須ではありません。列番号1は左端の列です。
INPUTステートメントは、subject番号がcolumn 1-4、名前が文字変数で列6-23、 性別が文字変数の列25、身長が列27-28、体重が列30-32にあると指定しています。カラム入力では、文字変数に埋め込まれたスペースを許可するため、名前は最大18文字の長さになります。  
SASプログラムを開いて実行します。  
最後に、PRINTプロシージャの出力を確認して、データが適切に読み込まれたことを確かめます。
<!-- 
First, inspect the SAS code to make sure you understand how to set up the INPUT statement for column input.  
The data points are line up in columns. Although the data values are separated by a space for easy readability, they need not be when using column input. Column # 1 starts at the left-most column on the page.  
The INPUT statement tells SAS that the subject number appears in columns #1-4. Name is a character variable that appears in columns #6-23, so name is character variable of length 18. Using column input, character variables can have embedded spaces. The gender variable is a character variable that appears in column #25. The height variable appears in columns #27-28. The weight variable appears in columns #30-32.  
Then, launch and run the SAS program.  
Finally, review the output from the print procedure to convince yourself that the data are read in properly.  
 -->


### 例

以下のプログラムはカラム入力のいくつかの機能の例です。

<!-- 
### Example
The following SAS program illustrates some of the key features of column input: 
-->

In [6]:
data temp;
  input init $ 6 f_name $ 6-16 l_name $ 18-23
        weight 30-32 height 27-28;
  cards;
1024 Alice       Smith  1 65 125
1167 Maryann     White  1 68 140
1168 Thomas      Jones  2    190
1201 Benedictine Arnold 2 68 190
1302 Felicia     Ho     1 63 115
  ;
run;
 
title 'Output dataset: TEMP'; 
proc print data=temp;
run;

OBS,init,f_name,l_name,weight,height
1,A,Alice,Smith,125,65
2,M,Maryann,White,140,68
3,T,Thomas,Jones,190,.
4,B,Benedictine,Arnold,190,68
5,F,Felicia,Ho,115,63


まずコードを確認して、カラム入力の機能に慣れましょう。次にプログラムを開いて実行します。  
PRINTプロシージャの出力から、データセットtempの変数の並び順がデータに含まれる順序ではなく、INPUTステートメントの順序に従っていることを確認します。またデータセットの最初の列はスキップされていることに注目してください。
<!-- 
First, inspect the SAS code so that you can become familiar with some of the features of column input. Then, launch and run the SAS program.  
Review the output from the print procedure to convince yourself that the data are read in properly. Note that the position of the variables within the temporary data set temp corresponds to the order in which the variables appear in the input statement, not the order in which the variables appear in the data set. Note that the first column from the dataset is not read in to the dataset temp.  
 -->

## リスト入力による読み込み 

前のセクションでは、下のようなデータをカラム入力で読み込む方法を確認しました。


<!-- 
## Reading List Input

In the previous section, we investigated how to use column input to read data values that appear in neatly define columns looking like this, say:
-->

In [None]:
DATALINES;
Smith        8145551354  3.89
Washington   8145569847  2.73
Wing         8145359376  3.56
Jackson      8145557437  3.12
;

ここでは、次のようなフリーフォーマットのデータをリスト入力で読み込む方法を確認します。
<!-- 
Here, we'll investigate how to use list input to read in free-format data looking like this, say:
 -->

In [None]:
Smith 8145551354 3.89
Washington 8145569847 2.73
Wing 8145359376 3.56
Jackson 8145557437 3.12

リスト入力は最も簡単な入力方法かもしれません。下の例のように変数名をINPUTステートメントで並べて、対応するデータフィールドの順序と一致させるだけです。その利便性には次のような制約があります。

* フィールドは少なくとも1つのブランク(またはその他の区切り記号)で区切る必要があります。
* フィールドは左から右の順番で読み込まれる必要があります。
* フィールドをスキップしたり、再読み込みすることはできません。
* 欠損値は、ピリオド(.)などのプレースホルダで表す必要があります。(ブランクのフィールドがあると、変数名とデータ値のマッチングがずれてしまいます)
* 文字値にはスペースを含めることができません。
* 文字値のデフォルトの長さは8バイトです。それを超える値は切り捨てられます。 **注** 1バイト=1文字
* データは標準の文字または数値形式でなければなりません。
<!-- 
List input might be the easiest input style to use because, as shown in the examples that follow, you simply list the variable names in the same order as the corresponding raw data fields. The ease comes with a bit of a price, however. Because you do not have to tell SAS the columns in which the data values appear, you must take note of the following restrictions:

* Fields must be separated by at least one blank (or other delimiters such as a comma).
* Fields must be read in order from left to right.
* You cannot skip or re-read fields.
* Missing values must be represented by a place holder such as a period. (A blank field causes the matching of variable names and values to get out of sync.)
* Character values can't contain embedded blanks.
* The default length of character values is 8 bytes. A longer value is truncated when it is written to the data set **NOTE!** 1 byte = 1 character
* Data must be in standard character or numeric format.
-->


### 例
リスト入力の基本的な使い方を最もシンプルな例で見ていきましょう。データ値は1つのスペースで区切られていることに注目してください。また値を列で揃えることは必須ではありませんが、見やすくするため揃えることを推奨します。

<!-- 
### Example

The following SAS program illustrates the simplest example of list input. Note that there is one blank space between each of the data values. Also note that although the data values need not be lined up in columns, we still recommend doing so because of the difficulty otherwise in "eyeing" the data quickly.  
 -->

In [7]:
data temp;
  input subj name $ gender height weight;
  * 変数名のあとの$は、文字変数であることを示す;
  * The $ that follows name tells SAS that it is a character variable;
  * デフォルトでは、nameは最大8文字までしか読み込むことができない;
  * By default, name only allows up to 8 characters to be read in;
  cards;
  1024 Alice 1 65 125
  1167 Maryann 1 68 140
  1168 Thomas 2 68 190
  1201 Benedictine 2 72 190
  1302 Felicia 1 63 115
  ;
run;
 
title 'Output dataset: TEMP';
proc print data=temp;  
run;

OBS,subj,name,gender,height,weight
1,1024,Alice,1,65,125
2,1167,Maryann,1,68,140
3,1168,Thomas,2,68,190
4,1201,Benedict,2,72,190
5,1302,Felicia,1,63,115


INPUTステートメントは、リスト入力を使ってデータを読み込むように指示します。リスト入力の場合は、変数名をスペースで区切って並べるだけです。変数の順序は、データファイル内の対応するフィールドの順序と一致させる必要があります。文字変数の場合は$記号を付けます。  
プログラムを開いて実行し、PRINTプロシージャの出力を確認して、データが適切に読み込まれたことを確認します。ただし、4行目のBenedictineの名前がBenedictに切り捨てられていることに注目してください。これは、デフォルトの文字長が8文字に制限されているためです。後でインフォーマットを使ってこの問題を解決する方法を扱います。

<!-- 
The INPUT statement is how you tell SAS to read in the data using list input. For list input, simply list the variable names — leaving at least one space between names — in the order in which the variables appear in the data file. Remember to use the dollar sign (\$) to distinguish character variables from numeric variables.  
Launch and run the SAS program. Review the output from the print procedure to convince yourself that the data are read in properly with the exception of row 4. Note that Benedictine is read in as Benedict because of the default character length of 8. We will learn how to fix this later with informats.  
-->


この例では、欠損しているBennyの身長を示すために、ピリオド(.)のプレースホルダを使う必要があります。

<!-- 
## Example

The following SAS program illustrates the necessary use of the numeric missing value (.) placeholder when a data value is missing:  
 -->

In [8]:
data temp;
  input subj name $ gender height weight;
  cards;
  1024 Alice 1 65 125
  1167 Maryann 1 68 140
  1168 Thomas 2 68 190
  1201 Benny 2 . 190
  1302 Felicia 1 63 115
  ;
run;

title 'Output dataset: TEMP'; 
proc print data=temp;  
run;

OBS,subj,name,gender,height,weight
1,1024,Alice,1,65,125
2,1167,Maryann,1,68,140
3,1168,Thomas,2,68,190
4,1201,Benny,2,.,190
5,1302,Felicia,1,63,115


前でも記載しているように、Bennyの身長が欠損しているため、リスト入力ではピリオド(.)のプレースホルダを使う必要があることに注意してください。

プログラムを開いて実行し、PRINTプロシージャの出力を確認して、データが適切に読み込まれたことを確認します。次に、プログラムを編集して欠損値のピリオド(.)を削除してください。プログラムを再実行すると、ログファイルに次のような注意が表示されるはずです。

```
NOTE: SAS went to a new line when INPUT statement reached past the end of a line
```


<!-- 
Note that Benny's height is missing. Therefore, since we are using the list input style to read in the data, we have to put in a missing value (.) placeholder.  

First, launch and run the SAS program. Review the output from the print procedure to convince yourself that the data are read in properly. Then, edit the program by deleting the missing value (.) placeholder. Rerun the SAS program to see what happens when you fail to account for the missing value. In the log file, you should see a note that says:  

```
NOTE: SAS went to a new line when INPUT statement reached past the end of a line
``` 

And the resulting output:  
 -->

In [9]:
data temp;
  input subj name $ gender height weight;
  cards;
  1024 Alice 1 65 125
  1167 Maryann 1 68 140
  1168 Thomas 2 68 190
  1201 Benny 2 190
  1302 Felicia 1 63 115
  ;
run;

title 'Output dataset: TEMP'; 
proc print data=temp;  
run;

OBS,subj,name,gender,height,weight
1,1024,Alice,1,65,125
2,1167,Maryann,1,68,140
3,1168,Thomas,2,68,190
4,1201,Benny,2,190,1302


そして、出力結果は明らかに誤っています。
デフォルトでは、SASはINPUTステートメントの変数名よりもデータ行にデータ値が少ない場合、次の行からデータを探します。この例では、Bennyの身長が190(次の行の最初の数値)、体重が1302(その次の行の最初の数値)と誤って読み込まれてしまいました。

<!-- 
should indicate that something has clearly gone awry. What is going on here is that, by default, SAS goes to the next data line to find more data if there are more variable names in the INPUT statement then there are values in the data line. In this case, Benny's height becomes 190, the first number to appear in the data line after gender, and Benny's weight becomes 1302, the first number to appear in the next data line.  
 -->

### 例

以下のプログラムでは、スペースでない区切り文字を使用するINFILEステートメントのDELIMITERオプションの例です。この例では一般的な区切り文字のカンマ(,)を指定しています。

<!-- 
### Example

The following SAS program illustrates how you can use the DELIMITER option of the INFILE statement to use values separators other than blanks. This example, in particular, illustrates it for the commonly used comma (,) as a delimiter:  
 -->

In [10]:
data temp;
  infile cards delimiter=',';
  input subj name $ gender height weight;
  cards;
  1024,Alice,1,65,125
  1167,Maryann,1,68,140
  1168,Thomas,2,68,190
  1201,Benny,2,.,190
  1302,Felicia,1,63,115
  ;
run;

title 'Output dataset: TEMP'; 
proc print data=temp;  
run;

OBS,subj,name,gender,height,weight
1,1024,Alice,1,65,125
2,1167,Maryann,1,68,140
3,1168,Thomas,2,68,190
4,1201,Benny,2,.,190
5,1302,Felicia,1,63,115



デフォルトではデータがスペース区切りと見なされますが、INFILEステートメントのDELIMITERオプションを使えば、他の区切り文字(この例ではコンマ)を指定できます。DELIMITERオプションは、データがカンマ区切りであることをSASに伝えます。INFILEステートメントは外部ファイルの読み込みで使用しますが、CARDS(またはDATALINES)オプションを含めると、データがコード内に含まれていることを示します。プログラムを開いて実行し、PRINTプロシージャの出力を確認して、データが適切に読み込まれたことを確認してください。
<!-- 
By default, SAS assumes data are space-delimited. The DELIMITER option of the INFILE statement here instead warns SAS that the data are comma-delimited — that is, that commas separate the data values rather than blank spaces. You might also have noted that although the INFILE statement typically directs SAS to externally-stored data, here the CARDS (or equivalently DATALINES) option included in the INFILE statement alerts SAS that the data are actually included in the code. Launch and run the SAS program. Review the output from the print procedure to convince yourself that the data are indeed read in properly.  
 -->

## フォーマット入力の読み込み

前のセクションでカラム入力について学びました。カラム入力は標準の数値データのみを読み込めます。一方、フォーマット入力では標準の数値データと非標準の数値データの両方を読み込めます。つまり、フォーマット入力はカラム入力の機能に加えて、非標準のデータ値を読み込む機能が追加されています。

**標準の数値データ値**とは以下のものです。

* 数字
* 小数点
* 指数表記の数値(3.1E5など) 
* マイナス記号(-)、プラス記号(+)

標準の数値データ値の例: 26、3.9、-13、+3.14、314E-2、2.193E3(Eは指数表記)

**非標準の数値データ値**とは以下のものです。

* ドル記号($)、パーセント記号(%)、コンマ(,)などの特殊文字を含む値
* 日付と時刻の値
* 分数形式、バイナリ形式整数、バイナリ形式実数、16進形式のデータ

非標準の数値データ値の例: 23.3%、$1.26、03/07/47

### INPUTステートメント 

フォーマット入力を使うINPUTステートメントの一般的な形式は次のとおりです。

`INPUT 変数 インフォーマット;`

この中で、

- **ポインタコントロール** は、SASにデータ値の読み込み開始列番号を指示します(省略可能)
- **変数**は作成する変数の名前です
- **インフォーマット**は、生のデータ値を読み込むための特別な指定です

注意点として、上記のINPUTステートメントは標準的なSASヘルプの表記を使用しています。例えば、ポインタコントロールは山括弧<>で囲まれていますが、これは省略可能であることを示しており、例えば１列目から始まる値を読み込む場合は不要です。実際のプログラムに<>を記載すると、SASはエラーを出します。

ポインタコントロールには2つの種類があります。

- **@n** は、入力ポインタを特定の列番号nに移動させます
- **+n** は、入力ポインタを現在の位置から相対的にn列分進めます

さらに、インフォーマットは生のデータ値を読み込むための特別な指示を伝えるために使用します。SASには多くの(多すぎる?)インフォーマットがあります。例えば、数値インフォーマット"mmddyy8."は、最大8文字の日付(10/27/05のようなもの)を読み込むようSASに指示します。数値インフォーマット"comma6."は、コンマを含む最大6文字の数値(11,387など)を読み込むようSASに指示します。

例を見ていきましょう。

この例では、@n列ポインタコントロールと標準の数値インフォーマットを使って、「subj」、「height」、「weight」の3つの数値変数を一時的なSASデータセットtempに読み込んでいます。
<!-- 
## Reading Formatted Input

The fundamental difference between column input, which we studied in the previous lesson, and formatted input, which we'll explore now, is that column input is only appropriate for reading standard numeric data, while formatted input allows us to read both standard and nonstandard numeric data. That is, formatted input combines the features of column input with the ability to read nonstandard data values.

**Standard numeric data values**. Recall that standard numeric data contain only:

* numbers
* decimal points
* numbers using scientific (E) notation
* negative (minus) and positive (plus) signs

Examples of standard numeric values include: 26, 3.9, -13, +3.14, 314E-2, and 2.193E3 (where E stands for scientific notation i.e. E3 stands for $\times 10^3$).

**Nonstandard numeric data values**. On the other hand, nonstandard numeric data values include:

* values that contain special characters, such as dollar signs ($), percent signs (%), and commas (,)
* date and time values
* data in fraction, integer binary, real binary, and hexadecimal forms

Examples of nonstandard numeric values include: 23.3%, $1.26, and 03/07/47.

### The INPUT Statement

Here's the general form of the INPUT statement when using formatted input:

`INPUT <pointer-control> variable informat.;`

where:

* **pointer-control** tells SAS at what column to start reading the data value
* **variable** is the name of the variable being created
* **informat** is a special instruction that tells SAS how to read the raw data values

A couple of things here. The above INPUT statement is written using standard SAS Help notation. For example, the pointer-control appears in brackets (<>) only to indicate that it is optional, or rather, not necessary for every variable you create. For example, you need not tell SAS to go to column 1 if that's where you want to start reading data values, because that's where SAS starts by default. In practice, the brackets (<>) should not appear in the INPUT statements in your program ... otherwise, SAS will hiccup.

There are two pointer controls that we'll learn about here:

* The **@n** pointer control moves the input pointer a specific column number n
* The **+n** pointer control moves the input pointer forward n columns to a column number that is relative to the current position

Again, an informat is what is used to tell SAS what special instructions are required to read in the raw data values. Many (too many?) special informats are available in SAS. For example, the numeric informat "mmddyy8." tells SAS that you want to read in a date that takes up to 8 spaces and looks like 10/27/05. The numeric informat "comma6." tells SAS that you want to read in a number that contains a comma and takes up to 6 spaces (including the comma), such as the number 11,387.

Let's take a look at an example!

### Example

The following SAS program uses the @n column pointer control and standard numeric informats to read three numeric variables — subj, height, and weight — into a temporary SAS data set called temp:  
-->

In [11]:
data temp;
  input @1  subj 4. 
        @27 height 2. 
        @30 weight 3.;
  datalines;
1024 Alice       Smith  1 65 125 12/1/95  2,036
1167 Maryann     White  1 68 140 12/01/95 1,800
1168 Thomas      Jones  2    190 12/2/95  2,302
1201 Benedictine Arnold 2 68 190 11/30/95 2,432
1302 Felicia     Ho     1 63 115 1/1/96   1,972
  ;
run;

title 'Output dataset: TEMP'; 
proc print data = temp;  
run;

OBS,subj,height,weight
1,1024,65,125
2,1167,68,140
3,1168,.,190
4,1201,68,190
5,1302,63,115


INPUTステートメントを見ると、まず@1でポインターを列1に移動させ、「subj」を4列分の幅で読み込んでいます。次に@27でポインターを列27に移動させ、「height」を2列分の幅で読み込み、最後に@30でポインターを列30に移動させ、「weight」を3列分の幅で読み込んでいます。

subj、height、weightの後に付いている4.、2.、3.はインフォーマットで、標準の数値データをどのように読み込むかをSASに指示しています。ここでは標準の数値データを読み込むので、w.dインフォーマットを使用しています。wはデータ値の幅(列数)を表し、dは小数点以下の桁数を表します。ピリオド(.)で区切られている必要があります。dを省略した場合でも、ピリオドは必須です。

より具体的に説明すると、「subj」の値は4列幅で小数点以下はないので、4.インフォーマットを使用しています。代わりに4.0と指定してもかまいません。「height」は2列幅で小数点以下はないので、2.インフォーマットを使います。「weight」は3列幅で小数点以下はないので、3.インフォーマットを使います。

w.dインフォーマットは、データ値に既に小数点が含まれている場合、指定したdは無視されることに注意してください。例えば、23.001という6列幅の値に対して6.インフォーマットを指定した場合、SASは23.001として値を保存します。小数点以下の桁数は指定どおりにはならないのです。

プログラムを実行し、PRINTプロシージャの出力を確認して、3つの変数が正しく読み込まれていることを確認してください。前で触れた最初の列を読み込むならポインタの移動は不要なことは覚えていますか？@1を削除してみて、SASがデフォルトで先頭列から読み込みを開始することを確かめてもいいでしょう。


<!-- 
If you look at the INPUT statement, you'll see that it uses @n absolute pointer controls to move the input pointer first to column 1 to read subj, then to column 27 to read height, and finally to column 30 to read weight. In general, the @ moves the pointer to column n, the first column of the field that is being read.  
The 4. that appears after subj, the 2. that appears after height, and 3. that appears after weight are the informats that tell SAS how to read each of the raw data values. In each case here, we are trying to read in standard numeric data values, and so we use what is called the w.d informat. The w tells SAS the width of the raw data value, that is how many columns it occupies. The d, which is optional, tells SAS the number of implied decimal places for the raw data value. The w and d must be connected by a period (.) delimiter. If the d is not present, you still need to make sure that you include the period in the informat name.  
Making this all a little more concrete ... here, the subj values are four columns wide with no decimal places, and hence we use the 4. informat. We alternatively could have specified a 4.0 informat, but we could not have specified 4 (without the period) as the informat. The height values are two columns wide with no decimal places, and hence we use the 2. informat. Finally, the weight values are three columns wide with no decimal places, and hence we use the 3. informat.  
Incidentally, the w.d informat ignores any d that we specify if the data value already contains a decimal point. So, for example, if we had a raw data value of 23.001 (occupying 6 columns with 5 digits, 1 decimal point, and 3 decimal places) and specified a 6. informat, SAS would still store the value as 23.001, even though we told SAS not to expect any decimal places.  
Okay ... launch and run the SAS program, and review the output obtained from the print procedure to convince yourself that the three variables were read incorrectly. Oh, do you remember when I said that you needn't tell SAS to move the input pointer to the first column because it does so by default? You might want to convince yourself of this by removing the @1 that appears in the INPUT statement. Then, rerun the program to convince yourself that SAS still reads the data values properly.  
 -->

### 例

この例では、@nポインタコントロールと、標準の文字・数値インフォーマットを使って、文字変数「l_name」と「f_name」、数値変数「weight」と「height」を一時SASデータセットtempに読み込んでいます。

<!-- 
### Example

The following SAS program uses the @n column pointer control and standard character and numeric informats to read, respectively, two character variables — l_name and f_name — and two numeric variables — weight and height — into a temporary SAS data set called temp:  
 -->

In [12]:
data temp;
  input @18 l_name $6.
        @6  f_name $11.
        @30 weight 3.
        @27 height 2.;
  datalines;
1024 Alice       Smith  1 65 125 12/1/95  2,036
1167 Maryann     White  1 68 140 12/01/95 1,800
1168 Thomas      Jones  2    190 12/2/95  2,302
1201 Benedictine Arnold 2 68 190 11/30/95 2,432
1302 Felicia     Ho     1 63 115 1/1/96   1,972
  ;
run;

title 'Output dataset: TEMP'; 
proc print data = temp;  
run;

OBS,l_name,f_name,weight,height
1,Smith,Alice,125,65
2,White,Maryann,140,68
3,Jones,Thomas,190,.
4,Arnold,Benedictine,190,68
5,Ho,Felicia,115,63



INPUTステートメントでは、まず@18でポインターを列18に移動させて「l_name」を$6.インフォーマットで読み込み、次に@6でポインターを列6に移動させて「f_name」を$11.インフォーマットで読み込んでいます。さらに@30でポインターを列30に進めて「weight」を3.インフォーマットで読み込み、最後に@27でポインターを列27に戻して「height」を2.インフォーマットで読み込んでいます。このように、@nポインター制御を使えば、データフィールドをどの順番で読み込んでも構いません。

「weight」の後の3. と「height」の後に現れる2. は見覚えがあるでしょう。これらは各数値変数をどのように読むかを指示するインフォーマットです。2つの文字変数、「l_name」と「f_name」の情報を見ると、それぞれがドル記号（\$）で始まることを確認できます。なぜなら、文字データ値を読み込もうとしているからです。したがって、\$w. informatを使用します。wは入力データ値の幅つまり、それが占める列の数をSASに伝えます。ドル記号（\$）とピリオド（.）は必須の区切り文字です。例えば、私たちの例では、苗字（l_name）は最大6列を占めるため、\$6. informatを使用し、名前（f_name）は最大11列を占めるため、\$11. informatを使用します。

プログラムを開いて実行し、PRINTプロシージャの出力を確認して、4つの変数が正しく読み込まれていることを確認してください。

<!-- 
The INPUT statement uses @n absolute pointer controls to move the input pointer first to column 18 to read l_name, then back to column 6 to read f_name, forward to column 30 to read weight, and back again to column 27 to read height. This example illustrates, therefore, how you can use @n pointer controls to read data fields in any order ... backwards, forwards, and backwards again.  
The 3. that appears after weight and the 2. that appears after height should look familiar. They are again the numeric informats that tell SAS how to read each of the two numeric variables of interest. Now, if you look at the informats for the two character variables, l_name and f_name, you should see that they each begin with a dollar sign (\$). Because we are trying to read in character data values, we use what is called the \$w. informat. The w tells SAS the width of the raw data value, that is how many columns it occupies. The dollar sign (\$) and period (.) are required delimiters. In our example, the last name (l_name) occupies as many as 6 columns and hence we use the \$6. informat, and the first name (f_name) occupies as many as 11 columns and hence we use the \$11. informat.  

Okay ... launch and run the SAS program, and review the output obtained from the print procedure to convince yourself that the four variables were read in correctly.  
 -->

### 例
この例では、@nの絶対カラムポインタコントロールに加えて、+nの相対カラムポインタコントロールと、非標準のインフォーマットも使用して、一時データセットtempに6つの変数を読み込んでいます。
<!-- 
### Example

In addition to using @n absolute pointer controls with numeric and character informats, the following SAS program uses +n relative pointer controls with nonstandard informats to create a temporary SAS data set called temp containing six variables:  
-->

In [13]:
data temp;
  input @1  subj 4.
        @6  f_name $11.
        @18 l_name $6.
        +3 height 2.
        +5 wt_date mmddyy8.
        +1 calorie comma5.;
  datalines;
1024 Alice       Smith  1 65 125 12/1/95  2,036
1167 Maryann     White  1 68 140 12/01/95 1,800
1168 Thomas      Jones  2    190 12/2/95  2,302
1201 Benedictine Arnold 2 68 190 11/30/95 2,432
1302 Felicia     Ho     1 63 115 1/1/96   1,972
  ;
run;

title 'Output dataset: TEMP'; 
proc print data = temp;  
run;

OBS,subj,f_name,l_name,height,wt_date,calorie
1,1024,Alice,Smith,65,13118,2036
2,1167,Maryann,White,68,13118,1800
3,1168,Thomas,Jones,.,13119,2302
4,1201,Benedictine,Arnold,68,13117,2432
5,1302,Felicia,Ho,63,13149,1972


「subj」、「f_name」、「l_name」の読み込み方は前の例と同じです。「height」の読み込みは+3を使って、「l_name」の最後の列から3列分進んだ位置から開始しています。「wt_date」の読み込みは+5を使って、「height」の最後の列から5列分進んだ位置から開始しています。「calorie」の読み込みは+1を使って、「wt_date」の最後の列から1列分進んだ位置から開始しています。

「height」、「 wt_date」、「calorie」の読み込みでは相対列ポインターを使用しています。+nの相対列ポインター制御は、現在のポインター位置から相対的にn列分進めることを示します。ポインターがどこに移動するかを正確に把握するには、フィールドの読み込み後にポインターがどこに移動するかを理解する必要があります。一般に、フォーマット入力の場合、ポインターは読み込んだフィールドの直後の最初の列に移動します。

「wt_date」と「calorie」フィールドには非標準の数値データが含まれています。「wt_date」にはスラッシュ(/)が使われた日付があるため、mmddyy8.のインフォーマットを使って月/日/年の形式の最大8文字の日付を読み込むよう指示しています。「calorie」フィールドにはコンマ(,)が含まれているため、comma6.のインフォーマットを使って、コンマを含む最大6文字の数値を読み込むよう指示しています。

具体的にしましょう。「l_name」フィールドを読み終わったとき、列ポインタはそのフィールドの次の列に移動します。つまり、Arnoldのdの直後に続く最初の列（列24）に移動します。その後、heightフィールドは右に3列離れて始まるため、+3を移動させるように指示します。「height」フィールドを読み終わったとき、列ポインタはそのフィールドの次の最初の列に移動します。つまり、「height」の後の空白の列（列29）に移動します。その後、wt_dateフィールドは右に5列離れて始まるため、+5を移動させるように指示します。wt_dateフィールドを読み終わったとき、列ポインタはそのフィールドの次の最初の列に移動します。つまり、カロリーデータの前に空白の列（列42）に移動します。その後、「calorie」フィールドは右に1列離れて始まるため、SASに+1を移動させるように指示します。

非標準的な数値データを含む「wt_date」と「calorie」フィールドについて説明すれば、INPUTステートメントの説明は完了です。wt_dateフィールドでは、スラッシュ（/）を使用して日付を指定しており、カロリーデータにはカンマ（,）が含まれています。「wt_date」フィールドを読み込むために、mmddyy8. informatを使用してSASにmm/dd/yy形式で書かれた日付を想定するように指示します。8は、日付が最大8列を占めることをSASに伝えます。「calorie」フィールドを読み込むために、comma6. インフォーマットを使用してSASにカンマを含む数値データを読み込み、最大6列を占めることを指示します。

一般に、COMMAw.dインフォーマットは数値を読み込み、埋め込まれた空白、コンマ、ハイフン、ドル記号、パーセント記号、右カッコ、左カッコ(マイナス記号に変換される)を削除します。w.はフィールドの幅(特殊文字を含む)を示し、dは小数点以下の桁数を示します(省略可能)。

プログラムを実行し、PRINTプロシージャの出力を確認してください。**フォーマット入力では出力フォーマットは指定されていない**ことに注意してください。例えば、日付12/01/95は13118という数値で出力されています。これはSASが日付を1960年1月1日からの経過日数として保存しているためです。1960年1月1日以前の日付は負の値になります。また、「calorie」の値はコンマなしで出力されていることにも注目してください。出力フォーマットを指定するには、**FORMATステートメント**を使う必要があります。
following code to see formatted output:  
<!-- 
You should now understand the specifications for reading subj, f_name and l_name. The INPUT statement tells SAS to go to column 1 to read the numeric field subj that is four columns wide, then to go to column 6 to read the character field f_name that is 11 columns wide, and then to go to column 18 to read the character field l_name that is 6 columns wide.  
The +n relative pointer controls are used to read the remaining three variables — height, wt_date, and calorie. The +n pointer control moves the input pointer forward to a column number that is relative to the current position of the pointer. That is, the + moves the pointer forward n columns. In order to count correctly, it is important to understand where the column pointer is located after each data value is read. In general, when using formatted input, the column pointer moves to the first column that follows the field that was just read.  
Again, let's make it more concrete. When SAS finishes reading the l_name field, the column pointer moves to the first column that follows that field, that is, to the column that immediately follows the d in Arnold (column 24). Now, the height field begins 3 columns to the right, so that's why we tell SAS to move +3 before reading the height data. When SAS finishes reading the height field, the column pointer moves to the first column that follows that field, that is, to the empty column that follows the heights (column 29). Now, the wt_date field begins 5 columns to the right, so that's why we tell SAS to move +5 before reading the weight dates. When SAS finished reading the wt_date field, the column pointer moves to the first column that follows the field, that is to the empty column just before the calorie data (column 42). Now, the calorie field begins 1 column to the right, so that's why we tell SAS to move +1 before reading the calorie data.  
We'd be all done explaining the INPUT statement if it weren't for the wt_date and calorie fields containing nonstandard numeric data. The wt_date field contains forward slashes (/) for specifying the dates, and the calorie data contains commas (,). To read the wt_date field, we use the mmddyy8. informat to tell SAS to expect dates written in mm/dd/yy form. The 8, of course, tells SAS that the dates could occupy as many as eight columns. To read the calorie field, we use the comma6. informat to tell SAS to read numeric data containing commas and occupying as many as 6 columns.  
In general, the COMMAw.d informat is used to read numeric values and to remove embedded blanks, commas, dashes, dollar signs, percent signs, right parentheses, and left parentheses (which are converted to minus signs). The w. tells SAS the width of the field (including dollar signs, decimal places, or other special characters). The d, which is optional, tells SAS the number of implied decimal places for a value.  
Whew!!! Now, go ahead and launch and run the SAS program, and review the output obtained from the print procedure. In doing so, note that formatted input does not imply formatted output. For example, note that SAS stores the date 12/01/95 as the number 13118. We won't worry about this too much yet — it's just that, interestingly enough, SAS stores dates as numeric values equal to the number of days that have passed since January 1, 1960. Yup, that's right —dates after January 1, 1960 are stored as unique positive integers, and dates before January 1, 1960 are stored as unique negative integers. Also, note that SAS prints the values of the variable calorie without commas. In order to get SAS to print the values in a more understandable format, we must tell SAS how to format the output by using a SAS FORMAT statement.  
Run the following code to see formatted output:  
-->

In [14]:
data temp;
  input @1  subj 4.
        @6  f_name $11.
        @18 l_name $6.
        +3 height 2.
        +5 wt_date mmddyy8.
        +1 calorie comma5.;
  format wt_date mmddyy8. calorie comma5.;
  datalines;
1024 Alice       Smith  1 65 125 12/1/95  2,036
1167 Maryann     White  1 68 140 12/01/95 1,800
1168 Thomas      Jones  2    190 12/2/95  2,302
1201 Benedictine Arnold 2 68 190 11/30/95 2,432
1302 Felicia     Ho     1 63 115 1/1/96   1,972
  ;
run;

title 'Output dataset: TEMP'; 
proc print data = temp;  
run;

OBS,subj,f_name,l_name,height,wt_date,calorie
1,1024,Alice,Smith,65,12/01/95,2036
2,1167,Maryann,White,68,12/01/95,1800
3,1168,Thomas,Jones,.,12/02/95,2302
4,1201,Benedictine,Arnold,68,11/30/95,2432
5,1302,Felicia,Ho,63,01/01/96,1972


## 他のSASデータセットからデータを読み込む

入力データがどこにあるかをSASに伝えるという点から、これまでにインストリームデータおよび外部の生データファイルに含まれるデータをSASデータセットに読み込む方法について扱いました。次は、あるSASデータセットに既に含まれているデータを別のSASデータセットに読み込む方法について扱います。

### 例

以下のプログラムでは永久データセットPHC6089.temp2と同じ一時データセットwork.tempを作成します。 :

<!-- 
## Reading Data in From Other SAS Datasets

In terms of telling SAS where your input data reside, we've investigated how to read instream data into a SAS data set. We've also investigated how to read data contained in an external raw data file into a SAS data set. Now, we'll investigate how to read data already contained in one SAS data set into another SAS data set.

### Example

The following SAS program creates a temporary SAS data set called work.temp, which is identical to the permanent SAS data set called PHC6089.temp2:  
 -->

In [15]:
libname PHC6089 '/folders/myfolders/SAS_Notes/data/';
 
data temp;
  set PHC6089.temp2;
run;

title 'Output dataset: TEMP'; 
proc print data=temp;  
run;

OBS,subj,gender,height,weight
1,1024,1,65,125
2,1167,1,68,140
3,1168,2,68,190
4,1201,2,72,190
5,1302,1,63,115


このコードでは

* 1レベルの名前が使用されているため、DATAステートメントはSASにtempという一時データセットを作成するように指示します。
* SETステートメントは、既存の永久SASデータセットstat480.temp2のデータを、DATAステートメントに現れる一時的なtempデータセットに割り当てるようにSASに指示します。既存のデータセットの変数には既に名前が付けられているので、INPUTステートメントは必要ありません。つまり、SETステートメントは読み込むデータがすでにSASデータセットの構造になっていることを示し、データセットの名前を与えるだけです。

このプログラムを実行する前に、このセクションの前の例で永久SASデータセットPHC6089.temp2を作成しなければならないことに注意してください。SASプログラムを開き、PHC6089.temp2が/folders/myfolders/SAS_Notes/data/というディレクトリに格納されていない場合は、LIBNAMEステートメントを編集して、PHC6089.temp2がコンピュータに格納されている場所を反映させる必要があります。必要な変更を行ったらSASプログラムを実行し、出力を確認してください。新しい一時データセットtempの構造と内容は、永久SASデータセットPHC6089.temp2と同じであることに注目してください。

<!-- 
In this case:

* because a one-level name is used, the DATA statement tells SAS to create a temporary dataset called temp.
* the SET statement tells SAS to assign the data in the existing permanent SAS data set stat480.temp2 — observation by observation — to the temporary temp data set appearing in the DATA statement. Because the variables in the existing data set have already been named, no input statement is necessary. That is, the SET statement indicates that the data being read are already in the structure of a SAS data set, and therefore merely gives the name of the data set.

Note that before this program will work, you will have already had to create the permanent SAS data set PHC6089.temp2 in our previous Example of this lesson. Launch the SAS program. If PHC6089.temp2 is not stored in a directory called /folders/myfolders/SAS_Notes/data/, you will need to edit the LIBNAME statement so it reflects the location that PHC6089.temp2 is stored on your computer. After convincing yourself that you've made any necessary changes, run the SAS program and review the output. Note that the structure and contents of the new temporary data set temp are identical to the permanent SAS data set PHC6089.temp2.
-->

## PROC IMPORTを使用した読み込み

CSVやExcel形式など、区切られているファイルではPROC IMPORTを使用して読み込むことができます。 これはR言語の関数`read_csv` と `read_excel`と似ています。

### 例

以下のプログラムはCSVファイルYouth_Tobacco_Survey_YTS_Data.csvを読み込み、一時データセットwork.ytsを作成します。

<!-- 
## Reading Data Using PROC IMPORT

If you have a delimited file such as a CSV or Excel file, you can read this file in by using the PROC IMPORT procedure. This will be similar to using the R functions `read_csv` and `read_excel`.

### Example

The following SAS program creates a temporary SAS data set called work.yts by reading in the CSV file Youth_Tobacco_Survey_YTS_Data.csv:  
 -->

In [16]:
filename yts_data 
  "/folders/myfolders/SAS_Notes/data/Youth_Tobacco_Survey_YTS_Data.csv";
  
proc import datafile = yts_data out = yts dbms = csv replace;
  getnames = yes;
  guessingrows = max;
run;


35                                                        SAS システム               2024年 6月 6日 木曜日 06時34分00秒

379        ods listing close;ods html5 (id=saspy_internal) file=_tomods1 options(bitmap_mode='inline') device=svg style=HTMLBlue;
379      ! ods graphics on / outputfmt=png;
380        
381        filename yts_data
382          "/home/user-name/SAS_Notes/data/Youth_Tobacco_Survey_YTS_Data.csv";
383        
384        proc import datafile = yts_data out = yts dbms = CSV replace;
385          getnames = yes;
386          guessingrows = max;
387        run;
[38;5;21mNOTE: Unable to open parameter catalog: SASUSER.PARMS.PARMS.SLIST in update mode. Temporary parameter values will be saved to [0m
WORK.PARMS.PARMS.SLIST.
388         /**********************************************************************
389         *   PRODUCT:   SAS
390         *   VERSION:   9.4
391         *   CREATOR:   External File Interface
392         *   DATE:      06JUN24
393         *   DESC:      Generate

PROC IMPORT を実行すると、SAS はデータセットを読み込むための DATA ステップコード（ログファイル出力に表示）を生成することに留意してください。

PROC IMPORT の主なオプションの一部：  
* datafille: 読み込もうとしているコンピュータ上のデータセットファイルへのパス。
* out: 作成する出力 SAS データセットの名前。前の例では一時データセットytsをWorkライブラリに作成しています。
* DBMS: 読み込むファイルの種類 CSVやexcel(XLS or XLSX). 
* replace: 同じ名前のSASデータセットが既に存在する場合、このオプションを使用して上書きします。
* getnames： 最初の行が列名の場合はYES. それ以外はNO。
* guessingrows: このオプションは、SASがデータセット内の変数のデータ型と書式を把握するためにスキャンするデータセットの行数を指定します。データセット全体をスキャンするには正確な行数またはMAXを指定します。

<!-- 
Note that when running PROC IMPORT SAS generates the DATA step code (shown in the log file output) to read in the dataset. Some of the key features of PROC IMPORT:  

* datafille: path to the dataset file on your computer that you are trying to read in.
* out: name of the output SAS dataset that you are creating. Here we made a temporary SAS datset called yts that is stored in the Work library.
* DBMS: type of file you are reading in such as csv (CSV) or excel(XLS or XLSX).
* replace: use this option to overwite a SAS dataset of the same name if one already exists.
* getnames: YES if the first row of the dataset are column names. NO otherwise.
* guessingrows: this option specifies the number of rows of the datatset to scan for SAS to try and figure out the data type and formats of the variables in the datset. Can take values equal to an exact number of rows or MAX to scan the whole dataset.
-->

## 演習

1. PROC IMPORT を使用して、Youth_Tobacco_Survey_YTS_Data.csv を読み込み、それに youth という名前をつけてください。
2. READMEに記載のリンクからMonumentsデータセット、Monuments.xlsxをダウンロードします。PROC IMPORTを使ってデータセットを読み込み、monという名前で出力してください。
3. DATALINESを使って以下の列フォーマットデータを読み込み、PROC PRINTを使って結果を出力するデータステップを書いてください。このデータセットには、フランスのIlle-et-Vilaineにおける食道癌の情報が含まれています。変数は以下のとおりです。

    * 年齢層
    * アルコール消費量
    * タバコ消費量
    * 症例数
    * コントロール数

データを読み込むためにデータステップを書いて結果を表示させてください。注意: 最初の行は列を数えるためのものです。各数値に5をかけたものが列番号になります。


<!-- 
## Exercises

1. Use PROC IMPORT to read in the Youth Tobacco study, Youth_Tobacco_Survey_YTS_Data.csv and name it youth.
2. Download an Excel version of the Monuments dataset, Monuments.xlsx, from CANVAS. Use PROC IMPORT to read in the dataset and call the output mon.
3. Write a DATA step that will read in the following column formatted data using DATALINES and print the results using PROC PRINT. This dataset contains information on esophageal cancer in Ille-et-Vilaine, France. The variables are

    * Age group
    * Alcohol consumption
    * Tobacco consumption
    * Number of Cases
    * Number of Controls

Write a DATA step to read in the data and print the results. Note: the first line is to help you count the columns. Each number corresponds to a multiple of 5.
 -->

``` 
----1----2----3----4----5----6----7----8
75+ 0-39g/day 0-9g/day      1        18
75+ 0-39g/day    10-19      2         6
75+ 0-39g/day      30+      1         3
75+     40-79 0-9g/day      2         5
75+     40-79    10-19      1         3
75+     40-79    20-29      0         3
75+     40-79      30+      1         1
75+    80-119 0-9g/day      1         1
75+    80-119    10-19      1         1
75+      120+ 0-9g/day      2         2
75+      120+    10-19      1         1
```
