# 文字列関数

ここでは文字列変数にのみ適用できる関数をいくつか確認していきます。例えば、文字列からブランクを削除したい場合は、**compress**関数を検討するかもしれません。あるいは、フルネームから一部の名前(名字など)を抽出したい場合は、**substr**関数を活用するかもしれません。今回学ぶ関数には、古くから使われている **length**、**substr**、**compbl**、**compress**、**verify**、**input**、**put**、**tranwrd**、**scan**、**trim**、**upcase**、**lowcase**、**| |**(連結)、**index**、**indexc**、**spedis**などがあります。また、SASバージョン9で新しく追加された関数として、**anyalpha**、**anydigit**、**catx**、**cats**、**lengthc**、**propcase**、**strip**、**count**、**countc**などがあります。

また、このタイミングでSASの様々なトピックに関する優れた情報源を紹介します。1つ目は[sasCommunity.org](https://www.sascommunity.org/mwiki/index.php?title=Main_Page)です。サイトを訪問すれば、このコミュニティについてもっと詳しく知ることができます。もう1つの情報源は、毎年開催されるSAS Global Forumカンファレンスです。しかし、本当に役立つのは、このカンファレンスの過去の論文やプレゼンテーションを検索できるリソースです。今回の内容はそこに基づいています!

今回の内容はRon Codyの[An Introduction to SAS Character Function](https://support.sas.com/resources/papers/proceedings/proceedings/forum2007/217-2007.pdf)を参考にしながら進めていきます。

## 文字変数の長さ

これらの関数について実際に説明する前に、SASが文字変数にどのように記憶領域の長さを割り当てるかを理解する必要があります。重要なのは、1) 文字変数の記憶領域の長さはコンパイル時に設定される 2) この長さはDATAステップで文字変数が最初に現れた時点で決まる、ことの2つです。  
データセットの文字変数の記憶領域の長さを確認する方法はいくつかあります。1つの方法は、PROC CONTENTSを実行することです。SAS 9以降では、新しいlengthc関数を使って文字変数の記憶領域の長さを確認することができます。

### 例
次のプログラムでは、SASの文字変数の長さの性質を示しています。

<!-- 
# Character Functions

In this lesson, we'll investigate some of the functions available in SAS that can be applied only to character variables. For example, if you want to remove blanks from a character string, you might consider using the **compress** function. Or, if you want to select a smaller substring, say a first name, from a larger string containing one's full name, you might want to take advantage of the **substr** function. Some of the functions that we will learn about are old standbys, such as: **length**, **substr**, **compbl**, **compress**, **verify**, **input**, **put**, **tranwrd**, **scan**, **trim**, **upcase**, **lowcase**, **| |** (concatenation), **index**, **indexc**, and **spedis**. And, some of the functions that we will learn about are new just to SAS Version 9. They include: **anyalpha**, **anydigit**, **catx**, **cats**, **lengthc**, **propcase**, **strip**, **count**, and **countc**.

Let's also take this opportunity to introduce you to a couple of great resources for finding information about a variety of SAS topics. One resource is [sasCommunity.org](https://www.sascommunity.org/mwiki/index.php?title=Main_Page). You can learn more about the sasCommunity.org just by mucking around for a bit on the site. Another resource is the SAS Global Forum Conference which is held each year. However, the really helpful place to end up is a resource that allows you to [search for previous papers and presentations](https://www.lexjansen.com/sugi/) from the SAS Global Forum (annual conferences for SAS Users). It is using this search engine where you'll find the material this lesson is based on!

For this lesson, we will work through Ron Cody's paper [An Introduction to SAS Character Function](https://support.sas.com/resources/papers/proceedings/proceedings/forum2007/217-2007.pdf).

## Lengths of Character Variables

Before we actually discuss these functions, we need to understand how SAS software assigns storage lengths to character variables. It is important to  remember two things: 1) The storage length of a character variable is set at compile time. and 2) this length is determined by the first appearance  of  a character variable in a DATA step. There are several ways to check the storage length of character variables in your SAS data set. One way is to  run PROC CONTENTS. If you are using SAS 9 and above, the new function LENGTHC can be used to determine the storage length of a character variable.  

### Example

The following SAS program illustrates properties of the length of a character varible in SAS.  
-->

In [1]:
data chars1;
  file print;
  string = 'abc';
  length string $ 7;  /* Does this do anything */
  storage_length = lengthc(string);
  display = ":" || string || ":";
  put storage_length= ;
  put display= ;
run;

プログラムを確認してみましょう。一時データセットchars1を作成しています。FILEステートメントは、PUTステートメントの出力先を決定します。ここでは、PRINTオプションを使ってPUTの出力をPROCステップからのプロットや他の出力と同様に、ODS出力先のアウトプットに出力します。次に、文字列'abc'を含む文字変数「string」を作成しています。変数を最初に作成しているので、次の行でstringの長さを7文字に設定しても無視されます。lengthc関数を使ってstringの長さを数値変数storage_lengthに保存し、PUTステートメントで出力すると、このことが分かります。2つのPUTステートメントはどちらも

```
PUT <varname>=;
```

の形式を使用しているため、変数名と格納された値の両方が出力されています。また、文字地の連結演算子「||」を使って、変数「string」に含まれる文字値の前後にセミコロンを付けた文字列「display」を作成しています。  
「string」の長さを希望する7(文字)に正しく設定するには、以下のプログラムのようにLENGTHステートメントを変数stringに値を代入する前に実行する必要があります。

<!-- 
Let's examine the program. We are creating a temporary dataset called chars1. The FILE statement determines where output from PUT statement is sent to. In this case, the use of the PRINT option sends output from PUT to the ODS output destination used for all other output such as plots and other output from PROC steps. We then create a character variable called string that contains the string 'abc'. Since we create the variable first, the next line where we set the length of string to be 7 characters is ignored. We can see that this happens by using the **lengthc** function to save the length of the string variable to the numeric variable storage_length which is then output by using the PUT statments. Note that both PUT statements use the format  

```
PUT <varname>=;
```

which results in both printing out the variables name along with it's stored value as we can see in the output shown above. Note that we have also created another string called display that contains the character value stored in string with semicolons appended on either end by using the string concatenation operators ||.  
In order to correctly set the length of string to the desired length of 7 characters, we must run the LENGTH statement first before assigning a value to string as in the following program.  
-->

In [2]:
data chars2;
  file print;
  length string $ 7;  /* Does this do anything */
  string = 'abc';
  storage_length = lengthc(string);
  display = ":" || string || ":";
  put storage_length= ;
  put display= ;
run;

LENGTHステートメントと変数「string」の作成の順序を入れ替えると、「string」の長さが7に設定され、空白が追加されて余分な部分が埋められていることが分かります。
<!-- 
Now that we have switched the order of the LENGTH statement and creating the variable string, the length of string is now set to 7 instead of 3 and whitespace has been added to pad the extra character values to make it length 7 as shown in the display variable.  
-->

## 文字列からの削除

このセクションでは、様々なCOMPRESS関数を使って、文字列から文字を削除する方法を検討します。

### 例

この例では、複数のブランクを1つのブランクに変換する方法を示します。名前と住所がファイルに入力されていて、データ入力担当者がある箇所で名字と名前の間や住所欄に余分な空白を入れてしまった場合を考えてみましょう。すべての名前と住所を単一のブランクで保存したい場合は、次のようにします。

<!-- 
## Removing Characters from a String

In this section we will examine using the different COMPRESS functions to remove character values from SAS character strings.

### Example

This example will demonstrate how to convert multiple blanks to a single blank. Suppose you have some names and addresses in a file. Some of the data entry clerks placed extra spaces between the first and last names and in the address fields. You would like to store all names and addresses with single blanks. Here is an example of how this is done:  
-->

In [3]:
data multiple;
  input #1 @1  name    $20.
        #2 @1  address $30.
        #3 @1  city    $15.
           @20 state    $2.
           @25 zip      $5.;
  name = compbl(name);
  address = compbl(address);
  city = compbl(city);
datalines;
Ron Cody
89 Lazy Brook Road
Flemington         NJ    08822
Bill     Brown
28   Cathy   Street
North   City       NY    11518
;
run;

proc print data = multiple;
run;

OBS,name,address,city,state,zip
1,Ron Cody,89 Lazy Brook Road,Flemington,NJ,882
2,Bill Brown,28 Cathy Street,North City,NY,1151


compbl関数は、連続するブランクを1つのブランクにします。出力を見ると、2番目のaddressの28とCathyの間、Streetの前などの余分な空白が削除されていることが分かります。

<!-- 
The **compbl** function reduces anywhere it finds multiple successive blanks into a single blank. Note that it removed the extra white space between 28 and Cathy and Street in the second address.  
-->

より一般的な問題として、文字列から選択した文字を削除したい場合があります。例えば、文字値として格納された電話番号からブランク、括弧、ハイフンを除去したい場合を考えてみましょう。ここで**COMPRESS**関数が役立ちます!COMPRESS関数は、指定した任意の文字を文字変数から削除することができます。

### 例

次のプログラムでは、COMPRESS関数を2回使用しています。1回目はブランクを削除し、2回目はブランクと「()」、「-」を削除しています。

<!-- 
A more general problem is to remove selected characters from a string. For example, suppose you want to remove blanks, parentheses, and dashes from a  phone number that has been stored as a character value. Here comes the **COMPRESS**  function  to  the  rescue! The COMPRESS function can remove any number of specified characters from a character variable.

### Example

The program below uses the COMPRESS function twice. The first time, to remove blanks from the string, and the second to remove blanks plus the other above mentioned characters. Here is the code:
-->

In [4]:
data phone;
  input phone $ 1-15;
  phone1 = compress(phone);
  phone2 = compress(phone,'(-) ');
datalines;
(908)235-4490
(201) 555-77 99
;
run;

title 'The phone data set';
proc print data = phone noobs;    
run;

phone,phone1,phone2
(908)235-4490,(908)235-4490,9082354490
(201) 555-77 99,(201)555-7799,2015557799


変数「PHONE1」はブランクのみが削除されています。COMPRESS関数に2番目の引数がないので、COMPRESS関数はブランクのみを削除します。「PHONE2」の場合、COMPRESS関数の2番目の引数には、削除する文字のリスト(左括弧、ブランク、右括弧、ハイフン)が単一引用符または二重引用符で囲まれています。削除する文字のリストを指定する場合は、ブランクを明示的にリストに含めない限り、ブランクは削除対象に含まれないことに注意してください。

<!-- 
The variable PHONE1 has just blanks removed. Notice that the COMPRESS function does not have a second argument here. When it is omitted, the COMPRESS function removes only blanks. For the variable PHONE2, the second argument of the COMPRESS function contains a list of the characters to remove: left parenthesis, blank, right parenthesis, and dash. This string is placed in single or double quotes. Remember, when you specify a list of characters to remove, blanks are no longer included unless you explicitly include a blank in the list.  
-->

## 文字データの検証

データ処理で一般的なタスクに、データの検証があります。例として、文字変数に特定の値のみが存在することを確認したい場合があります。

### 例

以下の例では、'A'、'B'、'C'、'D'、'E'のみが妥当なデータ値です。妥当でない値が存在するかどうかを簡単にテストする方法を示します。

<!-- 
## Character Data Verification

A common task in data processing is to validate data.  For example, you may want to be sure that only certain values are present in a character variable. 

### Example

In the example below, only the values 'A', 'B', 'C', 'D', and 'E' are valid data values. A very easy way to test if there are any invalid characters present is shown next:  
-->

In [5]:
data verify;
  input @1  id $3.
        @5  answer $5.;
  position = verify(answer,'abcde');
  datalines;
001 acbed
002 abxde
003 12cce
004 abc e
;
run;

title 'The verify data set';
proc print data = verify noobs;    
run;

id,answer,position
1,acbed,0
2,abxde,3
3,12cce,1
4,abc e,4


ここで有用なのはVERIFY関数ですが、やや複雑です。第1引数のすべての文字を検証し、検証用文字列 (第2引数) に含まれない値が見つかった場合、最初のその値の位置を返します。すべての文字が検証用文字列にある場合は、0 が返されます。上の出力を見ると動作がより明確になります。

VERIFY関数(およびその他の多くの文字関数)を使用する際の注意点は、末尾のブランクです。例えば、次のようなケースを見てみましょう。
<!-- 
The workhorse of this example is the **VERIFY** function. It is a bit complicated. It inspects every character in the first argument and, if it finds any value not in the verify string (the second argument), it will return the position of the first offending value. If all the values of the string are located in the verify string, a value of 0 is returned. To help clarify this, look at the output shown above.  
One thing to be careful of when using the VERIFY function (and many of the other character functions) is trailing blanks. For example, look at the following:  
-->

In [6]:
data trailing;
  length string $ 10;
  string = 'abc';
  pos1 = verify(string,'abcde');
  pos2 = verify(trim(string),'abcde');
run;

title 'The trailing data set';
proc print data = trailing noobs;    
run;

string,pos1,pos2
abc,4,0


LENGTH ステートメントにより、SASは「string」に 7個の末尾のブランクを追加して長さ10にするため、「POS1」の値は 4 (最初の末尾ブランクの位置) となります。末尾のブランク問題を回避する1つの方法は、verify関数を使用する前にTRIM関数で末尾ブランクを削除することです。「POS2」では最初にTRIM関数を使用しているので末尾ブランクが削除されたため、無効な文字はなくVERIFYは0を返します。ただし、TRIMは先頭と末尾のブランクしか削除しないため、ブランクが文字列の中央にある場合は機能しません。その場合は検証用文字列にブランクを追加するか、compress関数を使ってすべてのブランクを削除する必要があります。

<!-- 
The LENGTH statement forces SAS to add 7 trailing blanks to pad string to be of length 10, so the value of POS1 is 4, the position of the first trailing blank. One way to avoid the trailing blank problem is to remove the trailing blanks before using the verify function. The **TRIM** function does this for us. We use TRIM first for POS2, so now with the trailing blanks removed there are no invalid characters and VERIFY returns 0. Do note that TRIM only removes **leading** and **trailing** blanks, so this would not work if the blanks were in the middle of the string. In this case, you could add a blank to the verify string or use compress to remove all the blanks.  
-->

## 部分文字列の抽出

部分文字列とは、文字列の一部のことです(実際には文字列と同じ長さの場合もありますが、あまり意味がありません)。SASではsubstr関数を使って部分文字列を抽出できます。

### 例
この例では、IDコードの最初の文字が州の略称になっており、さらに7～9文字目が数値コードになっているとします。新しい2つの変数を作成したいとしましょう。1つは2文字は州コードで、もう1つは7、8、9桁目の3桁の数字から構成される数値変数です。


<!-- 
## Extracting Substrings

A substring is a part a longer string (although it can actually be the same length but this would not be too useful). To extract a substring in SAS we can use the SUBSTR function.

### Example

In this example, you have ID codes which contain in the first two positions, a state abbreviation. Furthermore, positions 7-9 contain a numeric code. You want to create two new variables; one containing the two digit state codes and the other, a numeric variable constructed from the three numerals in positions 7,8, and 9. Here goes:  
-->

In [7]:
data pieces_parts;
  input id $ 1-9;
  length state $ 2;
  state = substr(id,1,2);
  num = input(substr(id,7,3),3.);
datalines;
NYXXXX123
NJ1234567
;
run;

title 'The pieces_parts data set';
proc print data = pieces_parts noobs;
run;

id,state,num
NYXXXX123,NY,123
NJ1234567,NJ,567


州コードの作成は簡単です。substr関数を使用します。第1引数は、部分文字列を抽出したい変数、第2引数は部分文字列の開始位置、最後の引数は部分文字列の長さ(終了位置ではないことに注意)です。また、「STATE」の長さを2バイトに設定するためにLENGTHステートメントを使用していることにも注目してください。LENGTHステートメントがないと、「STATE」の長さはIDの長さと同じになります。なぜでしょうか?文字変数の長さはコンパイル時に設定されることを覚えていますか。開始位置と長さのパラメータはここでは定数ですが、計算されるか、外部ファイルから読み込まれる場合もあります。LENGTHステートメントがない場合、どのような動作になるでしょうか? 長さnの文字列から抽出できる最長の部分文字列の長さは何でしょうか? 答えはnで、部分文字列の長さのデフォルト値として使用されます。  

3桁の番号コードを抽出するのはより複雑です。最初にsubstr関数を使って3桁の数字(数字の文字表現)を取り出します。しかし、substr関数の結果は常に文字値になります。文字値を数値に変換するには、input関数を使用します。input関数は、第1引数を第2引数のインフォーマットに従ってファイルから読み込まれたかのように読み込みます。したがって、最初のオブザベーションの場合、substr関数は文字列'123'を返し、input関数はこれを数値123に変換します。ちなみに、第2引数としてより長いinformatを使用しても問題ありません。例えば、次のように入力ステートメントを書くことができます。

```
input(substr(id,7,3),8.);
```

これは問題なく機能するので、文字列の長さをあらかじめ知らない場合に役立ちます。


<!-- 
Creating the state code is easy. We use the SUBSTR function. The first argument is the variable from which we want to extract the substring, the second argument is the starting position of the substring, and the last argument is the length of the substring (not the ending position as you might guess). Also note the use of the LENGTH statement to set the length of STATE to 2 bytes. Without a LENGTH statement, the length of STATE would be the same as the length of ID. Why? Remember that character variable lengths are set at compile time. The starting position and length parameters are constants here, but they could have been computed or read in from an external file. So, without a LENGTH statement, what is SAS to do? What is the longest substring you can extract from a string of length n? The answer is n and that is what SAS uses as the default length of the result.   
Extracting the three digit number code is more complicated. First we use the SUBSTR function to pull out the three numerals (numerals are character representations of numbers). However, the result of a SUBSTR function is always a character value. To convert the character value to a number, we use the INPUT function. The INPUT function takes the first argument and "reads" it as if it were coming from a file, according to the informat listed as the second argument. So, for the first observation, the SUBSTR function would return the string '123' and the INPUT function would convert this to the number 123. As a point of interest, you may use a longer informat as the second argument without any problems. For example, the INPUT statement could have been written as:  

```
input(substr(id,7,3),8.);
```

and everything would have worked out fine. This fact is useful in situations where you do not know the length of the string ahead of time.  
-->

substr関数のやや隠れた便利な使い方をご紹介したいと思います。等号の左側にsubstr関数を置くことで(古いマニュアルでは疑似substr関数と呼ばれていたと思います)、文字列の特定の位置に文字を配置することができます。

### 例
収縮期血圧(SBP)と拡張期血圧(DBP)がデータセットに入力されているとします。これらの値を出力する際に、高い値にアスタリスクを付けたいとしましょう。
次のプログラムでは、等号の左側のsubstr関数を使って実行しています。

<!-- 
There is a particularly useful and somewhat obscure use of the SUBSTR function that we would like to discuss next. You can use this function to place characters in specific locations within a string by placing the SUBSTR function on the left hand side of the equal sign (in the older manuals I think this was called a SUBSTR pesudo function).

### Example

Suppose you have some systolic blood pressures (SBP) and diastolic blood pressures (DBP) in a SAS data set. You want to print out these values and star high values with an asterisk. Here is a program that uses the SUBSTR function on the left of the equals sign to do that:  
-->

In [8]:
data pressure;
  input sbp dbp @@;
  length sbp_chk dbp_chk $ 4;
  sbp_chk = put(sbp,3.);
  dbp_chk = put(dbp,3.);
  if sbp > 160 then substr(sbp_chk,4,1) = '*';
  if dbp >  90 then substr(dbp_chk,4,1) = '*';
datalines;
120 80 180 92 200 110
;
run;

title 'The pressure data set';
proc print data = pressure noobs;
run;

sbp,dbp,sbp_chk,dbp_chk
120,80,120,80
180,92,180*,92*
200,110,200*,110*


まず、「SBP_CHK」と「DBP_CHK」のLengthを4(値用に3文字と、アスタリスクの可能性がある1文字)に設定する必要があります。次に、put関数を使って数値から文字への変換を行います。put関数は、ある意味でinput関数と似ています。第1引数の値を等号の左側の変数に「出力」するわけですが、第2引数のフォーマットに従って行います。「出力」とは実際には等号の左側の変数に値を割り当てることを意味します。
出力から確認できますが、substr関数は、「SBP」の値が160を超えるか「DBP」の値が90を超える場合に、4文字目にアスタリスクを割り当てます。
<!-- 
We first need to set the lengths of SBP_CHK and DBP_CHK to 4 (three spaces for the value plus one for the possible asterisk). Next, we use a PUT function to perform a numeric to character conversion. The PUT function is, in some ways, similar to the INPUT function. It "writes out" the value of the first argument, according to the FORMAT specified in the second argument. By "write out" we actually mean assign the value to the variable on the left of the equal sign. The SUBSTR function then places an asterisk in the fourth position when a value of SBP is greater than 160 or a value of DBP is greater than 90, as you can see in the output above.  
-->

## SCAN関数による文字列の解析(パース)

文字列の解析(パース)とは、ある規則に従ってそれを分割することを意味します。文字列を区切る文字がわかっている場合は、scan関数を使って解析することができます。

### 例

次の例では、5つの別々の文字値が1行に空白、コンマ、セミコロン、ピリオド、感嘆符のいずれかで区切られて入力されています。これらの5つの値を抽出し、5つの文字変数に割り当てたいとします。scan関数がを使わないと難しいですが、使えば簡単です。


<!-- 
## Parsing a String with SCAN

Parsing a string means to take it apart based on some rules. We can parse a string by using the SCAN function if we know what character values are used to separate different parts of the string.

### Example

In the example to follow, five separate character values were placed together on a line with either a space, a comma, a semi-colon, a period, or an explanation mark between them. You would like to extract the five values and assign them to five character variables. Without the SCAN function this would be hard; with it, it's easy:  
-->

In [9]:
data parse;
  input long_str $ 1-80;
  array pieces[5] $ 10 piece1-piece5;
  do i = 1 to 5;
    pieces[i] = scan(long_str,i,',.! ');
  end;
  drop long_str i;
datalines;
this line,contains!five.words
abcdefghijkl xxx yyy
;
run;

title 'The parse data set';
proc print data = parse noobs;   
run;

piece1,piece2,piece3,piece4,piece5
this,line,contains,five,words
abcdefghij,xxx,yyy,,


scan関数の構文は次のようになります。

```
SCAN(char_var,n,'list-of-delimiters');
```

scan関数は「char_var」のn番目の"単語"(2つの区切り文字の間にあるもの)を返します。「char_var」にn個未満の単語しかない場合、scan関数はブランクを返します。nが負の場合は、右から左へのスキャンが行われます。nが文字列内の単語の数を超える場合は、欠損値が返されます。  
scan関数をDOループに入れることで、文字列からn番目の単語を取り出すことができます。SASのループと配列はまだ説明していませんが、Rなど他の言語でのループと配列の一般的な構文から理解できる人もいるかもしれません。  

<!-- 
The function:  

```    
SCAN(char_var,n,'list-of-delimiters');
```

returns the nth "word" from the char_var, where a "word" is defined as anything between two delimiters. If there are fewer than n words in the character variable, the SCAN function will return a blank. If n is negative, the scan will proceed from right to left. If n is greater than the number of words in the string, a missing value is returned.  
By placing the SCAN function in a DO loop, we can pick out the nth word in the string. Even though we have not discussed loops and array in SAS yet, hopefully the general syntax makes sense from using loops and arrays in other languages such as R.  
-->

### 例  

ここではscan関数を使って、ミドルネームやイニシャルを含む可能性のある姓名から姓を抽出する例を示します。この例では、姓でアルファベット順にリストを作成したいとします。まずはプログラムを見てもらい、次に説明します。

<!-- 
### Example

Here is an interesting example that uses the SCAN function to extract the last name from a character variable that contains first and last name as well as a possible middle name or initial. In this example, you want to create a list in alphabetical order by last name. First the program, then the explanation:  
-->

In [10]:
data first_last;
  input @1  name  $20.
        @21 phone $13.;
  *** The next statement extracts the last name from name;
  last_name = scan(name,-1,' ');    /* scans from the right */
datalines;
Jeff W. Snoker        (908)782-4382
Raymond Albert        (732)235-4444
Alred Edward Newman   (800)123-4321
Steven J. Foster      (201)567-9876
Jose Romerez          (516)593-2377
;
run;

title 'Names and Phone Numbers in Alphabetical Order (by Last Name)';
proc report data = first_last nowindows;    
  columns name phone last_name;
  define last_name / order noprint width = 20;
  define name      / display 'Name' left width = 20;
  define phone     / display 'Phone Number' width = 13 format=$13.;
run;

Name,Phone Number
Raymond Albert,(732)235-44
Steven J. Foster,(201)567-98
Alred Edward Newman,(800)123-43
Jose Romerez,(516)593-23
Jeff W. Snoker,(908)782-43


姓を抽出するのは簡単で、scan関数の第2引数に-1を指定するだけです。負の値を指定すると、右から左へのスキャンが行われることを思い出してください。REPORTプロシージャの出力が上に示されています。

REPORTプロシージャは単に表を作成しています。COLUMNSステートメントで表に使用する変数を定義し、DEFINEステートメントでその使い方を記述します。例えば、オプションorderとnoprintが「last_name」に使用されているので、姓を使って行を順序付けますが、列自体は出力表に表示されません。

<!-- 
It is easy to extract the last name by using a –1 as the second argument of the SCAN function. Remember, a negative value for this arguments results in a scan from right to left. Output from the REPORT procedure is shown above.  
The REPORT procedure simply creates a table. The COLUMNS statement defines what variables will be used to make the table, and the DEFINE statements describes how they will be used. For example, the order and noprint options are used for last_name so that we use the last name to order the rows but do not print the column to the output table.  
-->

## 文字列内のある文字列の位置を特定する

INDEX関数とINDEXC関数の2つの似た関数を使うと、文字列内の別の文字列の位置を特定できます。例えば、'ABCDEFG'という文字列があり、文字列'DEF'の位置(開始位置4)を知りたい場合は、次のINDEX関数を使用できます。

```
INDEX('ABCDEFG','DEF');
```

第1引数は検索対象の文字列、第2引数は検索する文字列です。この関数は4を返します。つまり、文字列'DEF'の開始位置です。いくつかの文字のいずれかの開始位置を知りたい場合は、indexc関数を使用できます。例えば、文字列'ABCDEFG'内の文字'G'、'C'、'B'、'F'のいずれかの開始位置を知りたい場合は、次のようにコーディングします。

```
INDEXC('ABCDEFG','GCBF');
```

または

```
INDEXC('ABCDEFG','G','C','B','F');  
```

この関数は2を返します。つまり、'B'の位置で、第1引数で最初に見つかった文字の位置です。

### 例

以下の短いプログラムはこれらの2つの関数を動作を示すものです。文字列を見つけられなかった場合、両方の関数は0を返します。

<!-- 
## Locating the Position of One String Within Another String

Two somewhat similar functions, INDEX and INDEXC can be used to locate a string, or one of several strings within a longer string.  For example, if you have a string 'ABCDEFG' and want the location of the letters DEF (starting position 4), the following INDEX function could be used:

`INDEX('ABCDEFG','DEF');`

The first argument is the argument you want to search, the second argument is the string you are searching for. This would return a value of 4, the starting position of the string 'DEF'. If you want to know the starting position of any one of several characters, the INDEXC function can be used.  As an example, if you wanted the starting position of any of the letters 'G', 'C', 'B', or 'F' in the string 'ABCDEFG', you would code: 

`INDEXC('ABCDEFG','GCBF');`

or

`INDEXC('ABCDEFG','G','C','B','F');`

The function would return a value of 2, the position of the 'B', the first letter found in the first argument.

### Example

Here is a short program which demonstrate these two functions: If the search fails, both functions return a zero.  
-->

In [11]:
data locate;
  input string $ 1-10;
  first   = index(string,'xyz');
  first_c = indexc(string,'x','y','z');
datalines;
abcxyz1234
1234567890
abcx1y2z39
abczzzxyz3
;
run;

title 'The locate data set';
proc print data = locate noobs;  
run;

string,first,first_c
abcxyz1234,4,4
1234567890,0,0
abcx1y2z39,0,4
abczzzxyz3,7,4



## 大文字・小文字の変換と先頭のみ大文字化

UPCASE関数とLOWCASE関数は、その名前から推測できるとおり、それぞれ文字列を大文字と小文字に変換します。これらの2つの関数は、特にデータ入力担当者が注意を欠いて同じ変数に大文字と小文字が混在して入力された場合に便利です。すべての文字変数を配列に入れると一括してUPCASE(またはLOWCASE)処理することができます。

### 例

次の例ではupcase関数を使って、すべての文字変数を大文字に変換しています。 


<!-- 
## Converting Between Lower and Upper Case and Proper Case

The two companion functions UPCASE and LOWCASE do just what you would expect. These two functions are especially useful when data entry clerks are careless and a mixture of upper and lower cases values are entered for the same variable. You may want to place all of your character variables in an array and UPCASE (or LOWCASE) them all. 

### Example

The following example program uses the UPCASE function to convert all character variables to upper case.  
-->

In [12]:
data up_down;
  length a b c d e $ 1;
  input a b c d e x y;
  datalines;
M f P p D 1 2
m f m F M 3 4
;
run;

data upper;
  set up_down;
  array all_c[*] _character_;
  do i = 1 to dim(all_c);
    all_c[i] = upcase(all_c[i]);
  end;
  drop i;
run;

title 'The upper data set';
proc print data = upper noobs;
run;

a,b,c,d,e,x,y
M,F,P,P,D,1,2
M,F,M,F,M,3,4


このプログラムでは、_CHARACTER_キーワードを使って配列作成時に文字変数を個別にリストアップするのではなく、すべての文字変数を選択しています。プログラムを実行すると、「A」、「B」、「C」、「D」、「E」のすべての値が大文字に変換されます。UPCASE関数の代わりにLOWCASE関数を使えば、すべての文字値が小文字になります。

繰り返しになりますが、配列とdoループの説明はまだこれからですので、完全には理解できないかもしれません。これらについては後ほどで詳しく取り上げます。


<!-- 
This program uses the _CHARACTER_ keyword to select all the character variables instead of individually listing them out when creating the array. The result of running this program is to convert all values for the variables A,B,C, D, and E to upper case. The LOWCASE function could be used in place of the UPCASE function if you wanted all your character values in lower case.  
Again, do not worry if you don't fully understand the array and do loops yet. We will cover these in more detail in an unpcoming lesson.  
-->

SAS V9で追加された便利な新しい関数にPROPCASEがあります。この関数は、各単語の最初の文字を大文字にします。

### 例

次の例ではPROPCASE関数を使って、文字変数に格納されたテキストを各単語の最初の文字が大文字で、それ以外は小文字に変換しています。

<!-- 
A handy new V9 function is PROPCASE. This function capitalizes the first letter of each word. 

### Example

The following example program uses the PROPCASE function to text stored in a character variable to proper case, i.e. the frist letter is capitalized followed by all lower case letters within a word.  
-->

In [13]:
data proper;
  input name $40.;
  propname = propcase(name);
  datalines;
rOn coDY
the tall and the short
the "%$#@!" escape
;
run;

title 'The proper data set';
proc print data = proper noobs;    
run;

name,propname
rOn coDY,Ron Cody
the tall and the short,The Tall And The Short
"the ""%$#@!"" escape","The ""%$#@!"" Escape"


## 文字列内の単語の置換
TRANWRD(translate word)関数を使えば、文字列変数内で検索と置換を行うことができます。TRANWRD関数の構文は次のとおりです。

```
TRANWRD(char_var,'find_str','replace_str');
```

ここで、

* char_varは検索対象の文字列
* find_strは検索する文字列  
* replace_strはfind_strが見つかった場合に置き換える文字列

つまり、この関数はfind_strの出現箇所すべてをreplace_strに置き換えます。

### 例

次の例では、住所内の単語'Street'、'Avenue'、'Road'をそれぞれ'St.'、'Ave.'、'Rd.'に置き換えて標準化したいとしています。プログラムを確認してみてください。

<!-- 
## Substituting One Word for Another in a String

TRANWRD (translate word), can perform a search and replace operation on a string variable. The syntax of the TRANWRD function is: 

`TRANWRD (char_var,'find_str','replace_str');`

where

* char_var is the string we are searching within
* find_str is the string we are searching for within char_var
* replace_str is the string which will be substituted for find_str within char_var if found.

That is, the function will replace every occurrence of find_str with replace_str.  

### Example

In the following example, we want to standardize addresses by converting the words 'Street', 'Avenue', and 'Road' to the abbreviations 'St.', 'Ave.', and 'Rd.' respectively. Look at the following program:  
-->

In [14]:
data convert;
  input @1 address $20.;
  *** Convert Street, Avenue, and Road 
      to their abbreviations;
  address = tranwrd(address,'Street','St.');
  address = tranwrd(address,'Avenue','Ave.');
  address = tranwrd(address,'Road','Rd.');
  datalines;
89 Lazy Brook Road
123 River Rd.
12 Main Street
;
run;

title 'The convert data set';
proc print data = convert;    
run;

OBS,address
1,89 Lazy Brook Rd.
2,123 River Rd.
3,12 Main St.


TRANWRD関数は、nullではなく別の文字列で置換する必要があります。replace_strがnull・空文字列''の場合、TRANWRD関数は代わりに空白' 'を使用します。空文字列で置換したい場合は、trimn('')を置換文字列としてTRANSTRN関数を使う必要があります。

<!-- 
The TRANWRD function must replace the find_str with a non null string, so if the replace_str is given as the empty string '', TRANWRD will instead use an empty space ' '. If you want to replace with an empty string, you will have to use the TRANSTRN function with trimn('') as the replacement string. 
-->

In [15]:
title "Comparison of TRANSWRD and TRANSTRN with " ;
data _null_;
  file print;
  string1='*' || tranwrd('abcxabc', 'abc', '') || '*';
  put string1=;
  string2='*' || transtrn('abcxabc', 'abc', '') || '*';
  put string2=;
  string3='*' || transtrn('abcxabc', 'abc', trimn('')) || '*';
  put string3=;
run;

## ファジー比較: SPEDIS関数

SPEDIS関数は、2つの文字列間の「スペリング距離」を測定します。2つの文字列が同一の場合、この関数は0を返します。スペリングエラーのカテゴリごとに、「ペナルティ」ポイントが割り当てられます。例えば、2つの文字列の最初の文字が異なる場合、比較的大きなペナルティがあります。2文字が入れ替わっている場合、ペナルティポイント数は小さくなります。この関数はスペリングに違いがあるファイル同士のファジーな結合に非常に役立ちます。数字だけで構成される文字データ(社会保障番号など)にも使用できます。この関数の構文は次のとおりです。

```
SPEDIS(string1,string2);
```

### 例

次のプログラムでは、いくつかの文字列間の距離を示しています。


<!-- 
## Fuzzy Comparisons: The SPEDIS Function

The SPEDIS function measures the "spelling distance" between two strings.  If the two strings are identical, the function returns a 0. For each category of spelling error, the function assigns "penalty" points.  For example, if the first letter in the two strings is different, there is a relatively large  penalty. If two letters are interchanged, the number of penalty points is smaller. This function is very useful in performing a fuzzy merge where there may be differences in spelling between two files.    You can also use it with character data consisting of numerals, such as social security numbers. The syntax of this function is:

`SPEDIS(string1,string2);`

### Example

The following program demonstrates some example distances between strings.  
-->

In [16]:
data compare;
  length string1 string2 $ 15;
  input string1 string2;
  points = spedis(string1, string2);
  datalines;
same same
same sam
firstletter xirstletter
lastletter lastlettex
receipt reciept
;
run;

title 'The compare data set';
proc print data = compare noobs;    
run;

string1,string2,points
same,same,0
same,sam,8
firstletter,xirstletter,18
lastletter,lastlettex,10
receipt,reciept,7


## ANY関数

SAS 9の「ANY」関数を使うと、数字、英数字、アルファベット、空白、句読点などの文字クラスの位置を特定できます。関数は次のとおりです。

* anyalnum - 任意の英数字(文字または数字)を見つける
* anyalpha - 任意の文字を見つける 
* anydigit - 任意の数字を見つける
* anypunct - 任意の句読点を見つける
* anyspace - 任意の空白を見つける

これらの関数は、対象の文字クラスの文字が最初に現れる位置を返します。該当する文字が見つからない場合は0を返します。

### 例

次のプログラムでは、ANYALPHA関数とANYDIGIT関数の例を示しています。


<!-- 
## The ANY Functions

The "ANY" functions of SAS 9 allow you to determine the position of a class  of characters (digits, alpha-numeric, alpha, white space, or punctuation).  The complete list is:

* `ANYALNUM` - find any alphanumeric values (both letter or digit)
* `ANYALPHA` - find any letter
* `ANYDIGIT` - find any number
* `ANYPUNCT` - find any punctuation
* `ANYSPACE` - find any space

These functions return the first position of a character of the appropriate class. If no appropriate characters are found, the functions return a 0. 

### Example

The following program demonstrates the ANYALPHA and ANYDIGIT functions.  
-->

In [17]:
data find_alpha_digit;
  input string $20.;
  first_alpha = anyalpha(string);
  first_digit = anydigit(string);
  datalines;
no digits here
the 3 and 4
123 456 789
;
run;

title 'The find_alpha_digit data set';
proc print data = find_alpha_digit noobs;    
run;

string,first_alpha,first_digit
no digits here,1,0
the 3 and 4,1,5
123 456 789,0,1


## NOT関数  

「NOT」関数は、「ANY」関数と同様に動作しますが、指定された文字クラスに該当しない最初の文字の位置を返します。

関数は次のとおりです。

* notalnum
* notalpha  
* notdigit
* notpunct
* notspace  

これらの関数は、適切なクラスに合致しない最初の文字の位置を返します。該当しない文字が見つからない場合(指定と一致する文字しかない場合)は0を返します。  

### 例

次のプログラムでは、NOTALPHA関数とNOTDIGIT関数を示しています。

<!-- 
## The NOT functions

The "NOT" functions work in a similar way to the "ANY" functions except that  they return the position of the first class of character that does not match the designated class. 

The complete list is:

* `NOTALNUM`
* `NOTALPHA`
* `NOTDIGIT`
* `NOTPUNCT`
* `NOTSPACE`

These functions return the first position of a character that does not match the appropriate class. If no "bad" characters are found (characters that do  not match the designation) the functions return a 0. 

### Example

The following program demonstrates the NOTALPHA and NOTDIGIT functions.  
-->

In [18]:
data data_cleaning;
  input string $20.;
  only_alpha = notalpha(trim(string));
  only_digit = notdigit(trim(string));
  datalines;
abcdefg
1234567
abc123
1234abcd
;
run;

title 'The data_cleaning data set';
proc print data = data_cleaning noobs;    
run;

string,only_alpha,only_digit
abcdefg,0,1
1234567,1,0
abc123,4,1
1234abcd,1,5


上のプログラムでTRIM関数を使用している理由に注目してください。それがなければ、NOTALPHAとNOTDIGITはともに最初のブランクの位置を返します。データセットの名前がDATA_CLEANINGであることから分かるように、文字列が単一の文字クラスのみで構成されているかどうかを簡単に判断する方法です。

<!-- 
Notice the use of the TRIM function in the program above. Without it, both NOTALPHA and NOTDIGIT would return the position of the first blank. You can see why we called the data set DATA_CLEANING. It is an easy way to determine if a string contains only a single class of characters.  
-->

## 連結関数: CAT、CATS、CATX

||または!!の連結演算子を使って2つの文字列を連結することはできますが、SAS 9で新しく追加された関数およびコールルーチンのCAT、CATS、CATXを代わりに使うこともできます。CAT関数は||や!!と同様に文字列を連結するだけですが、他の新しい関数の利点は、先頭と末尾のブランクを自動的に取り除いたり、区切り文字を挿入できることです。ここではCATSとCATXの2つの連結関数のみを示します。CATS関数は、2つ以上の文字列を連結する前に先頭と末尾のブランクを削除します。CATX関数はCATSと同様に動作しますが、文字列間に挿入する区切り文字を指定できます。これらの2つの関数の構文は次のとおりです。

```
CATS(string1,string2,);

CATX(separator,string1,string2,);  
```

### 例

次のプログラムでは、異なる連結関数の違いを示しています。  


<!-- 
## Concatenation Functions: CAT, CATS, and CATX

Although you can concatenate (join) two strings using the concatenation operator (either || or !!), several new functions and call routines, new with SAS 9, can be used instead. The CAT function does the same thing of concatenating strings just like || or !!, but the advantage of the other new functions is that they can automatically strip off leading and trailing blanks and can insert separation characters for you. We will demonstrate only two of the concatenation functions here. The CATS function strips leading and trailing blanks before joining two or more strings. The CATX function works the same as the CATS function, but allows you to specify one or more separation characters to insert between the strings. The syntax for these two functions is:

`CATS(string1,string2,<stringn>);`

`CATX(separator,string1,string2,<stringn>);`

### Example

The following program demonstrates the differences between the different concatenation functions.  
-->

In [19]:
data join_up;
  file print;
  length cats $ 6 catx $ 17;
  string1 = 'ABC   ';
  string2 = '   XYZ   ';
  string3 = '12345';
  cat_op = string1 || string2;
  cat  = cat(string1, string2);
  cats = cats(string1, string2);
  catx = catx('***', string1, string2, string3);
  put string1=;
  put string2=;
  put string3=;
  put cat_op=;
  put cat=;
  put cats=;
  put catx=;
run;

title 'The join_up data set';
proc print data = join_up noobs;
  var string1 string2 string3 cat_op cat cats catx;
run;

string1,string2,string3,cat_op,cat,cats,catx
ABC,XYZ,12345,ABC XYZ,ABC XYZ,ABCXYZ,ABC***XYZ***12345


LENGTHステートメントがない場合、CATSとCATXの2つの変数の長さはCAT関数のデフォルト長さ200になります。連結演算子を使う場合、デフォルトの長さは連結される引数の長さの合計になることに注意してください。

<!-- 
Without the LENGTH statement in this program, the length of the two variables CATS and CATX would be 200 (the default length for the CAT functions). Note that the default length when using the concatenation operator is the sum of the lengths of the arguments to be joined.  
-->

## LENGTH、LENGTHN、LENGTHC関数

前に文字変数の記憶領域の長さについて説明しました。このセクションのLENGTH関連の関数にはそれぞれ異なる役割があります。LENGTHC関数(V9)は文字変数の記憶領域の長さを返します。  
他の2つのLENGTHとLENGTHNはいずれも末尾のブランクを除いた文字変数の長さを返します。LENGTHとLENGTHNの違いは、LENGTHNがヌル文字列の場合0を返すのに対し、LENGTHは1を返すことです。

### 例

次のプログラムでは、LENGTH、LENGTHN、LENGTHC関数を示しています。

<!-- 
## The LENGTH, LENGTHN, and LENGTHN Functions

We spoke earlier about storage length of character variables. The collection  of LENGTH functions in this section have different and useful purposes. The  LENGTHC function (V9) returns the storage length of character variables.   The other two functions, LENGTH and LENGTHN both return the length of a character variable not counting trailing blanks. The only difference between LENGTH and LENGTHN is that LENGTHN returns a 0 for a null string while LENGTH returns a 1.

### Example

The following program demonstrates the LENGTH, LENGTHN, and LENGTHC functions.  
-->

In [20]:
data how_long;
  one = 'ABC   ';
  two = ' ';   /* character missing value */
  three = 'ABC   XYZ';
  length_one = length(one);
  lengthn_one = lengthn(one);
  lengthc_one = lengthc(one);
  length_two = length(two);
  lengthn_two = lengthn(two);
  lengthc_two = lengthc(two);
  length_three = length(three);
  lengthn_three = lengthn(three);
  lengthc_three = lengthc(three);
run;

title 'The how_long data set';
proc print data = how_long noobs;   
run;

one,two,three,length_one,lengthn_one,lengthc_one,length_two,lengthn_two,lengthc_two,length_three,lengthn_three,lengthc_three
ABC,,ABC XYZ,3,3,6,1,0,1,9,9,9


## COMPARE関数による2つの文字列の比較

2つの文字列を比較するのに関数が必要だろうかと疑問に思うかもしれません。等号を使えばいいのではないでしょうか。COMPARE関数を使えば、より柔軟に文字列を比較できます。構文は次のとおりです。

```
COMPARE(string1, string2 <,'modifiers'>)
```

次のリストから1つ以上の修飾子を選び、単一引用符または二重引用符で囲んで指定できます。

* i または I - 大文字小文字を区別しない
* l または L - 先頭のブランクを削除する
* n または N - n-リテラルのクォートを削除し、大文字小文字を区別しない。n-リテラルとは、クォートで囲まれた文字列の後にnが付いたもので、SASの有効な名前でない場合に便利です。
* : (コロン) - 長い方の文字列を短い方の長さに切り詰める。デフォルトでは、比較前に短い方の文字列にブランクを詰めます。

例えば、大文字小文字を区別せず、先頭のブランクを削除したい場合は、次のようにコーディングできます。

```
yes_or_no = compare(string1,string2,'il');
```

COMPARE関数は、2つの文字列が異なる最初の位置を返します。string1がstring2よりも辞書順で前にある場合は負の数を返します。2つの文字列が同じ場合は0を返します。


<!-- 
## Comparing Two Strings Using the COMPARE Function

You may wonder why we need a function to compare two character strings. Why can't you simple use an equal sign? The COMPARE function gives you more flexibility in comparing strings. The syntax is:

`COMPARE(string1, string2 <,'modifiers'>)`

You may use one or more modifiers from the following list, placed in single or double quotes as follows: 

* i or I - ignore case
* l or L - removes leading blanks
* n or N - removes quotes from any argument that is an n-literal and ignore case. An n-literal is a string in quotes, followed by an 'n', which is useful for non-valid SAS names.
* : (color) - truncate the longer string to the length of the shorter string. Note that the default is to pad the shorter string with blanks before a comparison.

For example, if you want to ignore case and remove leading blanks, you could code:

`yes_or_no = compare(string1,string2,'il');`

The COMPARE function returns the first position in which the two strings are different. It returns a negative number if string1 is aplhabetically or numerically ordered before string2. It returns 0 if the two strings are the same.
-->

In [21]:
data compare_str;
  string1 = "   Robert Parker";
  string2 = "ROBERT PARKER";
  compare1 = compare(string1, string2);
  compare2 = compare(string1, string2, 'i');
  compare3 = compare(string1, string2, 'l');
  compare4 = compare(string1, string2, 'il');
run;

title "Compare Strings Dataset";
proc print data = compare_str;    
run;

OBS,string1,string2,compare1,compare2,compare3,compare4
1,Robert Parker,ROBERT PARKER,-1,-1,2,0


## 先頭/末尾のブランクの削除

STRIP関数は先頭と末尾のブランクを削除します。TRIM関数は末尾のブランクを、LEFT関数は先頭のブランクを削除します。

<!-- 
## Removing Leading and Trailing

The STRIP function removes leading and trailing blanks. The TRIM function removes trailing blanks, and the LEFT function removes leading blanks.
-->

In [22]:
title "Whitespace Example";

data _null_;
  file print;
  string = "    ROBERT    ";
  strip = '*' || strip(string) || '*';
  trim = '*' || trim(string) || '*';
  left = '*' || left(string) || '*';
  put strip;
  put trim;
  put left;
run;

## 文字や部分文字列の出現回数のカウント: COUNTとCOUNTC

SAS 9の新しい関数にCOUNTとCOUNTCがあります。COUNT関数は特定の部分文字列が文字列内に出現する回数をカウントするのに使用します。COUNTC関数は、1つ以上の文字が出現する回数をカウントします。'i'修飾子を使うと大文字小文字を区別せず、't'修飾子を使うと文字列と検索文字列の末尾のブランクを無視することもできます。

これら2つの関数の構文は次のとおりです。

```
count(string,find_string,<'modifiers'>)

countc(string,find_string,<'modifiers'>)
```

### 例

次のプログラムでは、COUNTとCOUNTC関数の例を示しています。

<!-- 
## Counting Occurences of Characters or Substrings: COUNT and COUNTC

Two other SAS 9 functions are COUNT and COUNTC. COUNT is used to count the number of times a particular substring appears in a string. COUNTC counts the number of times one or more characters appear. You can also use modifiers to ignore case (use the 'i' modifier) or ignore trailing blanks (use the 't' modifier) in both the string and the find_string.

The syntax for these two functions is:

`count(string,find_string,<'modifiers'>)`

`countc(string,find_string,<'modifiers'>)`

### Example

The following program illustrates the COUNT and COUNTC functions  
-->

In [23]:
data Dracula;
  input string $20.;
  count_a_or_b = count(string,'ab');
  countc_a_or_b = countc(string,'ab');
  count_abc = count(string,'abc');
  countc_abc = countc(string,'abc');
  case_a = countc(string,'a','i');
  datalines;
xxabcxabcxxbbbb
cbacba
aaAA
;
run;

title 'The Dracula data set';
proc print data = Dracula noobs;
run;

string,count_a_or_b,countc_a_or_b,count_abc,countc_abc,case_a
xxabcxabcxxbbbb,2,8,2,10,2
cbacba,0,4,0,6,2
aaAA,0,2,0,2,4


## PRX関数: 正規表現

SASには、固定文字列ではなく正規表現に基づいた文字列マッチングを行うPRX関数の系列もあります。正規表現とは何でしょうか?

* 特定の文字列を検索する方法
* 複雑なものから簡単なものまで対応可能
* 非常に便利 - 「Find」の強化版のようなもの
* http://www.regular-expressions.info/reference.html
* 1つのステートメントで多数の文字列をマッチングできます
* `.` は任意の1文字にマッチ  
* `*` は直前の文字を0回以上繰り返しマッチ
* `?` は直前の部分が省略可能になる
* `^` は先頭にマッチ `^a` - "a"で始まる
* `$` は末尾にマッチ `b$` - "b"で終わる  

ここでは、正規表現を使用する次のSAS関数について説明します。

* PRXPARSE - 正規表現(および置換文字列)を定義する
* PRXMATCH - PRXPARSEで定義した正規表現で文字列を検索し、マッチするパターンが見つかった場合はその開始位置を、見つからなかった場合は0を返す
* CALL PRXSUBSTR - PRXMATCHと似ていますが、PRXPARSEで定義した正規表現で文字列を検索し、マッチした場合はその開始位置と長さを返し、マッチしなかった場合は開始位置と長さが0になります。
* PRXCHANGE - PRXPARSEで定義した正規表現を検索し、置換文字列に置き換えます。置換回数を指定するパラメータがあり、-1を指定すると見つかったマッチをすべて置換します。

データセットsalariesを使ってこれらの関数を説明しましょう。

<!-- 
## PRX Functions: Regular Expressions

SAS also has a family of PRX functions that allow string matching based on regular expressions instead of fixed strings. What are regular expressions?

* Ways to search for specific strings
* Can be very complicated or simple
* Highly useful - think "Find" on steriods
* http://www.regular-expressions.info/reference.html
* They can be used to match a large number of strings in one statement
* `.` matches any single character
* `*` means repeate as many (even if 0) more times the last character
* `?` makes the last thing optional
* `^` matches the start of a vector `^a` - starst with "a"
* `$` matches the end of the vector `b$` - ends with "b"

We will cover the following SAS functions which use regular expressions

* `PRXPARSE` - defines the regular expression (and substitution string) for the SAS functions
* `PRXMATCH` - search the string for a given regular expression from PRXPARSE and returns the starting position if a match is found and 0 otherwise
* CALL PRXSUBSTR - similar to PRXMATCH, search the string for the given regular expression from PRXPARSE but can find both the starting position and length of the match or return 0 for starting postion and length if no match is found.
* PRXCHANGE - search and replace the regular expression from PRXPARSE with the given replacement string. There is a parameter to specify how many matches to replace. A value of -1 for how many times to replace mean to replace all matches found.

Let's use the salaries dataset to illustrate these functions.
-->

In [24]:
filename salaries '/folders/myfolders/SAS_Notes/data/Baltimore_City_Employee_Salaries_FY2015.csv';

proc import datafile = salaries out = sal dbms = csv replace;
  getnames = yes;
run;

proc print data = sal (obs=5);
  var name;
run;

OBS,name
1,"Aaron,Patricia G"
2,"Aaron,Petra L"
3,"Abaineh,Yohannes T"
4,"Abbene,Anthony M"
5,"Abbey,Emmanuel"


### 例

次のプログラムでは、正規表現を使って'Rawlings'を含む名前をすべて検索する方法を示しています。

<!-- 
### Example

The following SAS program shows how to use regular expressions to find all names that include 'Rawlings'.  
-->

In [25]:
data sal_rawlings;
  set sal;
  re = prxparse('/Rawlings/i');
  if missing(re) then do;
    putlog 'ERROR: regex is malformed';
    stop;
  end;
  if prxmatch(re, name) = 0 then delete;
run;

proc print data = sal_rawlings;
  var name;
run;

OBS,name
1,"Rawlings,Kellye A"
2,"Rawlings,Paula M"
3,"Rawlings-Blake,Stephani"


変数「re」にはPRXPARSE関数で定義された正規表現が格納されています。正規表現は2つの前向きスラッシュ '/regex/' で囲む必要があることに注意してください。正規表現の定義 '/Rawlings/i' の i は、大文字小文字を区別しないことを示しています。したがって、'Rawlings' と 'rawlings' の両方にマッチします。次に、この正規表現をPRXMATCH関数に渡し、変数「name」を検索します。文字列のどこかにマッチがあれば、0でないインデックスが返されます。正規表現を間違えた場合のためにif文を使って、正規表現にミスがあればプログラムを停止するようにしています。

PRXSUBSTR関数はPRXMATCH関数と似ていますが、2つの変数「pos」と「len」を渡し、文字列のマッチ開始位置と長さを格納します。SUBSTRの後に続く処理のために、この情報が必要になる可能性があります。

<!-- 
The variable re stores the regular expression defined by PRXPARSE. Note the the regular expression must occur between two forward slashes '/regex/'. The i in the regular expression definition '/Rawlings/i' tells SAS to ignore case when doing the search, so both 'Rawlings' and 'rawlings' will match. We then pass the regular expression to PRXMATCH to search the name variable. If there is a match somewhere it returns a non-zero index. Note that we have an if statement to catch mistakes in our regular expression and stop the program if we have made a mistake.  
PRXSUBSTR works similarly but has a two variables that you pass in called `pos` and `len` in which to store the starting position and length of the string match. This would be needed for a followup call to SUBSTR in order to find and possible replace with substring.  
-->

### 例

次のプログラムでは、PRXCHANGEを使ってデータセットsalaryの「name」の "a" を "j" に置き換える方法を示しています。

<!-- 
### Example

The following SAS program used PRXCHANGE to replace "a" with "j" in the names of the salary dataset.  
-->

In [26]:
data sal_a1;
  set sal;
  re = prxparse('s/a/j/');
  if missing(re) then do;
    putlog 'ERROR: regex is malformed';
    stop;
  end;
  name2 = prxchange(re, 1, name);
run;

proc print data = sal_a1(obs=5);
  var name name2;
run;

data sal_a2;
  set sal;
  re = prxparse('s/a/j/');
  if missing(re) then do;
    putlog 'ERROR: regex is malformed';
    stop;
  end;
  name2 = prxchange(re, -1, name);
run;

proc print data = sal_a2(obs=5);
  var name name2;
run;

OBS,name,name2
1,"Aaron,Patricia G","Ajron,Patricia G"
2,"Aaron,Petra L","Ajron,Petra L"
3,"Abaineh,Yohannes T","Abjineh,Yohannes T"
4,"Abbene,Anthony M","Abbene,Anthony M"
5,"Abbey,Emmanuel","Abbey,Emmjnuel"

OBS,name,name2
1,"Aaron,Patricia G","Ajron,Pjtricij G"
2,"Aaron,Petra L","Ajron,Petrj L"
3,"Abaineh,Yohannes T","Abjineh,Yohjnnes T"
4,"Abbene,Anthony M","Abbene,Anthony M"
5,"Abbey,Emmanuel","Abbey,Emmjnuel"


最初のコードでは置換回数に1を指定しているので、"a"と一致した最初の箇所のみが"j"に置き換えられています。一方、2番目のコードでは-1を指定しているので、"a"のすべての出現箇所が"j"に置き換えられています。


<!-- 
Notice that the first call used 1 for the number of substitutions and so it only replaces the first found match of "a" with "j"; Where as, the second version uses -1 and so replaces all occurences of "a" with "j".  
-->

## 演習

1. PROC IMPORTを使ってBaltimore cityの給与データセット Baltimore_City_Employee_Salaries_FY2015.csvを読み込んでください。
2. 一時データセット health_sal を作成し、そこには (大文字小文字を区別せずに) 職名「JobTitle」に "fire" が含まれるもののみを含めでください。  
3. 一時データセット trans を作成し、そこには (大文字小文字を区別して) "TRANS" が含まれるもののみを含めてください。
4. Baltimoreの給与データで、名前に "abra" が含まれる人の職業は何ですか? 大文字小文字は区別しないでください。
5. 警察局、消防局、保安官事務所のみを含む給与データセットのサブセットを作成します。変数「Agency」を使って(大文字小文字を区別した)文字列のマッチングを行ってください。このデータセットemerには何人の従業員が含まれていますか?
6. データセットemer に変数「dept」を作成し、変数「Agency」から 'ment' または 'ice' の手前の部分を抽出してください。例えば、ment または ice までの文字を抜き出し (正規表現ではカッコで囲むとグループ化できます)、その後の文字は削除します。PROC FREQを使って変数「dept」の度数表を作成します。目的の部分文字列を抽出するには、次のようにします。

```
re = prxparse('/.*(ment|ice)/'); 
call prxsubstr(re, Agency, pos, len);
dept = substr(Agency, pos, len);
```

<!-- 
## Exercises

1. Read in the Baltimore city employee salaries dataset, Baltimore_City_Employee_Salaries_FY2015.csv, using PROC IMPORT.
2. Make a temporary SAS dataset called `health_sal` using the salaries dataset, with only the agencies (`JobTitle`) of those with "fire" (anywhere in the job title), if any, in the name. Be sure to ignore case in the string matching for 'fire'.
3. Make a temporary data set called `trans` which contains only agencies that contain “TRANS” (case sensitive).
4. What is/are the profession(s) of people who have “abra” in their name for Baltimore’s Salaries? Case should be ignored.
5. Create a subset of the salaries dataset that only includes the Police Department, Fire Department and Sheriff’s Office. Use the Agency variable with (case sensitive) string matching. Call this `emer`. How many employees are in this new dataset?
6. Create a variable called `dept` in the `emer` data set by extracting the the part of the `Agency` variable up until 'ment' or 'ice'. E.g. we want to extract all characters up until ment or ice (we can group in regex using parentheses) and then discard the rest. Make frequency table of the dept variable using PROC FREQ. To extract the desired substring, use:

```    
re = prxparse('/.*(ment|ice)/');
call prxsubstr(re, Agency, pos, len);
dept = substr(Agency, pos, len);
```    
-->