ハマりネタ2発目。今度はPHP。
普段は自分の開発PC(WinXP)上のApache+PHPで開発を行っているのだが、試験用のデータを登録するため、本番系のサーバで動作させてみた。
今回動作させたのが、CSVファイルのアップロードなのだが、かなり不可思議な現象に見舞われた。
アップしたCSVのデータのうち、マルチバイトの文字が欠落するのだ。それも全部が全部ではなく、二重引用符や丸括弧で囲っているデータは大丈夫で、それ以外の文字が落ちるという現象だ。
たとえば、
注文ID(消さないでください),注文日,...なんてデータをfgetcsv()で読み込んで行ごとにprint_r()してみると、
Array( [0] => ID(消さないでください), [1] => : : )のように、最初のフィールドでは「注文ID(消さないでください)」の「注文」部分のみが欠落、次のフィールドではすべての文字(すべてマルチバイト文字)が欠落、といった感じで、どうもシングルバイト文字が出現するまで無視されているような感じになるのだ。
fgetcsv()で読み込む前に、アップロードしたファイルを一括して文字コードを変更し、それを読み込む処理をしているのだが、文字コード変換後のファイルをfile_get_contents()でダンプしてみると、特に文字化けもしていない。
print_r()の結果を見たところ、フィールドの区切りも誤認識しているわけではないし、さらに、自分の開発PC上ではまったく同じコード・同じデータで問題が発生していない。もうどうなってるやらさっぱり。
と、泣きそうな気持ちで必死に調べたところ、「[PHP-dev 1206] Re: PHP5のfgetcsv()関数について」と、大いに関係ありそうな記事が見つかった。
この記事によると、
PHP 5.0 の fgetcsv() はロケールの設定に依存します。 とのこと。さらにこのスレッドの先を見てみると、 少々乱暴ですが、 setlocale(LC_ALL, 'ja_JP.UTF-8'); で、UTF-8のCSVファイルについてはfgetcsv()は希望通りに動作しました。 とあったので、試してみたら、これビンゴ。多分PHP.INIの設定の違いだったのかなぁ。一瞬自前でCSVデコードせにゃならんかと思って結構鬱になったりならなかったりだったが、なんにしても解決策(というか回避策?)が見つかってほっとした。ちとバッドノウハウくさい気もするが。PHP.INIを見直しておくかなぁ。
セコメントをする