日本語対応トリミングフィルタ(バグ修正)

文字化けの原因は、指定したバイト数よりも元の文字列長が短くてトリミングされない場合に文字コードがeucに変換されたままリターンしているのが原因でした。すみません。

なんでこんなバグに気付かなかったんだろう・・・。

文字化けのバグを修正したソースを掲載しておきます(元のエントリーのソースも修正しました)

2004/3/1追記:このソースにもまだバグがあります。最新版はこの記事を参照してください。

2004/3/29追記:このスクリプトはmuraさんの記事(M’s folder: MT 長いタイトルをトリミングする)で公開されているものをEUC以外の文字コードに対応するように改変したものです。

# 指定された文字数(半角文字数)にトリミングするフィルタ
package MT::Plugin::Trimj;

use MT::Template::Context;
use MT::ConfigMgr;

MT::Template::Context->add_global_filter(trimj_to => sub {

  my($str, $nstr, $ctx) = @_;
  my $sippo = '...';

  my $lenstr = length($str);
  if($lenstr < = $nstr) { 
    return $str;
  }

  my $c = MT::ConfigMgr->instance->PublishCharset;
  my $conv_in;
  if (lc $c eq lc 'Shift_JIS') {
    $conv_in = 'sjis';
  } elsif (lc $c eq lc 'ISO-2022-JP') {
    $conv_in = 'jis';
  } elsif (lc $c eq lc 'UTF-8') {
    $conv_in = 'utf8';
  } elsif (lc $c eq lc 'EUC-JP') {
    $conv_in = 'euc';
  }

  my $jcnv;
  eval 'use Jcode;';
  if($@){
    require 'jcode.pl';
    $jcnv = 'jcode::convert';
  }else{
    $jcnv = 'Jcode::convert';
  }
  if ($conv_in ne 'euc') {
    &$jcnv(\$str, 'euc', $conv_in);
  }

  my $out = substr($str,0,$nstr);

  if ($out =~ /\x8F$/ or $out =~ tr/\x8E\xA1-\xFE// % 2) {
    chop $out;
    if($out =~ /\x8F$/){
      chop $out;
    }
  }
  $out .= $sippo;
  # 尻尾を付けたくない場合は、コメントアウトのこと。

  if ($conv_in ne 'euc') {
    &$jcnv(\$out, $conv_in, 'euc');
  }

  return $out;
});

1;

5 Comments

  • Pingback: Toyoaki'S PC 日記

  • Pingback: 人生迷い箸

  • コメントを残す

    メールアドレスが公開されることはありません。 が付いている欄は必須項目です