さくらのレンタルサーバーを新サーバーに移行させたらPerlのEncodeによる文字コード判別の精度が落ちた
カテゴリー:#サイト運営関連(記事数:21)

2022.09.22

さくらのレンタルサーバーを新サーバーに移行させたらPerlのEncodeによる文字コード判別の精度が落ちた

確かにレスポンスは劇的に改善して良かったのですが

Webからスクレイピングした情報をPerl/Encodeで文字コード判別して処理しようと文字コードをGuessすると
encode error=Encodings too ambiguous: utf8 or shiftjis
みたいなエラーを高頻度で出してきて文字コード確定判断してくれません。

コントロールパネルを見ると、どうやらPerlのバージョンがサーバー変更に伴いPerl 5.14からPerl 5.32に変更になっている。
これが原因?コントロールパネルでバージョン下げられるからPerl 5.14に下げてみるかな・・・・
でもEncodeのバージョンはまた別だよな。。。

しかし以前ちょっとトリッキーなことしているから、さらにトラブル増えそうで怖いな・・・・
追記
下記はさくらのレンタルサーバーで動かしている自前のRSSリーダー

同じNatureダイジェストのサイトからのFeedの中でも判別出来るものもあれば、タイトル「材料科学:従来よりも電歪が数桁大きい人工材料」「遺伝学:重症COVID-19におけるDOCK2の役割」は判別に失敗している。。。。

追記
違った。これまでguess_encoding($SUtemp)の返しがシンプルに「shiftjis or utf8」とかだったのが、「Encodings too ambiguous: shiftjis or utf8」とか余分なワードを付けて返すようになって例外処理に失敗しているんだ。

Category:#サイト運営関連



■ ■ ■ コメント ■ ■ ■

いいっすね!=2

名前 ↑B

コメント(※改行は省略されます)

※3回以上の連続書き込み不可
この記事のアクセス数:

本カテゴリーで直近コメントが書かれた記事


→カテゴリー:#サイト運営関連(記事数:21)
本カテゴリーの最近の記事(コメント数)