2022.09.22
さくらのレンタルサーバーを新サーバーに移行させたらPerlのEncodeによる文字コード判別の精度が落ちた
確かにレスポンスは劇的に改善して良かったのですが
Webからスクレイピングした情報をPerl/Encodeで文字コード判別して処理しようと文字コードをGuessすると
みたいなエラーを高頻度で出してきて文字コード確定判断してくれません。encode error=Encodings too ambiguous: utf8 or shiftjis
コントロールパネルを見ると、どうやらPerlのバージョンがサーバー変更に伴いPerl 5.14からPerl 5.32に変更になっている。
これが原因?コントロールパネルでバージョン下げられるからPerl 5.14に下げてみるかな・・・・
でもEncodeのバージョンはまた別だよな。。。
しかし以前ちょっとトリッキーなことしているから、さらにトラブル増えそうで怖いな・・・・
追記
下記はさくらのレンタルサーバーで動かしている自前のRSSリーダー
同じNatureダイジェストのサイトからのFeedの中でも判別出来るものもあれば、タイトル「材料科学:従来よりも電歪が数桁大きい人工材料」「遺伝学:重症COVID-19におけるDOCK2の役割」は判別に失敗している。。。。
追記
違った。これまでguess_encoding($SUtemp)の返しがシンプルに「shiftjis or utf8」とかだったのが、「Encodings too ambiguous: shiftjis or utf8」とか余分なワードを付けて返すようになって例外処理に失敗しているんだ。
Category:#サイト運営関連
■ ■ ■ コメント ■ ■ ■
この記事のアクセス数:本カテゴリーで直近コメントが書かれた記事
→カテゴリー:#サイト運営関連(記事数:19)
本カテゴリーの最近の記事(コメント数)