n-gramで文字列の類似度を測定する

「 レーベンシュタイン距離で文字列の類似度を高速に取得する 」の続きです。文字列の類似度の別方法としてn-gramについて考慮します。 利点と欠点 レーベンシュタイン距離 処理速度が遅い 一致度が低い場合、高速化しても遅い 位置の異なるキーワードに弱い 完全一致を判定できる 文字...

SyntaxHighlighter.jsからhighlight.jsへ移行しました

はじめに 当ブログでは、ブログ上のソースコードをハイライト表示するライブラリを利用しています。ソースコードには、予約後や文字列、数値など予め予測できる書式が多数存在します。それらを指定の色や書体によりハイライト表示することで、ソースコードを読みやす表示しています。 これまで CD...

レーベンシュタイン距離で文字列の類似度を高速に取得する

はじめに 文字列の類似度について考えます。具体的には、レーベンシュタイン距離を使用して文字列の類似度を測定します。ただし、レーベンシュタイン距離では、速度が遅いため、高速化します。高速化に伴ってレーベンシュタイン距離とは別物になってしまいますが、類似度としての役割は果たせます。 ...

Windows10でウェブページの汚いフォントを置換える

はじめに Windowsのフォント事情は、バージョンが上がるたびに改善されてきています。最近では、「Meiryo」「游ゴシック」「BIZ UDデジタル教科書体」「BIZ UDゴシック」など綺麗なフォントが標準でインストールされています。ですがウェブページでの表示は、ページ側の指定...