work.log

元エンジニアの備忘録的ブログ

「自然言語処理」の記事一覧

MeCabで漢字が混在する文字を50音順に分類する

MeCab を使って漢字が混在した文字を50音順に分類するメモです。 漢字が混在する人名を50音順に並べたいという事で MeCab を使って人名索引データを作成する事にしました。 例えば「山田太郎」な …

コサイン類似度を計算して二つの文章がどれ位似ているかを判定する

コサイン類似度を計算して二つの文章がどれ位似ているのかを判定するメモです。 Perl でこのようなコードを書くとコサイン類似度を計算できます。文章と言いながら今回は名詞レベルで比較しています。 #!/ …

文章の類似度を計測するPerlのString::Trigramモジュールを使ってみる

Perl の String::Trigram モジュールを使って文章の類似度を計測する方法のメモです。 文章Aと文章Bはどれ位似ているかを N-gram という手法を使って機械的に判定しようというモジ …

MeCabにWikiのタイトルリストを学習させる

MeCab のメモ書き。 どうしても MeCab を使わないと出来ない壁にぶち当たったので久しぶりセットアップ。 が、ちょっとメモがアレすぎて思い出すのに時間がかかったのでちゃんとメモをしておこうと思 …

Perlでマルコフ連鎖を使った短文の生成実験

MeCab の形態要素解析、マルコフ連鎖に関する記事です。 前回までの記事で、形態要素解析とマルコフ連鎖に使う辞書の作成について書きましたが、今回はいよいよマルコフ連鎖で文章を生成してみたいと思います …

Perlでマルコフ連鎖用の辞書を作ってみる

MeCab で形態要素解析に引き続き、今回は分かち書きした単語を元にマルコフ連鎖というものをやってみたいと思います。 ただ、マルコフ連鎖の仕組みがイマイチ理解できなかったので、今回はマルコフ連鎖とは何 …

PerlモジュールText::MeCabを使って分かち書きのテスト

MeCab で形態要素解析するメモ書きです。 今回は、Perl スクリプト内からも MeCab を使うためモジュールを使ってみたいと思います。 調べた所、Text::MeCab というモジュールが使い …

よく読まれている記事

  • 本日
  • 週間
  • 月間