Wikipedia から偶然回文になっている文章を見つける その2

前回の記事の続きです.

変更点

  • 辞書を ipadic から mecab-ipadic-NEologd に変更した. github.com
  • 叫び声のようなものなどノイズが多かったので, 適当に弾くようにした.
  • ついでに重複したものが多すぎて結果が見辛かったので, まとめて出力するようにした.

結果

音数の分布はこんな感じになりました (重複含む). f:id:susisu:20150910171442p:plain ノイズを弾く過程で5音のものもかなり弾かれてしまっていますが, まあ (正直あまり面白いのもないと思うので) 良いでしょう. あと, やはり奇数音の方が多いみたいです.

今回は結果は直接アップロードせず, Twitterbot を作ったので, そこでじわじわ放出していこうと思います. twitter.com

こんな感じに6時間おきにツイートするはず.

辞書を変えたことでいくつかの誤検出はなくなりましたが, それはそれで新たな誤検出が出てきてしまっています (mecab-ipadic-NEologd の読みが現時点ではかなり適当?で, 略称になっていたり, なんかよくわからないものが入っていたりする). いちいち手作業で除くのも面倒だったので結果 (bot の発言) にはそのまま含めてありますが, 大目に見てください.

あと, 意図的に作られた回文も, やっぱりわざわざ取り除くのが面倒だったのでそのままです. 許してちょんまげ.