前回の記事:Tensorflowを用いた機械学習による、週刊実話wjn「[実録]女のSEX告白」書き手予測
ということで、奈倉柏木判定プログラム(nakura-kashiwagi.hanarchy.biz)が完成しましたのでそのご報告です。
django+gunicorn+nginxで構成してます。
コードはこちらです
前回から随分間が空いてしまいましたが、なんとか完成に漕ぎ着けることができました。(実働数時間、要はやる気が出なかった)
なお、その間に作っていたアニメ売上予測ツールは学習が上手くいかず、お蔵入りになりました。
中身は前回と変わらず180単語のBag-of-Wordsの後にMLPです。
前回学習させたcheckpointを読み込ませてあります。
tensorflow学習済みモデルを使ったwebアプリの構築手順については、いつかまとめようと思います。
次はSeqGANでも試してみようと思います。
さて、というわけでタイトル通り、件のwjnの書き手を本文から予測してみました。内輪ネタです。
使った主な言語、ライブラリは次の通り。
- Python3
- Beautiful Soup4 (データ取得)
- Janome (形態素解析)
- Tensorflow (深層学習)
コードはこちらgithub.com/hanarchy/DetectWjnAuthor
私は自然言語処理や深層学習の専門家ではないため、誤った説明になっているかもしれないので、予めご了承下さい。あと、深層学習とか言って全然深層じゃないです。
背景
wjnとは
偉大なニュースサイトです。
週刊実話
http://wjn.jp
その名の如く、実話のニュースを扱っています。その中の人気コンテンツの1つである、
[実録]女のSEX告白。
このコーナーは2名の書き手によって成り立っています。
それがかの偉大な柏木春人氏、奈倉清孝氏で、この両名は「力の柏木、技の奈倉」とまで呼ばれています。
予てから情報発信媒体が欲しい(情報発信する内容があるとは言っていない)と思っており、
丁度修論の現実逃避がしたかったため、JekyllとGithub pagesを用いてブログを作ってみました。
JekyllのテーマはJekyll Themesにて、あらゆるものが公開されています。今回は
LiXizhi氏のWiki Blogというテーマを改造して作りました。
私のようなWeb素人でも簡単に作れたので、皆様方もお試し下さい。
それでは、宜しくお願い致します。