自然言語処理、テキストマイニング
ビッグデータの時代、データマイニング>テキストマイニング -コンピュータが大量のテキストからパターンや、関連、傾向などを分析し、さまざまに活用できる形に加工、有用な情報や知識を発見すること。
・Hadoop -大量のデータを解析し、有用な情報を生み出すことでサービスに活用することは、Hadoopの十八番であり、醍醐味といえる。
・具体的用途:30余りのノートやその周辺にあるテキストデータの保存と解析
形態素解析(品詞分解)→ベクトル化(e.g.bag-of-words)→マイニング処理
・自然言語処理(分野)>形態素解析 ー形態素解析を行うソフトウェアは、「Mecab」などオープンソースのものがたくさん存在し、Yahoo!JAPANでもWeb APIとして提供しています。
マイニング処理>テキスト分類
http://storytoolz.com/
お世話になってるこのサイトなんかはまさに英語の文章をテキスト分類してくれる。
テキスト分類では機械学習を用いる事が多い。
おお、繋がってきた。