PyData. Tokyo Meetup #4のUstream見えなかったので他人のPCで見た
不具合を起こしてUstreamが安定して見られない。とりあえず開始から30分以上はただTwitter見てた。怖い情報で脅されたいと思って楽しみにしてたから折れない心。
今回のテーマは"データ解析アルゴリズムの高速化"ということ。
スタバのTwitterデータをpythonで大量に取得し、データ分析を試みる その1 - Qiitaこれの記事の人とかが現地にいるらしい。
日本語リスニング力テストとして聞いてるので本当にふわふわと、キーっぽい単語やフレーズを書き出す。
Cythonサイソンって読むのか。
BDAS Spark velox
49枚目からは"泥くさい"表記時の工夫の話らしい。
50枚目、やったら"ぶちころすぞ"という事らしい。
数値計算は自分で実装しない
####以下2つめ####
本当はSciPyの紹介もするはずだったけど、時間の関係上削ったということで、NumPyなどモジュールを使うことでCと同程度の速度を実現できる。
NumPyの中でどういうことしてるんですか?→NumPyのソースコード読んでないので分からないです。
Boolean(ぶーりあん)。Pandas(ぱんだす)。
NMF。scikit-learn、sklearn(さいきっとらーん)。何かがNatureに掲載されたとか。ノンネガティヴ。
NMFのアルゴリズム、
ラムダノピー。
norm(のるむ)。ろじかるおあ。
normの実装が気持ち悪い、それに関しては有名な良ブログ記事があるそう。
とにかく、なるべくSciPy/NumPyを使い、自分では数値計算を書かないのが原則、という部分の結論が最初の発表者と一致していたんじゃないかな。
Code-reading。