R によるテキストデータの解析 第1回 [データ解析環境R]
Windows環境でRでどこまでテキストデータの解析ができるかやってみる。参考になるサイトは、未検索・要調査。今までの成果は以下のとおり。
.txtの前処理 半角’(アポストロフィー)で始まる行を削除 茶筌で単語と品詞をTAB区切り出力 http://chasen.naist.jp/hiki/ChaSen/ chasen -F "%m\t%U(%P-)\n" test.txt > test.cha 未知語をNullにしないため出現形でアウトプット .chaの後処理 EOSを、EOSタブEOSに置換 Rでの読み込み test <- read.table("test.cha",header=F) 1列目:単語(出現形) 2列目:ハイフン区切り品詞 名詞のみ抽出 tmp <- which(substring(test[,2],1,4) =="名詞") 行番号抽出 2列目の先頭4バイトで比較 名詞のみのオブジェクト作成 test.meishi <- test[tmp,]
コメント 0