SSブログ

R によるテキストデータの解析 第1回 [データ解析環境R]

 Windows環境でRでどこまでテキストデータの解析ができるかやってみる。参考になるサイトは、未検索・要調査。今までの成果は以下のとおり。

.txtの前処理
	半角’(アポストロフィー)で始まる行を削除
茶筌で単語と品詞をTAB区切り出力	http://chasen.naist.jp/hiki/ChaSen/						
	chasen -F "%m\t%U(%P-)\n"  test.txt > test.cha	
		未知語をNullにしないため出現形でアウトプット	
.chaの後処理								
	EOSを、EOSタブEOSに置換					
Rでの読み込み								
	test <- read.table("test.cha",header=F)
		1列目:単語(出現形)
		2列目:ハイフン区切り品詞		
名詞のみ抽出								
	tmp <- which(substring(test[,2],1,4) =="名詞")
		行番号抽出
		2列目の先頭4バイトで比較
名詞のみのオブジェクト作成
	test.meishi <- test[tmp,]			

nice!(0)  コメント(0)  トラックバック(0) 
共通テーマ:学問

nice! 0

コメント 0

コメントを書く

お名前:[必須]
URL:[必須]
コメント:
画像認証:
下の画像に表示されている文字を入力してください。

トラックバック 0