R　によるテキストデータの解析　第１回：タイタンの妖女ここではバカはほめ言葉です：SSブログ

	ブログをはじめるログイン

Yes 『The Yes Album』『..｜Laurence Juber ブログトップ

R　によるテキストデータの解析　第１回　[データ解析環境R] [編集]

　Windows環境でRでどこまでテキストデータの解析ができるかやってみる。参考になるサイトは、未検索・要調査。今までの成果は以下のとおり。

.txtの前処理
	半角’（アポストロフィー）で始まる行を削除
茶筌で単語と品詞をTAB区切り出力	http://chasen.naist.jp/hiki/ChaSen/						
	chasen -F "%m\t%U(%P-)\n"  test.txt > test.cha	
		未知語をNullにしないため出現形でアウトプット	
.chaの後処理								
	EOSを、EOSタブEOSに置換					
Rでの読み込み								
	test <- read.table("test.cha",header=F)
		１列目：単語（出現形）
		２列目：ハイフン区切り品詞		
名詞のみ抽出								
	tmp <- which(substring(test[,2],1,4) =="名詞")
		行番号抽出
		２列目の先頭４バイトで比較
名詞のみのオブジェクト作成
	test.meishi <- test[tmp,]

2006-04-10 11:25 nice!(0) コメント(0) トラックバック(0)
共通テーマ：学問

nice! 0

コメントを書く

トラックバック 0

Yes 『The Yes Album』『..｜Laurence Juber ブログトップ

日	月	火	水	木	金	土
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

RSS1.0 | RSS2.0

タイタンの妖女ここではバカはほめ言葉です

R　によるテキストデータの解析　第１回　[データ解析環境R] [編集]

nice! 0

コメント 0

コメントを書く

トラックバック 0

検索ボックス

最近のコメント

最近トラックバックされた記事

al さんの記事をnice!と思った人 (全28人)

マイカテゴリー

最新記事一覧

カレンダー

リンク

al さん

タイタンの妖女 ここではバカはほめ言葉です

R によるテキストデータの解析 第１回 [データ解析環境R] [編集]

nice! 0

コメント 0

コメントを書く

トラックバック 0

検索ボックス

最近のコメント

最近トラックバックされた記事

al さんの記事をnice!と思った人 (全28人)

マイカテゴリー

最新記事一覧

カレンダー

リンク

al さん

タイタンの妖女ここではバカはほめ言葉です

R　によるテキストデータの解析　第１回　[データ解析環境R] [編集]