■ このスレッドは過去ログ倉庫に格納されています
ダブっている単語を削除して1つにしたいです
- 1 :みか:2012/11/24(土) 17:42:47.93 ID:sJFtEN4e.net
- テキストファイルの中に大量の単語(1Gほど)が羅列しています。
この単語でいくつもダブっている単語がありまして、同じ単語が4つ5つある場合もあります。
ダブっている単語を発見して、ダブっている単語を削除して1つにしたいのですがLINUXでこの作業をする場合どのようにすればいいでしょうか?
恐れ入りますがお時間ある方で上記の処理方法のアドバイスを頂ける方がいらっしゃいましたら何卒よろしくお願いいたします。
- 2 :login:Penguin:2012/11/24(土) 21:13:56.54 ID:wBhLidw3.net
- >>1
そんなことより、ダブついてる皮を削除してムケチンになれよ。
- 3 :login:Penguin:2012/11/24(土) 22:48:04.73 ID:aXmbW81Y.net
- こんなくだらないことで新スレ立てんな。
それと、テキストファイルの詳細情報が分からん。
どんな行がどのようになっているのか、詳細を書け。
- 4 :login:Penguin:2012/11/24(土) 23:29:50.92 ID:fcFv/VW1.net
- 質問はこっちで。
くだらねえ質問はここに書き込め! Part 203
http://engawa.2ch.net/test/read.cgi/linux/1352025584/
>>1
削除依頼出しといてね。
理由は「重複」で。
- 5 :login:Penguin:2012/11/25(日) 12:43:03.22 ID:8lGqBe0b.net
- ちょっと待てお前ら
みかちゃんだぞ
どう見ても女の子だろ。
優しく接してやれや〜(笑)
- 6 :login:Penguin:2012/11/25(日) 12:48:45.35 ID:Ith2XbOE.net
- スレ移動したら答えるよ。
- 7 :login:Penguin:2012/11/25(日) 13:00:17.40 ID:2rCWAMsX.net
- みかちゃんといえばフォントだな
- 8 :login:Penguin:2012/11/25(日) 19:59:59.66 ID:HcGezmFU.net
- >>2
もうしてるわ!
- 9 :login:Penguin:2012/11/26(月) 03:46:43.11 ID:PM3dBjrZ.net
- 答えられない犬厨は誹謗中傷に走る
- 10 :login:Penguin:2012/11/26(月) 13:47:06.13 ID:XNfjRdM5.net
- 「先頭の単語と同じものを検索して全て削除する
と同時に別の空のテキストファイルにその単語を追加して」
という作業をループで行えばいつかは終わりそう
- 11 :login:Penguin:2012/11/26(月) 14:04:00.07 ID:+OQUtw8j.net
- sort|uniqじゃだめなのか?
- 12 :login:Penguin:2012/11/26(月) 22:28:33.35 ID:8c0qCw0L.net
- バイトを時給1500円で雇って重複しているところを消してもらえばいいじゃん。
- 13 :login:Penguin:2012/11/26(月) 22:33:53.34 ID:byvNxY+u.net
- perlなら簡単に作れそうじゃん。
open in,"<keshitai.txt";
open out,">keshita.txt';
while (<in>) [
print out "gomen mendou\n";
]
close out;
close in;
- 14 :login:Penguin:2012/11/26(月) 23:16:42.83 ID:Nn10E0+3.net
- sed ?
- 15 :login:Penguin:2012/11/28(水) 05:41:10.95 ID:p47Xk+kv.net
- awk,sort,uniq組み合わせてがんばれ
- 16 :login:Penguin:2012/11/29(木) 00:34:41.05 ID:iljpUS/D.net
- 「東京都」と「京都」は別の単語ですので
1つにしないでください。
- 17 :login:Penguin:2012/11/29(木) 02:28:28.99 ID:qXBLtfTv.net
- egrep -o '\w+' テキストファイル | sort | uniq
こうかな
総レス数 17
4 KB
掲示板に戻る
全部
前100
次100
最新50
read.cgi ver.24052200