45.

Linuxのwcコマンドの使い方|行数・単語数・文字数を数えるオプション

編集

Linuxのwcコマンドは、テキストファイルの行数・単語数・バイト数(文字数)を数えて表示するコマンドです。オプションなしで実行すると「行数 単語数 バイト数 ファイル名」の順で出力され、-l(行数)・-w(単語数)・-c(バイト数)・-m(文字数)などで必要な値だけを取り出せます。ログの件数確認やパイプと組み合わせた集計で頻繁に使う基本コマンドです。

この記事の要点
  • wcは「word count」の略で、行数・単語数・バイト数を数えるコマンド。
  • オプションなしの出力は左から 行数 / 単語数 / バイト数 / ファイル名 の順。
  • -l=行数、-w=単語数、-c=バイト数、-m=文字数、-L=最長行の長さ。
  • 複数ファイルを渡すと各ファイルの値に加えてtotal(合計)行が表示される。
  • grep ... | wc -l のようにパイプでつなぐと、該当件数のカウントに使える定番。
  • 日本語などマルチバイト文字では -c(バイト数)と -m(文字数)の値が一致しない点に注意。

 

基本的な使い方

wcコマンドの基本構文は次のとおりです。引数にファイル名を渡すと、そのファイルを集計します。

wc [オプション] [ファイル名...]

 

例として、次の内容を持つ sample.txt を用意します。

aaa 111
bbb 222
ccc 333

 

オプションを付けずにwcを実行すると、行数・単語数・バイト数がまとめて表示されます。

$ wc sample.txt

3  6 24 sample.txt

 

出力は左から順に次の意味を持ちます。

  • 3 … 行数(改行の数)
  • 6 … 単語数(空白・改行で区切られた語の数。各行「aaa 111」が2語×3行)
  • 24 … バイト数(各行7文字+改行1文字=8バイト×3行)
  • sample.txt … 対象のファイル名

 

主要オプション一覧

必要な値だけを取り出したいときは、以下のオプションを使います。複数を組み合わせて指定することもできます。

オプション 長い形式 説明
-l --lines 行数(改行の数)のみを表示する
-w --words 単語数のみを表示する
-c --bytes バイト数のみを表示する
-m --chars 文字数のみを表示する(マルチバイト対応)
-L --max-line-length もっとも長い行の長さ(文字数)を表示する

 

たとえば行数だけを知りたい場合は -l を指定します。

$ wc -l sample.txt

3 sample.txt

 

単語数だけなら -w、バイト数だけなら -c を使います。

$ wc -w sample.txt

6 sample.txt

$ wc -c sample.txt

24 sample.txt

 

複数ファイルと合計の表示

引数に複数のファイルを並べると、ファイルごとの値に加えて、最後に total(合計)の行が表示されます。

$ wc -l file1.txt file2.txt

 3 file1.txt

 5 file2.txt

 8 total

 

ワイルドカードを使えば、ディレクトリ内の複数ファイルをまとめて集計できます。次の例はカレントディレクトリのすべての .log ファイルの行数と合計を表示します。

$ wc -l *.log

 

パイプと組み合わせて件数をカウントする

wcは標準入力からも読み込めるため、パイプ(|)で他のコマンドの出力を渡す使い方が定番です。とくに ... | wc -l は「該当する行が何件あるか」を数える際の鉄板です。

たとえば、ファイル内で「error」を含む行が何件あるかを数えるには、grepの結果をwcに渡します。

$ grep error access.log | wc -l

42

 

同様に、ls と組み合わせればディレクトリ内のファイル数、ps と組み合わせればプロセス数などを数えられます。

# ディレクトリ内のエントリ数を数える

$ ls -1 | wc -l

# sshdに関連するプロセス数を数える

$ ps aux | grep sshd | wc -l

 

なお、パイプで標準入力から渡した場合は、出力にファイル名が付かず数値だけが表示されます。これは集計結果をそのまま変数やスクリプトで扱いたいときに便利です。

 

-c(バイト数)と -m(文字数)の違い

wcでもっとも誤解しやすいのが、-c-m の違いです。

  • -cバイト数を数える
  • -m文字数を数える(ロケールの文字エンコーディングを考慮)

英数字だけのファイルでは1文字=1バイトなので両者は一致しますが、日本語などのマルチバイト文字を含む場合は値が変わります。UTF-8では日本語の1文字が通常3バイトになるため、たとえば「あいうえお」(5文字)だけのファイルでは次のようになります。

# UTF-8で「あいうえお」+改行 を保存したファイル

$ wc -c japanese.txt

16 japanese.txt    ← 5文字×3バイト+改行1バイト

$ wc -m japanese.txt

6 japanese.txt     ← 5文字+改行1文字

 

落とし穴:オプションなしの「文字数」はバイト数
オプションなしでwcを実行したときの3つ目の数値は、正確には「文字数」ではなく「バイト数」です。日本語を含むファイルで「文字数」を正しく数えたい場合は、必ず -m を使ってください。-m の結果はロケール設定(LANG/LC_CTYPEなど)に依存するため、想定どおりの値にならないときは echo $LANG で文字エンコーディングを確認しましょう。

 

よくある質問(FAQ)

Q1. wcで表示される行数が、ファイルの見た目の行数より1少ないのはなぜ?

wcの行数は「改行コードの数」を数えています。そのため、ファイルの最終行に改行が付いていない(末尾改行がない)場合、その最後の行はカウントされず、見た目より1少なくなります。最終行に改行があるかどうかで結果が変わる点に注意してください。

 

Q2. ファイルの中身ではなく「文字列そのもの」の長さを数えたい場合は?

echo の出力をパイプで渡せます。ただし echo は末尾に改行を付けるため、純粋な文字数より1多くなります。改行を含めたくない場合は echo -n を使います。

$ echo -n "hello" | wc -m

5

 

Q3. 数値だけが欲しく、ファイル名やスペースを消したい。

パイプで標準入力から渡すとファイル名は付きません。ファイルを引数に渡した場合に数値だけを取り出したいときは、次のようにリダイレクトでwcに入力する方法があります。

$ wc -l < sample.txt

3

 

このように < でファイルを入力として渡すと、wcはファイル名を知らないため数値だけを出力します。スクリプト内で件数を変数に代入したいときに便利です。

編集
Post Share
子ページ

子ページはありません

同階層のページ
  1. ls ファイル/ディレクトリ一覧表示
  2. sudo ユーザー指定
  3. cron/crontab ジョブの自動実行と登録方法
  4. wget http通信によるファイルダウンロード
  5. rm ファイル/ディレクトリ削除
  6. pwd カレントディレクトリの表示
  7. cd ディレクトリの移動
  8. ./configure
  9. make
  10. make install
  11. unzip ファイルの解凍
  12. mv ファイル/ディレクトリの移動および名称変更
  13. mkdir ディレクトリの作成
  14. touch 空ファイルの新規作成
  15. vi テキストディタの使用
  16. find ファイル/ディレクトリ検索
  17. grep 文字列の検索
  18. tail ファイルの末尾表示
  19. curl HTTP通信によるリクエスト
  20. nslookup ドメインのIP解決
  21. apt update パッケージリストの情報を更新
  22. apt upgrade パッケージの更新
  23. ln リンク/ショートカットの作成と削除
  24. rsync ファイル/ディレクトリの同期
  25. ssh リモートとの暗号化通信
  26. scp sshを利用したファイルのコピー
  27. unzip zip ファイルを解凍する
  28. cp ファイル/ディレクトリのコピー
  29. diffファイルの差分抽出
  30. fdisk ハードディスクに対する操作
  31. lsblk デバイスをツリー状で表示する
  32. kill プロセスを終了させる
  33. zip ファイルやディレクトリをzip形式に圧縮する
  34. hostコマンド
  35. chmod 権限の変更
  36. ip IPアドレスの確認
  37. chown コマンド(所有者の変更)
  38. chgrp ファイル/ディレクトリのグループ情報の変更
  39. nohupと'&' プログラムのバックグラウンド実行(ssh接続時)
  40. lsof 開いているポート番号の確認
  41. tar ファイルの圧縮と解凍
  42. file ファイルの種類を表示
  43. cat ファイルの中身を表示
  44. head ファイルの先頭部分を表示
  45. wc 行数/単語数/文字数を確認
  46. shutdown システムのシャットダウンと再起動
  47. ps プロセスの確認
  48. which コマンドの絶対パスを調べる
  49. yum RedHat系ディストリビューションの管理
  50. mount ファイルシステムのマウント
  51. 特定フォルダ以下の特定拡張子のファイルを再帰的に削除する方法
  52. 特定のフォルダとそのサブフォルダ内にある特定のファイル名のファイルを再帰的に削除
  53. sed テキスト処理用ストリームエディタ
  54. awk フィールド単位の柔軟なテキスト処理
  55. sort 行の並び替え
  56. uniq 重複行の除去・カウント
  57. cut 行から特定列を切り出し
  58. tr 文字の置換・削除
  59. less ページャでファイルを読む
  60. more 古典ページャ
  61. xargs 標準入力をコマンド引数に変換
  62. paste 複数ファイルを列方向に結合
  63. top プロセスの動的監視
  64. htop 強化版インタラクティブプロセス監視
  65. nice プロセスの優先度を指定して起動
  66. renice 実行中プロセスの優先度を変更
  67. jobs シェル管理下のジョブ一覧
  68. bg ジョブをバックグラウンドで実行
  69. fg バックグラウンドジョブをフォアグラウンドに
  70. killall プロセス名でまとめて終了
  71. pgrep プロセス名から PID を検索
  72. pkill プロセス名でシグナルを送信
  73. uname システム情報の表示
  74. uptime システム稼働時間とロードアベレージ
  75. free メモリ使用状況の表示
  76. df ディスク使用量 (ファイルシステム単位)
  77. du ディレクトリ・ファイル単位の使用量
  78. lscpu CPU 情報の表示
  79. lsmod 読み込み済みカーネルモジュール一覧
  80. lspci PCI デバイス一覧
  81. dmesg カーネルリングバッファの表示
  82. w ログイン中ユーザーと負荷の表示
  83. ping ホストへの到達性とラウンドトリップ確認
  84. traceroute ホストまでの経路を表示
  85. netstat ネットワーク接続・ルーティング表示 (旧式)
  86. ss netstat 後継、ソケット統計
  87. ifconfig ネットワークインターフェース表示・設定 (旧式)
  88. dig DNS リゾルバ問い合わせの定番
  89. route ルーティングテーブル表示 (旧式)
  90. iptables Linux パケットフィルタリング
  91. telnet TCP 接続診断・古典的リモートログイン
  92. arp ARP テーブルの表示・編集 (旧式)
  93. useradd ユーザーアカウントの作成
  94. usermod 既存ユーザーアカウントの変更
  95. userdel ユーザーアカウントの削除
  96. passwd パスワードの変更・管理
  97. groupadd グループの追加
  98. id ユーザーとグループの ID・所属を表示
  99. whoami 現在のユーザー名を表示
  100. su 別ユーザーに切り替え
  101. dnf Red Hat 系の次世代パッケージマネージャ (yum 後継)
  102. pacman Arch Linux のパッケージマネージャ
  103. echo 文字列・変数の出力
  104. export 環境変数の設定と継承
  105. alias コマンドの別名定義
  106. source / . スクリプトをカレントシェルで実行
  107. history コマンド履歴の表示・操作
  108. type コマンドの種別 (組み込み/関数/エイリアス/外部) を表示
  109. env 環境変数表示と一時設定でコマンド実行
  110. set シェルオプションと位置パラメータの操作
  111. unset 変数・関数の削除
  112. printf C 風書式付き出力
  113. systemctl systemd ユニットの管理
  114. service init.d 互換のサービス管理
  115. journalctl systemd ジャーナルログの参照
  116. crontab 定期実行ジョブの登録・編集
  117. at 指定時刻に 1 回だけコマンド実行
  118. umount ファイルシステムのアンマウント
  119. reboot システムを再起動
  120. halt システムを停止
  121. date 日付・時刻の表示と設定
  122. hostname ホスト名の表示・設定
  123. gzip ファイルを Deflate で圧縮
  124. gunzip gzip 圧縮ファイルの展開
  125. bzip2 高圧縮率の圧縮コマンド
  126. xz LZMA2 ベースの高圧縮コマンド
  127. zstd Facebook 製の高速圧縮コマンド
  128. dpkg Debian パッケージの低レベル操作
  129. rpm Red Hat パッケージの低レベル操作
  130. snap Canonical の sandbox パッケージマネージャ
  131. apt Debian/Ubuntu の高レベルパッケージマネージャ
  132. 7z 7-Zip コマンドラインツール

最近更新/作成されたページ