ページの作成
親となるページを選択してください。
親ページに紐づくページを子ページといいます。
例: 親=スポーツ, 子1=サッカー, 子2=野球
子ページを親ページとして更に子ページを作成することも可能です。
例: 親=サッカー, 子=サッカーのルール
親ページはいつでも変更することが可能なのでとりあえず作ってみましょう!
| この記事の要点 |
|
概要
NDJSON(Newline Delimited JSON)と JSONL(JSON Lines)は、1 行に 1 つの JSON オブジェクトを書き、改行で区切る テキストフォーマットです。両者は仕様としてはほぼ同一で、コミュニティの呼び名が分かれているだけです。拡張子は .ndjson と .jsonl が両方使われ、ツール側はどちらも受け付けるのが普通です。
通常の JSON ファイルは [ {...}, {...}, {...} ] という配列でくくるため、全件読み込まないとパースを始められません。これに対し NDJSON はファイル全体が JSON ではなく、各行が独立した JSON なので、1 行読んでパース → 処理 → 次の行 というストリーミング処理が自然にできます。100 GB のデータでもメモリ数 MB で処理できる、というのが最大の利点です。
用途は ログ転送・ETL・機械学習データセット・データウェアハウスのバルクロード が中心です。OpenAI の Fine-tuning API、Hugging Face Datasets、Google BigQuery の NEWLINE_DELIMITED_JSON 形式、AWS Athena、Snowflake などが NDJSON を 標準入力フォーマット として採用しています。Logstash と Fluentd はログイベントを NDJSON でやり取りするのが基本動作です。
内部構造とサンプル
NDJSON の中身は単純です。各行が 1 つの有効な JSON オブジェクトであり、行と行の間に余計な区切り文字(カンマや配列のブラケット)は 入りません。
{"id":1,"name":"alice","tags":["admin","ops"]}
{"id":2,"name":"bob","tags":["dev"]}
{"id":3,"name":"carol","tags":[]}
同じデータを通常の JSON で書くとこうなります。
[
{"id":1,"name":"alice","tags":["admin","ops"]},
{"id":2,"name":"bob","tags":["dev"]},
{"id":3,"name":"carol","tags":[]}
]
違いは「外側の [ ] がない」「各要素の後ろのカンマがない」「1 行に 1 つ」の 3 点です。これにより NDJSON は 追記が tail -F で監視可能 になり、cat a.ndjson b.ndjson > merged.ndjson で単純連結できます。普通の JSON 配列だと連結に jq -s などの処理が必要になります。
主な用途
- ログ配送: Fluentd・Logstash・Vector がイベントを NDJSON で書き出す。各行が 1 イベント、Elasticsearch / OpenSearch の Bulk API も NDJSON ベース
- ETL の中間形式: S3 / GCS に NDJSON で吐いて、BigQuery / Snowflake / Redshift / Athena が読み込む。Parquet ほど効率は良くないが、人間が中身を読めるのが利点
- ML データセット: OpenAI Fine-tuning は
{"prompt":"...","completion":"..."}を 1 行ずつ並べた JSONL を受け付ける。Hugging Face Datasets も同様 - クローラー出力: Scrapy などは
scrapy crawl -o out.jsonlで結果を JSONL に書き出す。途中で落ちても部分結果が残るのが嬉しい - API のストリーミングレスポンス: ChatGPT の API がイベントを
data: {...}\\n\\n形式で返すのも、NDJSON の近縁(厳密には SSE)
関連形式との比較
| 項目 | NDJSON / JSONL | 通常の JSON 配列 | CSV | Parquet |
|---|---|---|---|---|
| 1 行 1 レコード | ○ | × | ○ | —(バイナリ) |
| ストリーミング処理 | ◎ | × | ○ | △ |
| ネスト構造 | ○ | ○ | × | ○ |
| サイズ | 大 | 大 | 中 | 小(圧縮) |
| 追記 | ○(行追加するだけ) | × | ○ | ×(パーティション追加) |
| 人間可読性 | ○ | ○ | ○ | × |
NDJSON は「人間が読めて、追記でき、ストリームできる」中庸の選択肢です。長期保管やクエリ性能を最優先するなら Parquet、表計算ソフトで開きたいなら CSV、設定ファイルなら通常の JSON、と用途で選び分けます。
コマンド・ツール
# JSON 配列 → NDJSON
jq -c '.[]' input.json > output.ndjson
# NDJSON → JSON 配列
jq -s '.' input.ndjson > output.json
# 件数カウント
wc -l data.ndjson
# 特定フィールドだけ抽出
jq -r '.email' users.ndjson
# 条件フィルタ
jq -c 'select(.tags | index("admin"))' users.ndjson
# 並列処理(GNU parallel + jq)
cat huge.ndjson | parallel --pipe -j 8 'jq -c ".id"'
# BigQuery にロード
bq load --source_format=NEWLINE_DELIMITED_JSON \
dataset.table gs://bucket/data.ndjson schema.json
# Elasticsearch Bulk API(NDJSON ベース)
curl -s -H 'Content-Type: application/x-ndjson' \
-XPOST localhost:9200/_bulk --data-binary @bulk.ndjson
Python なら for line in open(path): obj = json.loads(line) の素朴なループで処理でき、pandas.read_json(path, lines=True) も対応。Node.js は readline モジュールで 1 行ずつ読み、Go は bufio.Scanner + json.Unmarshal が定番です。
注意点
- 改行の取り扱い: 推奨は LF(
\\n)。CRLF も多くの実装が許容するが、シェルパイプ経由で混ざると行数カウントがズレることがある - 整形 JSON は不可: 配列要素を改行で複数行に分けると 1 行 1 オブジェクトの前提が崩れる。生成側は必ず 1 行に圧縮 する(
jq -c) - 末尾改行: 仕様としてどちらも許容だが、付ける派が多数。
wc -lでズレた場合はこれを疑う - 巨大行は重い: 1 行が数 MB を超えると
jqの--seq系でも詰まりやすい。文字列フィールドに巨大データを入れず、別ファイル化する - 文字コード: UTF-8 が事実上必須。日本語などのマルチバイトは
\\uXXXXエスケープと生の UTF-8 の両方が許容されるが、現代では生の UTF-8 のままが標準 - セキュリティ: 信頼できないソースの NDJSON を
evalや安直なテンプレートに流すと、"や制御文字でインジェクションが起きる。必ず JSON パーサ経由で取り扱う
関連リンク
- 親カテゴリ: データベース・データ交換
- 概論: ファイル拡張子とは
- JSON 本体: JSON(.json)
- 同 Wave: SQL ダンプ / SQLite / BSON / DB ダンプ
ページの作成
親となるページを選択してください。
親ページに紐づくページを子ページといいます。
例: 親=スポーツ, 子1=サッカー, 子2=野球
子ページを親ページとして更に子ページを作成することも可能です。
例: 親=サッカー, 子=サッカーのルール
親ページはいつでも変更することが可能なのでとりあえず作ってみましょう!
子ページはありません
人気ページ
- 1 Eclipseで「サーバーに追加または除去できるリソースがありません。」の原因と対処法
- 2 tomcat の起動 / 停止ログと catalina.log・catalina.out の違い
- 3 JavaScript base URL 取得方法|window.location.origin と SSR/Node.js 対応
- 4 YouTube Data API v3 エラー一覧|403/400/404 の主要原因と切り分け
- 5 Spring Frameworkのアノテーション一覧
- 6 Laravel エラー一覧|500/Blade/DB 接続/ルーティングの代表エラー
- 7 3Dグラフィックスとは|モデリング/レンダリング/主要ソフトウェア (Blender / Maya)
- 8 【Spring】@Valueアノテーションとは
- 9 CATALINA_HOME の確認方法 (Linux / Mac)
- 10 【Spring】@Autowiredアノテーションとは
最近更新/作成されたページ
- IPv6とは|128bitアドレス・コロン16進表記/::省略・リンクローカル・SLAAC・デュアルスタック NEW 2026-06-22 12:34:44
- MAC アドレスフィルタリングの仕組みと限界 | ネットワーク入門 NEW 2026-06-22 12:19:10
- VPNとは|暗号トンネル・サイト間/リモートアクセス・IPsec/SSL-VPN/WireGuardを解説 NEW 2026-06-22 12:19:10
- Web通信プロトコル入門 HTTP/2・HTTP/3・WebSocket・gRPC・WebRTC | ネットワーク入門 NEW 2026-06-22 12:17:25
- WebRTC とは ブラウザ間 P2P の音声・映像・データ通信 | ネットワーク入門 NEW 2026-06-22 12:17:25
- HTTP/2 とは 多重化・HPACK・バイナリフレーム | ネットワーク入門 NEW 2026-06-22 12:17:25
- HTTP/3 (QUIC) とは UDP ベースの低遅延 Web 通信 | ネットワーク入門 NEW 2026-06-22 12:17:25
- WebSocket とは 全二重リアルタイム通信 ws/wss | ネットワーク入門 NEW 2026-06-22 12:17:25
- gRPC とは HTTP/2 + Protocol Buffers の高速 RPC | ネットワーク入門 NEW 2026-06-22 12:17:25
- ファイアウォールとは|パケットフィルタ・ステートフル・DMZ・次世代FW(L4/L7)を解説 NEW 2026-06-22 12:17:24
- TLS/SSLの仕組み|ハンドシェイク・暗号スイート・前方秘匿性・証明書検証をわかりやすく解説 NEW 2026-06-22 12:17:24
- CDN とは エッジキャッシュ・TTL・Cloudflare/CloudFront | ネットワーク入門 NEW 2026-06-22 12:17:24
- iptables/nftablesとは|テーブル・チェーン・ルール例・永続化をLinux視点で解説 NEW 2026-06-22 12:17:24
- HAProxy とは frontend/backend と設定例 | ネットワーク入門 NEW 2026-06-22 12:17:24
- 証明書と認証局(CA)とは|X.509・信頼チェーン・DV/OV/EV・失効(CRL/OCSP)を解説 NEW 2026-06-22 12:17:24
コメントを削除してもよろしいでしょうか?