andreacorbellini:fix-comm-named-pipes - Branch - uutils/coreutils

comm: remove double reads, which cause data from named pipes to be skipped

#9062

Comparing

andreacorbellini:fix-comm-named-pipes

(

f3360f4

) with

main

(

9b9a913

)

-28%

Regressions: 1

Untouched: 125

Skipped: 2

Benchmarks

Skipped (2)

Failed

factor_multiple_big_uint

src/uu/factor/benches/factor_bench.rs

Regression

-28%

18.6 ms25.9 ms

Passed

tsort_input_parsing_heavy[5000]

src/uu/tsort/benches/tsort_bench.rs

+1%

82.4 ms81.5 ms

du_max_depth_balanced_tree[(6, 4, 10)]

src/uu/du/benches/du_bench.rs

33 ms32.9 ms

du_human_balanced_tree[(5, 4, 10)]

src/uu/du/benches/du_bench.rs

10.5 ms10.5 ms

sort_dictionary_order[500000]

src/uu/sort/benches/sort_bench.rs

1.1 s1.1 s

sort_case_insensitive[500000]

src/uu/sort/benches/sort_bench.rs

278.7 ms278.6 ms

b64_decode_ignore_garbage_synthetic

src/uu/base64/benches/base64_bench.rs

149.9 µs149.8 µs

sort_unique_mixed

src/uu/sort/benches/sort_locale_bench.rs

39.3 ms39.3 ms

b64_decode_synthetic

src/uu/base64/benches/base64_bench.rs

149.4 µs149.3 µs

cksum_blake3

src/uu/cksum/benches/cksum_bench.rs

95.7 ms95.7 ms

ls_recursive_long_all_deep_tree[(100, 4)]

src/uu/ls/benches/ls_bench.rs

3.2 ms3.2 ms

ls_recursive_long_all_mixed_tree

src/uu/ls/benches/ls_bench.rs

2.8 ms2.8 ms

cp_recursive_deep_tree[(120, 4)]

src/uu/cp/benches/cp_bench.rs

13.6 ms13.6 ms

ls_recursive_long_all_wide_tree[(15000, 1500)]

src/uu/ls/benches/ls_bench.rs

142.1 ms142.1 ms

wc_bytes_synthetic[500]

src/uu/wc/benches/wc_bench.rs

164.4 µs164.4 µs

sort_german_c_locale

src/uu/sort/benches/sort_locale_bench.rs

38.4 ms38.4 ms

sort_case_sensitive[500000]

src/uu/sort/benches/sort_bench.rs

174.2 ms174.2 ms

ls_recursive_balanced_tree[(6, 4, 15)]

src/uu/ls/benches/ls_bench.rs

55.6 ms55.6 ms

ls_recursive_mixed_tree

src/uu/ls/benches/ls_bench.rs

1.4 ms1.4 ms

b64_encode_synthetic

src/uu/base64/benches/base64_bench.rs

146.2 µs146.2 µs

cp_archive_balanced_tree[(5, 4, 10)]

src/uu/cp/benches/cp_bench.rs

77.8 ms77.8 ms

mv_multiple_to_dir

src/uu/mv/benches/mv_bench.rs

13.1 ms13.1 ms

wc_lines_extreme_line_lengths[(100000, 200)]

src/uu/wc/benches/wc_bench.rs

1.6 ms1.6 ms

hashsum_sha1

src/uu/hashsum/benches/hashsum_bench.rs

72.5 ms72.5 ms

tsort_linear_chain[1000000]

src/uu/tsort/benches/tsort_bench.rs

1.5 s1.5 s

sort_german_locale

src/uu/sort/benches/sort_locale_bench.rs

39.1 ms39.1 ms

mv_single_file

src/uu/mv/benches/mv_bench.rs

129.6 ms129.6 ms

uniq_heavy_duplicates[10000]

src/uu/uniq/benches/uniq_bench.rs

1.9 ms1.9 ms

wc_lines_large_line_count[500000]

src/uu/wc/benches/wc_bench.rs

2.9 ms2.9 ms

tsort_wide_dag[100000]

src/uu/tsort/benches/tsort_bench.rs

134.7 ms134.7 ms

sort_reverse_locale[500000]

src/uu/sort/benches/sort_bench.rs

361.5 ms361.5 ms

wc_chars_large_line_count[100000]

src/uu/wc/benches/wc_bench.rs

994.7 µs994.7 µs

hashsum_sha256

src/uu/hashsum/benches/hashsum_bench.rs

173.6 ms173.6 ms

cut_characters

src/uu/cut/benches/cut_bench.rs

7.5 ms7.5 ms

uniq_case_insensitive[10000]

src/uu/uniq/benches/uniq_bench.rs

1.7 ms1.7 ms

tsort_complex_dag[50000]

src/uu/tsort/benches/tsort_bench.rs

84.7 ms84.7 ms

wc_lines_variable_length[(50, 500)]

src/uu/wc/benches/wc_bench.rs

3.4 ms3.4 ms

cksum_default

src/uu/cksum/benches/cksum_bench.rs

17.7 ms17.7 ms

cksum_raw_output

src/uu/cksum/benches/cksum_bench.rs

17.7 ms17.7 ms

cksum_crc32b

src/uu/cksum/benches/cksum_bench.rs

14.1 ms14.1 ms

sort_accented_data[500000]

src/uu/sort/benches/sort_bench.rs

362.4 ms362.4 ms

cksum_crc

src/uu/cksum/benches/cksum_bench.rs

17.7 ms17.7 ms

seq_with_step

src/uu/seq/benches/seq_bench.rs

13.3 ms13.3 ms

cut_fields_custom_delim

src/uu/cut/benches/cut_bench.rs

40.7 ms40.7 ms

sort_mixed_data[500000]

src/uu/sort/benches/sort_bench.rs

327.3 ms327.3 ms

cksum_sysv

src/uu/cksum/benches/cksum_bench.rs

48 ms48 ms

seq_custom_separator

src/uu/seq/benches/seq_bench.rs

28.7 ms28.7 ms

wc_bytes_lines_synthetic[2000]

src/uu/wc/benches/wc_bench.rs

120.2 ms120.2 ms

wc_default_large_line_count[100000]

src/uu/wc/benches/wc_bench.rs

50.4 ms50.4 ms

wc_words_large_line_count[100000]

src/uu/wc/benches/wc_bench.rs

47.9 ms47.9 ms

unexpand_many_lines[100000]

src/uu/unexpand/benches/unexpand_bench.rs

262 ms262 ms

cksum_bsd

src/uu/cksum/benches/cksum_bench.rs

128.1 ms128.1 ms

cut_bytes

src/uu/cut/benches/cut_bench.rs

8.5 ms8.5 ms

numfmt_padding[(10000, 50)]

src/uu/numfmt/benches/numfmt_bench.rs

47.7 ms47.7 ms

cksum_blake2b

src/uu/cksum/benches/cksum_bench.rs

192.9 ms192.9 ms

expand_many_lines[100000]

src/uu/expand/benches/expand_bench.rs

149.9 ms149.9 ms

numfmt_round_modes[("up", 10000)]

src/uu/numfmt/benches/numfmt_bench.rs

34.6 ms34.6 ms

nl_many_lines[100000]

src/uu/nl/benches/nl_bench.rs

79.7 ms79.7 ms

numfmt_from_si[10000]

src/uu/numfmt/benches/numfmt_bench.rs

33.3 ms33.3 ms

cksum_md5

src/uu/cksum/benches/cksum_bench.rs

317.8 ms317.8 ms

seq_formatted

src/uu/seq/benches/seq_bench.rs

97.2 ms97.2 ms

unexpand_large_file[10]

src/uu/unexpand/benches/unexpand_bench.rs

549.3 ms549.3 ms

hashsum_md5_check

src/uu/hashsum/benches/hashsum_bench.rs

32 ms32 ms

seq_integers

src/uu/seq/benches/seq_bench.rs

26.1 ms26.1 ms

numfmt_to_si[10000]

src/uu/numfmt/benches/numfmt_bench.rs

34.2 ms34.2 ms

cksum_sha384

src/uu/cksum/benches/cksum_bench.rs

1.1 s1.1 s

cksum_sha512

src/uu/cksum/benches/cksum_bench.rs

1.1 s1.1 s

cksum_sha1

src/uu/cksum/benches/cksum_bench.rs

722.9 ms722.9 ms

cksum_shake256

src/uu/cksum/benches/cksum_bench.rs

1.9 s1.9 s

cksum_sm3

src/uu/cksum/benches/cksum_bench.rs

1.6 s1.6 s

cksum_sha224

src/uu/cksum/benches/cksum_bench.rs

1.7 s1.7 s

numfmt_to_iec[10000]

src/uu/numfmt/benches/numfmt_bench.rs

34.2 ms34.2 ms

cksum_shake128

src/uu/cksum/benches/cksum_bench.rs

1.5 s1.5 s

cksum_sha256

src/uu/cksum/benches/cksum_bench.rs

1.7 s1.7 s

numfmt_to_si_precision[10000]

src/uu/numfmt/benches/numfmt_bench.rs

35.5 ms35.5 ms

cksum_sha2

src/uu/cksum/benches/cksum_bench.rs

1.7 s1.7 s

cksum_sha3

src/uu/cksum/benches/cksum_bench.rs

1.8 s1.8 s

wc_words_synthetic[2000]

src/uu/wc/benches/wc_bench.rs

11.4 s11.4 s

numfmt_large_numbers_si[10000]

src/uu/numfmt/benches/numfmt_bench.rs

32.9 ms32.9 ms

hashsum_sha256_check

src/uu/hashsum/benches/hashsum_bench.rs

173.6 ms173.6 ms

fold_many_lines[100000]

src/uu/fold/benches/fold_bench.rs

116.2 ms116.2 ms

hashsum_md5

src/uu/hashsum/benches/hashsum_bench.rs

32 ms32 ms

numfmt_round_modes[("down", 10000)]

src/uu/numfmt/benches/numfmt_bench.rs

34.6 ms34.6 ms

numfmt_round_modes[("towards-zero", 10000)]

src/uu/numfmt/benches/numfmt_bench.rs

34.6 ms34.6 ms

nl_large_file[10]

src/uu/nl/benches/nl_bench.rs

100.9 ms100.9 ms

fold_custom_width[50000]

src/uu/fold/benches/fold_bench.rs

43.4 ms43.4 ms

sort_numeric[500000]

src/uu/sort/benches/sort_bench.rs

1.2 s1.2 s

expand_custom_tabstops[50000]

src/uu/expand/benches/expand_bench.rs

37 ms37 ms

cut_fields_tab

src/uu/cut/benches/cut_bench.rs

34.1 ms34.1 ms

rm_recursive_tree

src/uu/rm/benches/rm_bench.rs

13.6 ms13.6 ms

cksum_multiple_files

src/uu/cksum/benches/cksum_bench.rs

26.5 ms26.5 ms

rm_force_files

src/uu/rm/benches/rm_bench.rs

2.1 ms2.1 ms

sort_key_field[500000]

src/uu/sort/benches/sort_bench.rs

700.1 ms700.1 ms

uniq_with_count[10000]

src/uu/uniq/benches/uniq_bench.rs

1.9 ms1.9 ms

mv_directory

src/uu/mv/benches/mv_bench.rs

3.5 ms3.5 ms

mv_force_overwrite

src/uu/mv/benches/mv_bench.rs

125.1 ms125.1 ms

rm_multiple_files

src/uu/rm/benches/rm_bench.rs

2.3 ms2.3 ms

sort_ascii_c_locale

src/uu/sort/benches/sort_locale_bench.rs

21.5 ms21.5 ms

sort_mixed_c_locale

src/uu/sort/benches/sort_locale_bench.rs

38.3 ms38.3 ms

ls_recursive_wide_tree[(10000, 1000)]

src/uu/ls/benches/ls_bench.rs

52.6 ms52.6 ms

rm_single_file

src/uu/rm/benches/rm_bench.rs

106.5 ms106.5 ms

sort_numeric

src/uu/sort/benches/sort_locale_bench.rs

23.2 ms23.2 ms

hashsum_sha512

src/uu/hashsum/benches/hashsum_bench.rs

110.8 ms110.8 ms

sort_ascii_utf8_locale

src/uu/sort/benches/sort_locale_bench.rs

43.1 ms43.1 ms

sort_ascii_only[500000]

src/uu/sort/benches/sort_bench.rs

353.6 ms353.7 ms

split_number_chunks

src/uu/split/benches/split_bench.rs

275.3 µs275.3 µs

split_lines

src/uu/split/benches/split_bench.rs

5.7 ms5.7 ms

tsort_tree_dag[(10, 3)]

src/uu/tsort/benches/tsort_bench.rs

34.4 ms34.4 ms

ls_recursive_deep_tree[(200, 2)]

src/uu/ls/benches/ls_bench.rs

2.2 ms2.2 ms

sort_unique_locale[500000]

src/uu/sort/benches/sort_bench.rs

494 ms494.1 ms

ls_recursive_long_all_balanced_tree[(6, 4, 15)]

src/uu/ls/benches/ls_bench.rs

135.8 ms135.8 ms

sort_reverse_mixed

src/uu/sort/benches/sort_locale_bench.rs

39.1 ms39.1 ms

sort_mixed_utf8_locale

src/uu/sort/benches/sort_locale_bench.rs

38.8 ms38.8 ms

split_numeric_suffix

src/uu/split/benches/split_bench.rs

5.9 ms5.9 ms

split_bytes

src/uu/split/benches/split_bench.rs

505.1 µs505.4 µs

cp_recursive_wide_tree[(6000, 800)]

src/uu/cp/benches/cp_bench.rs

189.6 ms189.7 ms

sort_long_line[160000]

src/uu/sort/benches/sort_bench.rs

1.6 ms1.6 ms

cp_preserve_metadata[(5, 4, 10)]

src/uu/cp/benches/cp_bench.rs

75 ms75 ms

cp_recursive_balanced_tree[(5, 4, 10)]

src/uu/cp/benches/cp_bench.rs

72.4 ms72.5 ms

du_summarize_balanced_tree[(5, 4, 10)]

src/uu/du/benches/du_bench.rs

8.4 ms8.5 ms

du_wide_tree[(5000, 500)]

src/uu/du/benches/du_bench.rs

11.3 ms11.3 ms

du_all_wide_tree[(5000, 500)]

src/uu/du/benches/du_bench.rs

18.2 ms18.2 ms

du_deep_tree[(100, 3)]

src/uu/du/benches/du_bench.rs

1.2 ms1.2 ms

factor_multiple_u64s[2]

src/uu/factor/benches/factor_bench.rs

178.3 ms179.2 ms

cp_large_file[16]

src/uu/cp/benches/cp_bench.rs

-1%

341.4 µs343.2 µs

factor_multiple_u128s[18446744073709551616]

src/uu/factor/benches/factor_bench.rs

-2%

327.9 ms333.5 ms

Commits

Click on a commit to change the comparison range

Base

main

9b9a913

-28.18%

comm: remove double reads, which cause data from named pipes to be skipped comm (when passing two file names) opens the input files twice: 1. once to perform its normal operation of comparing the file contents; 2. a second time, in `are_files_identical()` to verify if the two files have exactly the same contents, in order to set the `should_check_order` flag. When the file is opened in `are_files_identical()`, new file descriptors are created, and those new file descriptors are read until a difference is found or until EOF. When the inputs are regular files, this mechanism is generally not a problem (with some caveats, see below). However, when using named pipes, `are_files_identical()` will effectively eat data that won't be available for comparison anymore. This problem can be seen with this minimal reproducible example: ``` # create a file larger than BufReader's internal buffer (8 KiB) $ for i in {00000..2000}; do echo $i; done > f # run comm with two regular files: this works and reports no errors $ comm /dev/null f 00000 ... 02000 # run comm with two named pipes: the following will expand to something # like `comm /dev/fd/63 /dev/fd/62`; the output should be the same as # above, but because `are_files_identical()` consumes some blocks of # data, the file will appear not in sorted order to `comm` and some # bytes will be missing $ comm <(< /dev/null) <(< f) 00000 ... 01364 comm: file 2 is not in sorted order 01 comm: input is not in sorted order ``` This commit fixes the problem by removing `are_files_identical()`, and instead keeping track of whether the files have the same contents using a flag (`files_differ`) through the main loop. This implementation matches more closely the behavior of GNU comm. It's worth noting that the implementation using `are_files_identical()` was prone to race conditions, and was not fully matching the behavior of GNU comm, which allows two files to be *partially* identical and not sorted.

f3360f4

8 days ago

by andreacorbellini

Home Terms Privacy Docs