2020 全國賽驗題心得

筆者參與了本屆全國賽的驗題。驗題工作包含修正題目敘述與訂定時間限制，並~~總是要~~於必要時重出測試資料，前後花了一個多月才完成。讀者可以把這篇文章當作上篇題解的幕後花絮，簡單了解比賽題目是怎麼產生的，以及有哪些有趣的事情發生。由於筆者花最多時間在驗 pG 上，pG 會佔大部分的篇幅，還請見諒。

A. 礦砂採集

由於排序的 $\Theta(n\log n)$ 和 quickselect 的 $O(n)$ 以比賽來說難以區分，一開始就只預期參賽者用排序 AC。一度想過是否把 $n$ 的上限拉到 $10^5$ 卡 $\Theta(n^2)$ 排序，想說這題就是個簽到題就算了，可惜仍有參賽者未能拿到滿分。

B. 村莊與小徑

看到 scoreborad 有人卡在最後一個 subtask，有點好奇究竟是單純的 bug 還是堅信 SPFA 的時間複雜度是 $O(kE)$ 而狂傳。大概在 $10$ 年前，筆者還在打 TOI 的時候，簡體中文網路上就流傳著 SPFA 時間複雜度只有 $O(2E)$，快到可以作為 general 最短路徑演算法的都市傳說。筆者並不清楚為什麼許多中國人認為 Dijkstra 比 SPFA 難寫（筆者覺得正好相反）導致即使可能 TLE 也要寫 SPFA，不過總之請記得，如果一個題目能用 DAG 上 DP 或 Dijkstra 過，請不要用 SPFA。

C. 樣本解析

這題的交集關係部分寫得很繁瑣，但我們沒有辦法。本來打算用 $\subset$ 表示 proper subset，實際上也有 $\subseteq$ 這個符號，筆者認為就像 $<$ 和 $\leq$ 一樣，不應有混淆的空間；然而偏偏有些作者在用「$A \subset B$」時，允許 $A = B$，可能導致參賽者混淆而放棄。也考慮過改用 $\subsetneq$ 符號，但這跟 $\lneq$ 一樣相對罕見，考慮參賽者都是高中生很可能看不懂，只好全部改用中文敘述。

D. 水果包裝

筆者第一次看到題目後，在紙上推敲了許久（$30$ 分鐘有）才得出 greedy 結論，很意外這題的答題狀況這麼好~~，好奇到底有多少人是用猜的~~。不過有一等獎參賽者沒能拿到滿分，用心出 $n$ 的數量級 $10^5$ 的測資也有了價值 (?

原先這題 $n$ 的上限只到 $100$，給的 special judge 程式不僅時間複雜度 $\Theta(n^2)$ 還有 bug（直接用 %d 讀整數之類），最後筆者全部重寫 orz。測資部分有簡單卡 random：考慮 $n/2$ 個袋子裝 $1, 2, 4, \ldots, 2^{27}$，另外 $n/2$ 個袋子裝 $2^{28}-1$，並在這 $n$ 個袋子中隨機選擇 $n/2$ 個袋子追加放入 $10^9$，這樣只要裝有 $1, 2, 4, \ldots, 2^{27}, 10^9$ 的袋子的 $10^9$ 不是最後放入就會失敗。

E. 共同朋友

原始題目是給定 $K$，問有幾對 $(i, j)$ 的共同朋友數至少有 $K$ 個。由於出題者後來不認為高中生應該知道 __builtin_popcount() 或 std::bitset<N>::count()，但直接用 for 迴圈計算一個 word 包含幾個 bit 會 TLE，只好在比賽前一星期臨時把 $K$ 改成 $1$。

筆者也不認為一個參賽者應該知道這兩個東西，尤其前者是 gcc extension，更不應該成為「演算法」競賽的考點。然而 popcount 可以透過建 0~65535 表格快速得到，這個表格甚至能在 compile time 就計算完成，故像筆者一樣不喜歡這兩個東西的參賽者在 $K > 1$ 時也應該能做，且不困難。（筆者寫 code 時會盡量按照語言標準，避免使用 compiler extension 以確保在多數平台上都能正常運作；另，std::bitset<N> 無法動態調整大小，和筆者用多少開多少的習慣不合。）

追伸：其實筆者以外的兩位驗題者一致認為一個參賽者應該要知道 __builtin_popcount() （或者 cl.exe 提供的 __popcnt()）或 std::bitset<N>::count()，因此如果讀者懶得自己動手寫 popcount，建議熟悉這兩個 API~~，或者等到 std::popcount 正式加入 C++20~~。

F. 歡樂外送點

這題在比賽前，從出題者到所有驗題者都忽略了只能統計滿足 $x'\equiv y'\ (\operatorname{mod}2)$ 的整數點這件事，導致當 $(x, y, r) = (0, 0, 1), (0, 1, 1), (1, 0, 1), (1, 1, 1)$ 時，正確答案是 $3$，但標程均會給出 $4$。由於統計所有的 $(x', y') \in \mathbb{Z}^2$ 只有在四個 $45^\circ$ 正方形邊界均交於同一非格子點時才會出事，在隨機情況下很難遇到，所以實際上測資還是正確的，只是少了這個 corner case QAQ。

G. 矩陣相乘

其實找隨機向量測試並不是什麼新奇的手法，例如尋找一個複矩陣的 eigenvalue 的 power method。利用 $\mathbf{Cv} = \mathbf{A}(\mathbf{Bv})$ 的計算只需要 $O(n^2)$ 時間以降低整體計算時間的手法，也能在解聯立方程式的 conjugate gradient method 中看到（解 $\mathbf{Ax} = \mathbf{b}$ 但 $\mathbf{A}$ 不是正定時，改解 $(\mathbf{A}^*\mathbf{A})\mathbf{x} = \mathbf{A}^*\mathbf{b}$，但不直接求出 $\mathbf{A}^*\mathbf{A}$ 而是在每次迭代計算形如 $\mathbf{A}^*\mathbf{Ax}$ 的東西）。但一般高中生其實連矩陣乘法都不熟悉了（畢竟數學要到高三才教），遑論要活用上述的手法，而本題確實也是唯一沒有參賽者滿分的題目。

筆者負責這題的測資。原先這題 $n \leq 800$，出題者只表示絕對不能讓 $\Theta(n^3)$ 過，然而筆者的 $\Theta(n^3)$ 乘法在加了各種優化（e.g. 用 gcc 提供的 128-bit integer 累加 $a_{ik}b_{kj}$ 後再取 mod 以得到 $c_{ij}$，以及將 $\mathbf{B}$ 轉置以獲得更好的 cache locality 等）後可以輕鬆地在 2 秒內跑完。最早兩份標程（出題者與筆者各一份）的 $O(n^2 \log n)$ 做法都用了 $\Theta(n^2 \log n)$ 次的 mod 運算，即使把 $n$ 拉高至 $4000$ 也未能顯著地拉開執行時間（筆者的程式 30 多秒，出題者 40 多秒，而 $\Theta(n^3)$ 雖然最長，也不到 50 秒），最後只好把 $p$ 的上限調低確保 $np^2$ 仍在 64-bit integer 裡面，修改標程使 mod 次數降為 $O(n\log n)$，並直接在題本說明「想過這題就不要做太多次 mod」。

在確定 $O(n^2 \log n)$ 和 $\Theta(n^3)$ 能拉開後，暫時將 $n$ 的上限降低至 $3000$，並重出了測資，時限設為 7.5 秒；另，由於 $p$ 不大時必須增加測試次數，為了減少標程時間，就把 $p$ 的下限提高至 $3001$。然而主辦方認為測資檔太大，希望能降低 $n$ 的上限與時限；另一方面，出題者表示 subtask 2 卡了只挑 1 個測試向量的演算法，希望 subtask 3 能卡只挑 2 個的（在後段有仔細說明）。和出題方和主辦方的交涉過程中，不斷地更新測資，最後總算定下 $n$ 的上限為 $2800$，並確認時限為 6.5 秒；此時加入只能用於 subtask 1 的剪枝的 $\Theta(n^3)$ 程式的執行時間在 7.5 秒上下（儘管 subtask 2/3 即使沒 TLE 也會 WA），可說是算得剛剛好。因為這題的測資檔很肥，光是最後版本就超過 900 MB，幾度弄壞了 gitlab，最後 merge 了好幾次才成功進入 master。

以下簡單介紹測資怎麼出的。一個簡單的方法是生出 $\mathbf{A}$ 和 $\mathbf{C}$，其中 $\mathbf{A} \in GL(n, \mathbb{Z}_p)$，這樣一來只要取 $\mathbf{B} = \mathbf{A}^{-1}\mathbf{C}$，就有 $\mathbf{AB} = \mathbf{C}$。但注意這種生成方式只要 $\mathbf{C}$ 有某個 column 全為 $0$，$\mathbf{B}$ 在對應的 column 就是 $0$，而這會讓剪枝仔有機可乘，not cool。由於 $(\mathbf{AB})^T = \mathbf{B}^T\mathbf{A}^T$，我們挑的 $\mathbf{C}$ 要嘛得滿足每個 row 皆不為 $0$（此時生 $\mathbf{B} \in GL(n, \mathbb{Z}_p)$ 取 $\mathbf{A} = \mathbf{CB}^{-1}$），要嘛得滿足每個 column 皆不為 $0$（此時生 $\mathbf{A} \in GL(n, \mathbb{Z}_p)$ 取 $\mathbf{B} = \mathbf{A}^{-1}\mathbf{C}$）。這個生成方式相對簡單，唯一的缺點是 $\mathbf{A}$ 和 $\mathbf{B}$ 至少有一個是 invertible；為了防止有數值線代專家利用這點來 hack（雖然不太可能），還是生了一筆 $\operatorname{rank}\mathbf{A} = \operatorname{rank}\mathbf{B} = \operatorname{rank}\mathbf{AB} = n-1$ 的測資在 subtask 2 中。

Subtask 1 除了詳解中介紹的 $O(n^2)$ 方法外，也能令 $t = 1$ 取 $\mathbf{v_1} = (1, 1, \ldots, 1)^T$，再套用原隨機演算法，可以 $100\%$ 得到正確的答案。實際上不只是 $(1, 1, \ldots, 1)^T$，任意 $\mathbf{v_1} \in \mathbb{Z}_p^n$ 只要每個分量都不是 $0$，就能做到這件事。筆者在 subtask 2 放了一個 $\mathbf{C}$，其中 $n = 2800, p = 2801$， \[\mathbf{C}_{1:n; 1:2} = \begin{pmatrix}1&1\\1&2\\\vdots&\vdots\\1&2800\end{pmatrix},\] 且其他 entry 都是 $0$。這樣只要 $(\mathbf{v_1})_1$ 和 $(\mathbf{v_1})_2$ 都不是 $0$，執行演算法時就會有某個 row 被判定為 $0$，因為 $\mathbf{C}$ 有一列叫作 $(1, -(\mathbf{v_1})_1(\mathbf{v_1})_2^{-1}, 0, 0, \ldots)$，讀者可自行驗證這個 row vector 和 $\mathbf{v_1}$ 乘起來恰為 $0$。注意題目定 $n$ 的上限為 $2800$ 而 $2801$ 剛好是質數，恰好可以拿來生成這個 case（其實這就是 $2800$ 的由來：選一個看起來比較不可疑的數 $N$，滿足 $N<3000$ 且 $N+1$ 為質數）。

回想一下，在 subtask 2 中，只要挑對兩條向量，就能 $100\%$ 得到正確的答案。由於被出題者發現 subtask 2 可以卡 $t = 1$，便希望能放卡 $t = 2$ 的測資在 subtask 3 中，而這 exactly 就是為什麼 $p$ 的下限被設為 $37$ 這個可疑數字了。設測試向量 $(\mathbf{v_1})_{1:3} = (a_1, b_1, c_1), (\mathbf{v_2})_{1:3} = (a_2, b_2, c_2)$。簡單算一下可以發現，只要 \[x: y: z = \begin{vmatrix}b_1&c_1\\b_2&c_2\end{vmatrix}: \begin{vmatrix}c_1&a_1\\c_2&a_2\end{vmatrix}: \begin{vmatrix}a_1&b_1\\a_2&b_2\end{vmatrix}\] 便有 $a_1x+b_1y+c_1z = a_2x+b_2y+c_2z = 0$。因此需要放置以下這些 row：

$(1, x, y, 0, \ldots)$，其中 $x, y \in \mathbb{Z}_p$。
$(0, 1, x, 0, \ldots)$，其中 $x \in \mathbb{Z}_p$。
$(0, 0, 1, 0, \ldots)$。

所以 $n$ 必須大到足以放入這些 row，也就是 \[p^2 + p + 1 \leq n.\] 另一方面，nontrivial entry 不能超過 $2n$ 個，而統計一下可以發現上面這些 row 共有 $3p^2$ 個 nontrivial entry，故也必須滿足 \[3p^2 \leq 2n.\] 最後，每條 row 至少要有一個非 $0$（其實改成每條 column 也行，只是不會比較好），所以必須有 \[2n-3p^2 \geq n-(p^2+p+1).\] 代入 $n = 2800$ 解上面三式，推出最大的 $p$ 為 $37$，不能再大了。

追伸一：為了方便說明，上述的 $\mathbf{C}$ 其實是簡化過的，比賽時的 $\mathbf{C}$ 有做進一步的加工。例如實際上卡 $t = 1$ 的 $\mathbf{C}$ 唯二的 nontrivial column 並不是在 $1$ 和 $2$，而是在 $3$ 和 $4$，且每個 row 都被隨機乘上了某個非 $0$ 數。

追伸二：在推出 $p$ 的下限必須為 $37$ 或更低後，也生了 $p=37$ 的其他測資，這時出題者的標程居然 WA 了。加上 srand(time(nullptr)) 後，測 $10$ 次 WA $10$ 次，慘不忍睹。仔細看了 code 才發現原來出題者的程式並不是設定 $t = 5$，而是跑 $5$ 次 $t = 1$ 後取聯集；這就是為什麼詳解中特別對這種情況做估計。

追伸三：設 $\mathbf{u}, \mathbf{v}$ 為兩向量，有人會把 $\mathbf{v}^T\mathbf{u}$ 稱作 $\mathbf{u}$ 和 $\mathbf{v}$ 的內積，但這是錯的。同樣地，兩矩陣乘積 $\mathbf{AB}$ 在 $(i, j)$ 元素的值也不該被稱為 $\mathbf{A}$ 的第 $i$ 列與 $\mathbf{B}$ 的第 $j$ 行的內積。故事是這樣的：當 $\mathbf{u}, \mathbf{v} \in \mathbb{R}^n$ 時，兩者的 canonical inner product $\langle \mathbf{u}, \mathbf{v} \rangle$ 確實是 $\mathbf{v}^T\mathbf{u}$，也就是 $u_1 v_1 + u_2 v_2 +\ldots + u_n v_n$；然而若 $\mathbf{u}, \mathbf{v} \in \mathbb{C}^n$（複向量），$\langle \mathbf{u}, \mathbf{v} \rangle$ 的定義其實是 $\mathbf{v}^*\mathbf{u} = u_1 \overline{v_1} + u_2 \overline{v_2} + \ldots + u_n\overline{v_n}$，其中 $^*$ 代表 conjugate transpose（將每個元素取共軛後轉置）。至於為什麼複向量的內積不被定義成逐項相乘後相加，簡單來說就是性質太差，能做的事情不多（想想為什麼不能比較兩複數的大小關係）。舉例來說，我們希望一個向量 $\mathbf{u}$ 和自己內積後是一個 $\geq 0$ 的數，代表 $\mathbf{u}$ 的長度平方，且只在 $\mathbf{u} = \mathbf{0}$ 時才是 $0$。不難檢驗 $(z_1, z_2, \ldots, z_n)^T$ 和自己內積為 $|z_1|^2 + |z_2|^2 + \ldots + |z_n|^2$，與我們熟悉的長度平方一致；但如果把內積定義成單純的逐項相乘後相加，只會得到一個奇怪的複數。事實上，內積也只能在 real/complex vector space 上定義，而這道題目考慮的是 $\mathbb{Z}_p^n$，自然沒有內積的結構（或者說沒有合適的定義）。

H. 跑跑遊戲場

筆者在試做題目時，卡在這題的時間最久，浪費了不少時間尋找合適的 divide-and-conquer 演算法，很驚訝現場有人能拿到滿分。由於這題的各種小細節非常多，最後生了 $200$ 多筆測試資料，希望有卡掉所有不小心寫出的小 bug。

I. 黑白機

這題答題狀況比預期的差，推測是被放在最後一題的關係。由於筆者除了寫標程，沒有參與這題的題敘修訂與測資生成，就讓本文在此結束吧。

搜尋此網誌

柊四千的倉庫