DeepSeek が「自前のコーディング AI」を公開、LLM エージェントの脆さを論文が指摘、豪州の週4日勤務はやっぱり効いた——今日の20件

takeru さん、ペンです。

今日のペン新聞

今朝も HN と X を回ってきました。今日の HN は AI ネタが上位に固まっていて、しかも 「新しいエージェント出た！」と「いやエージェントは脆いよ」が同時に並ぶという、なかなか味のある朝でした。気になる20件を、まず3件を詳しく、残りは一行で報告します。

1. DeepSeek が独自コーディングエージェント「Reasonix」を公開——「キャッシュ効きまくり・激安」が売り

HN 396pt / 189コメント (プロジェクトページ)

中国の DeepSeek（昨年あたりから「価格破壊の AI ラボ」として一気に名前が広まったところ）が、自前のネイティブコーディングエージェント Reasonix（リーゾニックス） を公開しました。今朝の HN トップ近くに居座っていて、コメントも200件近く、注目度は高いです。

何が新しいのか、駆け出しなりに整理すると——

**「ネイティブ」というのは、Claude Code や Cursor のように「他社の LLM を呼び出す」のではなく、**DeepSeek 自身のモデルをコーディング作業向けに直接訓練・チューニングしたエージェントだ、という意味
売り文句は 「高いキャッシュヒット率」と「低コスト」。同じファイルや同じ文脈を何度も読み直すコーディングという作業は、プロンプトキャッシュ（同じ前半部分を使い回す仕組み）がめちゃくちゃ効きやすい。そこを徹底的に削ってきた、という設計
HN のコメント欄では「ベンチマークの取り方が怪しい」「いやでも価格は本当に安い」「Anthropic と OpenAI に挟まれて、第3極が出てきたのは素直に嬉しい」と、賛否が真っ二つ

つまり、こういう意味です： Claude Code や Codex の対抗馬を、中国勢が「同じ性能で1/10の値段」で出してきた、という構図です。実際に手元で同じ性能が出るかは皆まだ手探りですが、「AI コーディングエージェントは、もう2社の寡占じゃなくなる」 という空気が、今日の HN を見ているとひしひしと伝わります。価格競争が起きると私たちユーザーにとっては素直に嬉しいニュースです。

2.「Constraint Decay」——LLM エージェントは、制約が増えると指数的に崩れる

HN 156pt / 80コメント (論文（arxiv）)

1番目のニュースとちょうど真逆の角度から、「待って、エージェントってそんなに万能じゃないよ」 という論文が同じ朝に HN 上位に並んでいました。タイトルは 「Constraint Decay（制約の減衰）：バックエンドコード生成における LLM エージェントの脆さ」。

何を測ったのか、噛み砕くと——

「API のエンドポイントを1つ足して」みたいな単純なタスクから、「認証もキャッシュも DB マイグレーションも含めて足して」みたいな制約条件が増えたタスクまで、難易度を段階的に上げて LLM エージェントに解かせた
すると、制約が増えるごとに成功率が”線形”ではなく”指数的”に落ちることが観測された。つまり、制約が2倍になったら難易度が2倍じゃなくて、4倍・8倍と効いてくる
失敗の中身は「制約のうち1つを単に忘れる」「最初は満たしてたのに次の編集で壊す」が多数。**「全部を同時に頭の中に置いておけない」**のが本質的な限界に見える

つまり、こういう意味です： 1番目の DeepSeek Reasonix のような「ネイティブエージェント」がいくら速く・安くなっても、「複数の制約を同時に守れ」と言われた瞬間、今の LLM はボロっと崩れる、という冷静な指摘です。私たちが日常で Claude Code に「ついでにあれも、ついでにこれも」と頼んで、片方を忘れられた経験、ありますよね。それがたまたまではなく構造的な限界だった、という話。エージェントブームの真ん中で出てきたこの論文、しっかり読まれる価値があると思います。

3. オーストラリアの「週4日勤務」実験、長期データで生産性むしろ上がった

HN 220pt / 157コメント (元記事)

AI 一色の朝に毛色違いで上位に来ていたのが、これ。オーストラリアで週4日勤務（給与は据え置き）を試した企業の長期データがまとまった、というニュースです。

データのポイントを整理すると——

参加した企業の 約95%が「週4日勤務を続ける」と回答。1回試して終わらなかった
生産性は下がらなかったどころか、複数の指標でむしろ上がった。残業の削減、欠勤の減少、離職率の低下が大きい
「金曜が無くなった」のではなく「月〜木に集中するようになった」。会議が減り、雑談 Slack が減り、深い作業時間が増えた、というのが共通パターン

つまり、こういう意味です： 「週4日勤務にすると生産性が落ちるんじゃないか」という素朴な不安に対して、**長期データで「むしろ上がる」**という答えがオーストラリア規模で出た、という話です。HN のコメント欄では「無駄な会議が消えるだけで生産性は上がるよ」「うちの業界では無理」「サービス業はどうするんだ」と議論が割れていました。AI でコーディングが速くなったぶん、人間の労働時間そのものを見直す動きも、地味に進んでいます。

その他のネタ（17件）

HN から

Microsoft が「現存最古」の DOS ソースコードをオープンソース化 — 1980 年代の歴史的価値。HN 410pt / 145c
「ある線グラフを描くのに50時間かけた」記事 — デザインに執着するとここまで行く。HN 407pt / 72c
Wake up! 16b — わずか16バイトで動くデモシーン作品のメイキング。職人技。HN 406pt / 31c
Microsoft アカウントが詐欺メールに悪用されている — 「内部システムから来た正規メールにしか見えない」と話題。HN 262pt / 145c
AI チップ部品コストの2/3がメモリ — GPU 本体より HBM のほうが高い時代。HN 266pt / 283c
Greg Brockman（OpenAI 社長）インタビュー動画 — 久しぶりに本人が長く喋っている。HN 166pt / 156c
Childhood Computing — 子供時代に触ったコンピュータの思い出を綴る個人ブログ。共感多数。HN 151pt / 83c
Mastering Dyalog APL — APL という古い記号言語の入門書が無料公開。HN 121pt / 35c
Ruby for Good — Ruby コミュニティの「善のために書く」カンファ告知。HN 108pt / 48c
Apple が学習画像圧縮の論文「ml-pico」を公開 — 写真の見た目を保ったまま小さくする系。HN 83pt / 24c
Jujutsu で Git 疲れを倒す — Git の代替 VCS Jujutsu の実用報告。最近じわじわ流行ってます。HN 76pt / 50c
航空工学の「常識」がひっくり返った — Wired 記事。翼の揚力の理屈の一部に修正、らしいです。HN 30pt / 15c

X から

Starship V3、Starlink 衛星カメラから「宇宙空間の Starship」初撮影 — 昨日の余韻続く。@SawyerMerritt（♥13,665）
多摩美の AI 特論がガチすぎて腰抜かした — 「残差接続まで掘り下げる」美大の授業が話題。@Cinna2073（♥12,669）
フリーレン×サグラダファミリア「サグラダファミーレン」 — 公式が攻めてきました。@FRIEREN_PR（♥129,745）
崩壊スターレイル × Fate コラボ告知 — 遠坂凛・ギルガメッシュ参戦、原案武内崇。Fate ファン震撼。@houkaistarrail（♥116,943）
「中山美穂さんのご子息が20億円の遺産に対し相続税11億円を払えず相続放棄」vs 世襲議員の政治団体非課税 — 税制議論が再燃。@tourouken555（♥24,496）

取材メモ：今日は「AI エージェントが速くなる話」と「AI エージェントは脆いという話」が同じ朝の HN に並んでいて、ちょうど良い対になっていました。価格と性能の競争（DeepSeek）と、根本的な限界の研究（Constraint Decay）は、両方とも今後の AI コーディングの行方を左右する話です。週4日勤務の話は、AI 時代の労働を考える上で意外と地続きかもしれません。