2023年振り返り

目次

本業

引き続き検索のためのクローラー・Webデータからの情報抽出をメインでやる部署で働いている。 データ周りの技術スタックとしてはApache HBase, Apache Sparkあたりを利用したクローラーや情報抽出システム開発をやりつつ、更新可能なテーブルフォーマットとしてのApache Icebergの検証・導入を新規に行っていた。 (Storage-Partitioned Joinという機能を活用したので、その記事をあとで書くかも)

来年は論文を読んでて興味を持ったMarkupLM/SimpDOMのようなHTMLを扱える情報抽出モデルを日本語で使えるような取り組みをやってみたいと思っている (LLMの発展も凄まじいのでそちらへのシフトもあるかもだが)

[2110.08518] MarkupLM: Pre-training of Text and Markup Language for Visually-rich Document Understanding

部署では有志でDeep RL Courseの勉強会をやっていた。このコースの演習問題が良かったかは微妙だったが、わからなかったところを調べていく過程で数年前に買った強化学習の教科書が少し読めるようになったのが少し嬉しかった。

huggingface.co

副業①

機械学習システムの前処理をpolarsで高速化したり、Apache AirflowのETLパイプラインのメンテナンスをやっていた。

副業②

お話を聞いてインフラやフロントのトラブルシューティングのお手伝いをしていた。

ピアノ

2021年に12,3年ぶりにピアノの練習を再開して3年目。 今年は下記の曲を練習した。

  • リスト 巡礼の年第2年イタリア 「婚礼」
  • リスト 巡礼の年第2年イタリア 「ペトラルカのソネット 第47番」

11月の発表会ではこのうち「ペトラルカのソネット 第47番」と「エクス・サンバ」を演奏した。(Facebookに動画を上げている)

パスカル・ヒメノという作曲家について今年まで全く知らなかったが、フィードに流れてきてたまたま読んだ記事 の西本夏生さんの紹介に興味を持ち、演奏会用リズムエチュードの録音を聞いてみたところビビッときたという出会いがあった。

発表会の手前になると、度胸をつけるため?高輪ゲートウェイ駅のストリートピアノを弾きにいっていて、駅の環境音の騒がしさと人のいない感じで目立たず練習にちょうど良いのだが、通りかかった外国の方が拍手してくれたり、小さな子が後ろで聞いてくれていたりして、それがとても嬉しかった。また、会社のピアノやってる後輩がたまたま通りかかって聴いてくれたらしい。

来年に向けてはシューベルト=リストの「糸を紡ぐグレートヒェン」、カプースチンの「夢」を練習している。メンデルスゾーンの無言歌集も何曲かやってみたい。

実家の猫が9月末に急逝してしまった。 大動脈血栓塞栓症という検診で見つかるのも難しく発症後の予後も悪い病気で、前日まで普通にしていたそうなのだが発作が起こって心の準備もできないままあっというまに亡くなってしまった。 生まれたばかりで捨てられていたのを母親が拾ってきた猫で、知らない人にも寄っていくくらい人懐っこく、どこか飄々としたところもある猫だった。 家族全員遊んでもらっていたので悲しみに暮れていた(だいぶましにはなってきた)。