← ブログに戻る

arXivの論文をMarkdownとして保存する方法

· Save Team
arxivresearchacademicpapers

arXivはAI、物理学、数学、計算機科学の最先端研究の第一の情報源です。しかし、研究論文は内容が濃く、arXivのインターフェースでは追跡中の論文を保存・整理するのが容易ではありません。ここでは、arXivのコンテンツをクリーンなMarkdownとしてキャプチャする方法を紹介します。

arXivの論文をMarkdownで保存すべき理由

arXiv論文を扱うには摩擦があります:

  • PDFは検索しにくい --- 保存した論文をまたいだ全文検索ができない
  • アブストラクトだけでは不十分 --- しかしすべてのPDFをダウンロードするのは圧倒的
  • 整理の手段がない --- arXivにはフォルダ、タグ、個人ライブラリがない
  • AIツールはPDFが苦手 --- MarkdownのほうがAIによる処理がはるかに容易

SaveがarXivからキャプチャする内容

アブストラクトページ

  • 論文タイトルと著者
  • 完全なアブストラクト
  • カテゴリとサブジェクト
  • 投稿日
  • PDFおよびHTML版へのリンク

HTML論文(arXiv HTML5)

arXivは現在、多くの論文のHTML版を提供しています。Saveがキャプチャする内容:

  • セクション構造を含む論文全文
  • 数式と数学的表記
  • テーブルと図(参照として)
  • 参考文献と引用
  • 定理と証明のブロック

出力例(アブストラクトページ)

# Attention Is All You Need

**Authors:** Ashish Vaswani, Noam Shazeer, Niki Parmar,
Jakob Uszkoreit, Llion Jones, Aidan N. Gomez,
Lukasz Kaiser, Illia Polosukhin

**Submitted:** June 12, 2017
**Categories:** cs.CL, cs.LG

---

## Abstract

The dominant sequence transduction models are based on complex
recurrent or convolutional neural networks that include an encoder
and a decoder. The best performing models also connect the encoder
and decoder through an attention mechanism. We propose a new simple
network architecture, the Transformer, based solely on attention
mechanisms, dispensing with recurrence and convolutions entirely...

**PDF:** https://arxiv.org/pdf/1706.03762
**HTML:** https://arxiv.org/html/1706.03762

ユースケース

文献レビュー

  • アブストラクトと主要論文をMarkdownとして保存
  • Obsidianに検索可能な文献データベースを構築
  • Dataviewクエリでトピック、年、ステータス別に論文を追跡
  • Wikiリンクで論文間を相互参照

リサーチの追跡

  • 自分の分野で公開される論文をリアルタイムで保存
  • フロントマターのステータスタグ付きで読書キューを構築
  • 読了済み、引用済み、再読が必要な論文を追跡

AI支援リサーチ

  • 保存した論文をAIに提供して要約や解説を依頼
  • 複数の論文間で手法をAIに比較させる
  • Markdownコレクションから文献レビューの下書きを生成

勉強会

  • 研究グループと論文サマリーを保存・共有
  • 標準化されたMarkdown形式で全員が使える
  • 各論文に自分のメモや質問を追加

より良い結果を得るためのヒント

  1. 利用可能な場合はHTML版を保存 --- arXivページの「HTML」をクリックして論文全文を取得
  2. アブストラクトページで素早くキャプチャ --- メタデータとサマリーだけ必要な場合はアブストラクトページを保存
  3. フロントマターを追加 --- 保存後にタグ、ステータス、評価を追加して整理を向上
  4. バッチ保存 --- 学会のプロシーディングスを確認する際は、1セッションで複数の論文を保存

Obsidianでの論文整理

保存後にフロントマターを追加:

---
title: "Attention Is All You Need"
authors: ["Vaswani et al."]
year: 2017
arxiv: "1706.03762"
status: read
rating: 5
tags: [transformers, attention, nlp]
---

次にDataviewでクエリ:

TABLE authors, year, rating
FROM "papers"
WHERE contains(tags, "transformers")
SORT year DESC

はじめよう

Chrome Web StoreからSaveをインストール --- 研究ライブラリを構築しましょう。


ご質問は [email protected] まで