ニュース記事をURLで指定するとそれに関連するディベートの論題を自動生成するサンプルを作ってみました。
論題の形式はTHBT/THW/THS/THR、それに自由形式から選べます。
英文のニュース記事だけでなく、日本語の記事でも生成できます。
以前はたしかRSSでニュース記事本文を取り出していたのですが、最近はRSSでの配信はニュースタイトルくらいで個別記事のRSSフィードはなくなっています。
JSON-LDがあればそこからarticleBodyやDescriptionで取得するようにしました。
サイトによってJSON-LDの記載が異なることも多いのでちょっとそこが面倒ですね。
それすらない場合はHTMLからテキスト部分を抽出し、GPTのほうで記事本文を抽出させています。
タグを取り除いても他の記事へのリンクや広告などがあったりするので、できればJSON-LDのあるサイトのほうが望ましいですが。
ニュース記事の内容によってコンテンツフィルタに引っかかることは稀にありますが、それはそもそも論題にふさわしくないテーマともいえるので、ひとまず技術的な部分はこれで十分かなと思います。